
大數(shù)據(jù)是一種新的數(shù)據(jù)形態(tài)和實踐,它與當前主流的數(shù)據(jù)應用實踐并存,而非取代;大數(shù)據(jù)也是一種戰(zhàn)略、世界觀和習慣;“數(shù)據(jù)即價值”的價值觀早已存在,Value不是大數(shù)據(jù)專享的屬性,小數(shù)據(jù)照樣有大價值.
1. 大數(shù)據(jù)是一種新的數(shù)據(jù)形態(tài)和實踐,它與當前主流的數(shù)據(jù)應用實踐并存,而非取代。而且,它在相當長的時間內(nèi)仍然是個新鮮事物,即使年復合增長率高達32%,到2016年全球大數(shù)據(jù)技術和服務市場總額也就是240億美金左右(IDC在2012年底的預測)。不切實際、一窩蜂地上大數(shù)據(jù)項目不應鼓勵。明明不算大數(shù)據(jù),要裝成有,偏要削足適履上馬Hadoop和NoSQL,更不足取。
2. 大數(shù)據(jù)也是一種戰(zhàn)略、世界觀和習慣。即使今天沒有大體量的數(shù)據(jù),還是可以盡可能自覺、客觀、全面地測量世界,為未來的大數(shù)據(jù)實踐做準備。對于一個企業(yè)或系統(tǒng)來說,挑戰(zhàn)在數(shù)據(jù)采集,而非存儲。微信在設計之初就把數(shù)據(jù)監(jiān)控精細化,并納入基礎框架,這是意識和實力的體現(xiàn)。有多少公司像彭博社那樣“如饑似渴”地采集數(shù)據(jù)?它能夠雇傭一個衛(wèi)星每周對位于俄克拉何馬的美國最大原油儲備庫拍照,根據(jù)油罐浮動頂?shù)年幱伴L度來判斷原油儲備量的變化。成功者有成功的必然性。
3. “數(shù)據(jù)即價值”的價值觀早已存在,Value不是大數(shù)據(jù)專享的屬性,小數(shù)據(jù)照樣有大價值。大數(shù)據(jù)的功勞在于喚醒大家的意識和覺悟。同樣,從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐也由來已久,橫跨數(shù)據(jù)庫、統(tǒng)計學和機器學習交叉學科的數(shù)據(jù)分析是大數(shù)據(jù)分析的基礎,但傳統(tǒng)的數(shù)據(jù)分析實踐是無法適應大數(shù)據(jù)的發(fā)展的,這一點我會在分析這一部分中細談。
總之,不能神化大數(shù)據(jù)是萬靈藥,也不能矮化大數(shù)據(jù)就是包裝舊概念。對一部分人來說,大數(shù)據(jù)已經(jīng)是個客觀存在和競爭優(yōu)勢;對絕大多數(shù)人來說,大數(shù)據(jù)可以是一種“從現(xiàn)在做起”的世界觀,和未雨綢繆、決戰(zhàn)未來的戰(zhàn)略。本系列確有為大數(shù)據(jù)推波助瀾之意,但不會隨波逐流兜售概念;相反,我會剝開每一個概念,追溯它的源頭和發(fā)展過程,并給出個人的見解。
正文:
上回說到對大數(shù)據(jù)大體量的界定,只有少數(shù)產(chǎn)業(yè)和企業(yè)能夠對大體量感同身受,對更多的憧憬者來說,大數(shù)據(jù)不是進行時,而是未來時。這讓無數(shù)空有一身Hadoop技藝的架構師和程序猿/媛扼腕太息。
且慢,聽聽微軟研究院這位老哥的吐槽:根據(jù)微軟和Yahoo的統(tǒng)計,所有Hadoop任務放一起一平均,輸入數(shù)據(jù)集的大小也就是十幾個GB;即使是Facebook,90%的任務數(shù)據(jù)集小于100GB。這這這?這又讓言必稱ZB的布道者們情何以堪?
說來說去還是要回到大數(shù)據(jù)的定義上來。上回說IDC為業(yè)界巨擘搖旗吶喊ZB時代,旋即又用100TB作為大數(shù)據(jù)的門檻。其實,100TB不是故事的全部。這次好好擺一擺IDC對大數(shù)據(jù)的界定。IDC高手論道,一張圖搞定:
它的三步界定法是這樣講的:
1. 三個數(shù)據(jù)源場景:數(shù)據(jù)要么不小于100TB,要么來自于超高速的數(shù)據(jù)流,或者年增速大于60%。這三者是OR的關系,滿足其一即可。這下好,很多中小企業(yè)可以進入大數(shù)據(jù)的候選隊伍了。王侯將相,寧有種乎?數(shù)據(jù)少但速度可以快,基數(shù)小但增速可以大,只要秉持自覺、客觀、全面測量世界的大數(shù)據(jù)觀。
2. 無論你有哪種或哪幾種數(shù)據(jù),必須部署在可動態(tài)適應的基礎設施(dynamically adaptable infrastructure)上。IDC專門強調(diào),此基礎設施并非一定要水平擴展架構(scale-out infrastructure),傳統(tǒng)的scale-up架構也行。更重要的是,這個新名詞把基于云的基礎設施也包括了進去。要做大數(shù)據(jù)并非一定要自己部署Hadoop或NoSQL,把基礎設施的事情留給云,自己專心從數(shù)據(jù)里提煉價值,不亦樂乎?有了Amazon AWS,四個人就可以做一個大數(shù)據(jù)初創(chuàng)企業(yè)Prismatic。
3. 第三步兩個數(shù)據(jù)部署場景:部署中必須有不少于兩個的數(shù)據(jù)格式或數(shù)據(jù)源,或者高速流數(shù)據(jù)源(如點擊流或機器產(chǎn)生的數(shù)據(jù)流)。
好吧,不用執(zhí)念于Volume了,我們接著這第三步講Variety。
自道哥(Doug Laney)開立“三V經(jīng)”伊始,Variety在大數(shù)據(jù)五個大V(前幾天某人又提了第六個V,Viability,以后再表)排名老三,為什么Variety拿到系列第二篇講呢?
在下不是百曉生,自然不敢亂排座次。雖然在下確實自賦過順口溜一句:“大(Volume)、雜(Variety)、快(Velocity)、真(Veracity)、值(Value)”(大雜膾真值),但這萬萬不是Variety排第二的理由。Variety能做老二的最大底氣來自于占大數(shù)據(jù)體量八成以上的非結構化數(shù)據(jù)。天知道這“八成”是怎么算出來的,但既然美林從98年就開始在企業(yè)數(shù)據(jù)市場這么說,十幾年過去應該有增無減。
Variety從本義來說是指數(shù)據(jù)種類的多樣性,我把數(shù)據(jù)質量的多樣性即混雜性(舍恩伯格《大數(shù)據(jù)時代》中對messy的翻譯正好是“混雜”)也放入這一篇講。按理說混雜性也可以放在Veracity篇,但我感覺從方法論上多樣性和混雜性有更多的相通之處。
多樣性
如果一定要把數(shù)據(jù)分類,最簡單的方法是分兩類,結構化與非結構化。再深究下去,非結構化事實上是未必成立的概念。信息里的“結構”是永遠存在的,只不過結構尚未被發(fā)現(xiàn),或結構變化無定(半結構化或多結構化),或者結構存在但機器卻處理不了。就像最典型的非結構化數(shù)據(jù)—文本,它有語言學意義上的結構(語法和語義),又有敘事意義上的結構(三段式、先破后立等),還具有結構化的元數(shù)據(jù)(作者、標題、發(fā)布時間等),但文本一直是非結構化數(shù)據(jù)的典型。有老學究一本正經(jīng)說:非結構化?此言差矣;應該說非模型化(unmodeled),結構本在,只是未建模而已。早期的非結構化數(shù)據(jù),在企業(yè)數(shù)據(jù)的語境里主要是文本,如電子郵件,文檔,健康/醫(yī)療記錄。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,又擴展到網(wǎng)頁、社交媒體、感知數(shù)據(jù),涵蓋音頻、圖片、視頻、模擬信號等等,真正詮釋了數(shù)據(jù)的多樣性。
從另一個維度上看,數(shù)據(jù)的多樣性又表現(xiàn)在數(shù)據(jù)來源和用途上。拿衛(wèi)生保健數(shù)據(jù)來講,大致有藥理學科研數(shù)據(jù),臨床數(shù)據(jù),個人行為和情感數(shù)據(jù),就診/索賠記錄和開銷數(shù)據(jù)四類。麥肯錫在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》里關于美國衛(wèi)生保健行業(yè)如何利用多樣化數(shù)據(jù)給出了精彩的建議,有興趣的可以去讀一讀。
又如交通領域。北京市交通智能化分析平臺數(shù)據(jù)源來自路網(wǎng)攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業(yè),還有問卷調(diào)查和GIS數(shù)據(jù)。從數(shù)據(jù)體量和速度上也達到了大數(shù)據(jù)的規(guī)模:4萬輛浮動車每天產(chǎn)生2000萬條記錄;交通卡刷卡記錄每天1900萬條;手機定位數(shù)據(jù)每天1800萬條;出租車運營數(shù)據(jù)每天100萬條;高速ETC數(shù)據(jù)每天50萬條;針對8萬戶家庭的定期調(diào)查,等等。發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關性,是大數(shù)據(jù)做前人之未做、前人所不能的機會。更甚者,交通狀況與其它領域的數(shù)據(jù)都存在較強的關聯(lián)性:有研究發(fā)現(xiàn),可以從供水系統(tǒng)數(shù)據(jù)中發(fā)現(xiàn)晨洗的高峰時間,加上一個偏移量(通常是40-45分鐘)就是交通早高峰時間;同樣可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計出傍晚辦公樓集中關燈的時間,加上偏移量來估計出晚上的堵車時點。國外的研究還發(fā)現(xiàn)了交通事故率與睡眠質量的關聯(lián),不一而足。
有人說咖啡館的好處是“l(fā)et ideas have sex”,大數(shù)據(jù)產(chǎn)生價值的關鍵是“l(fā)et data have sex”。尤其是對不能坐擁大數(shù)據(jù)的企業(yè)來說,跳出自己的圈子,尋找新的相關數(shù)據(jù)源(如社交媒體,上下游企業(yè)或廣告、應用聯(lián)盟,數(shù)據(jù)市場)是出奇制勝的策略。即使牛如Apple,它也要雜湊Google、Wolfram Alpha、Wikipedia、Yelp等不同的外部數(shù)據(jù)源來讓Siri足夠聰明。
混雜性
我把混雜性作為數(shù)據(jù)質量的一個考量(數(shù)據(jù)質量的問題,在漫談第五個V即Veracity的時候,還要涉及),即數(shù)據(jù)里混有雜質的特性。數(shù)據(jù)的混雜性是不可避免的,既可能有數(shù)據(jù)產(chǎn)生主體的問題,又可能有采集手段、存儲方式的問題。
有人說這不是個新問題,我們很早以前就搞數(shù)據(jù)清洗。話是沒錯,只是在大數(shù)據(jù)時代,我們完全可以用一種更輕松的心態(tài)看待混雜性,并接受它帶來的精確性的問題。
試想,如果雜質是偶然的,它一定會被更多的正確的數(shù)據(jù)淹沒掉;如果噪音存在規(guī)律,足夠多的數(shù)據(jù)可以發(fā)現(xiàn)這個規(guī)律,從而把噪音過濾;如果誤差是內(nèi)在的必然性,更多樣化的數(shù)據(jù)采集和信息融合也必然能糾正誤差。
拿幾個我在Intel做過的項目作為例子:
1. 定位:GPS有幾十米的誤差,但加上了地圖數(shù)據(jù)可以保證你導航無虞;GPS信號在城市環(huán)境里時斷時續(xù),基于慣性導航的系統(tǒng)可以維持導航系統(tǒng)的工作;基于運動傳感器的室內(nèi)慣性導航有累積誤差,而且辦公室環(huán)境里磁傳感器受干擾嚴重,辦法是跟基于Wifi的室內(nèi)定位和地圖匹配結合起來;通過SLAM(Simultaneous Localization and Mapping)構建室內(nèi)地圖同樣受慣性導航傳感器精度的限制,但如果有Wifi的幫忙,或者有大量路徑軌跡,完全可以把誤差糾正,等等。
2. 智慧城市里的視覺分析:基于單個攝像頭的車牌抓取和識別可能受光照條件、空氣能見度、車輛運行速度和遮擋情況的影響,但獲得的部分信息(不完整車牌和車輛特征)可以跟其它攝像頭獲取的信息進行對照和相互印證。
3. PM2.5的檢測儀太貴,5000美刀,很準很穩(wěn)定。買個灰塵傳感器,幾十塊人民幣,不準不穩(wěn)定。那兩個傳感器放一起呢,平均、平滑過的數(shù)據(jù)穩(wěn)定了很多。再把這個數(shù)據(jù)跟官方的數(shù)據(jù)做關聯(lián),跟開放遙感數(shù)據(jù)(MODIS)推測的PM2.5值做關聯(lián),跟區(qū)域溫濕度、氣壓和風向做關聯(lián),也許你就有了個200塊人民幣的個人PM2.5檢測儀。
類似數(shù)據(jù)融合的例子有很多,涉及連續(xù)時/空軸的同質數(shù)據(jù)和同一時/空點的異構數(shù)據(jù)。時空關系是最典型的一種上下文語境(context)。在數(shù)據(jù)全集前提下,通過上下文語境來組織、過濾和呈現(xiàn)具有相關性的數(shù)據(jù)集/數(shù)據(jù)流是提升管理和分析效率的一種重要方式。大數(shù)據(jù)采集和存儲盡量要全集,而管理和分析未必是多多益善(以后在分析篇中詳述),抓住context很關鍵。在數(shù)據(jù)管理上,geocoded data或time series數(shù)據(jù)庫就是利用時空語境來組織和優(yōu)化多源數(shù)據(jù)的例子。
對于數(shù)據(jù)擁有者而言,數(shù)據(jù)的多樣性和混雜性具有多重含義:
1. 原始數(shù)據(jù)層面,多樣性是不因意志轉移的事實,必須準備好多種采集和存儲手段,保留這種多樣性。
首先是采集。彭博社近乎偏執(zhí)地采集數(shù)據(jù),從用戶使用彭博終端的每一次按鍵,到每一個員工的即時位置,從公司創(chuàng)始人每一次訪問家族基金的記錄,到前文所述石油庫存的照片,甚至發(fā)展到丑聞。對絕大多數(shù)企業(yè)來說,除了前面所說的外部數(shù)據(jù)源,仔細研究一下IT系統(tǒng)的日志和歸檔功能,也許無需大動干戈就有意外的收獲。
對于個人來說,基督教有諺云“凡走過必留下痕跡”。大可不必像MIT Geek Deb Roy那樣把自家過日子的分分秒秒都錄下來,也不用像Bell定律的提出者Gordon Bell那樣把生活工作的點滴事無巨細記錄到MyLifeBits里,“Total Recall”(電影《全面記憶》,Bell在2009年寫的一篇文章以此為標題)還太遙遠,但有了手機,我們真的可以更好地記錄自己、量化自我。Small data是Big data的一個有趣側面,以后也許還會述及。
其次是存儲。對于非結構化數(shù)據(jù),文件系統(tǒng)是主流的存儲選擇,但是在存取、索引以及元數(shù)據(jù)管理上不是最優(yōu)。而結構化數(shù)據(jù)主要依靠關系型數(shù)據(jù)庫,主要問題是結構變化時太折騰,當數(shù)據(jù)在TB級是也太慢。NoSQL數(shù)據(jù)庫應時而生,一是能支持靈活的結構(schema)和非結構化數(shù)據(jù),二是針對大數(shù)據(jù)體量可擴展性更好。同時,文件系統(tǒng)也得到了發(fā)展,與對象存儲相映生輝,不僅在效率上提升(如Facebook Haystack對小圖片文件),也能更好地支持管理和分析(如支持SQL-like語言來操作)。由于NoSQL數(shù)據(jù)庫和文件/對象存儲不能很好地支持數(shù)據(jù)庫事務(ACID),不但關系型數(shù)據(jù)庫還有用武之地,NewSQL數(shù)據(jù)庫也因此脫穎而出。
2. 數(shù)據(jù)準備層面,怎么對多樣化的數(shù)據(jù)建模,怎么在把多樣化的原始數(shù)據(jù)轉換為元數(shù)據(jù),怎么在元數(shù)據(jù)里保留數(shù)據(jù)多樣性、又能夠保證數(shù)據(jù)處理手段的統(tǒng)一性。
這是一個很大的課題。數(shù)據(jù)處理前會有大量的時間做數(shù)據(jù)準備(到達80%),涉及到抽取、清洗、轉換和集成,做得不好就只能是悲慘的“garbage in, garbage out”了。對于非結構化數(shù)據(jù)而言,最大的問題是究竟抽取什么出來,是一些特定的低階特征、還是具有高階語義的標記或元數(shù)據(jù)?到頭來,非結構化數(shù)據(jù)的“結構”很容易受到主觀假設的影響。
多樣化數(shù)據(jù)的存儲有幾個問題,一個是多類數(shù)據(jù)放一起還是分開存,二是元數(shù)據(jù)怎么存儲、與源數(shù)據(jù)如何關聯(lián),還有就是怎么能夠最好地支持未來的分析。Booz Allen的Data Lake是把幾方面做得比較好的。對于非結構化數(shù)據(jù)來說,Apache UIMA(Unstructured Information Management Architecture)是不錯的選擇,IBM的Watson主機在《Jeopardy》里戰(zhàn)勝人類,軍功章里有UIMA的一份。
3. 數(shù)據(jù)處理層面,主要是怎么在處理中利用好數(shù)據(jù)的多樣性。這個在數(shù)據(jù)分析篇再談。
4. 多樣化數(shù)據(jù)信息密度不同,處理的代價不同,需要保存的時間也不一樣,既要全局重視,也要區(qū)別對待,在一個統(tǒng)一的大數(shù)據(jù)架構里允許差異化的數(shù)據(jù)存儲、管理和處理,是低成本和高靈活性的關鍵。
舉個例子說,現(xiàn)在的平安城市、智能交通有大量的視頻數(shù)據(jù),一般需要保持30-60天。如果用HDFS的缺省配置來存,3份拷貝在成本上吃不消。而從視頻里提取出來的圖片保持時間較長,元數(shù)據(jù)就更長了,因此對于數(shù)據(jù)持久性上要給予不同的對待。考慮到數(shù)據(jù)搬移的代價,這些不同的數(shù)據(jù)可能還要存在不同的地方,視頻可能在靠近它產(chǎn)生的地方即邊緣區(qū)域,元數(shù)據(jù)在中央。這樣,需要把計算發(fā)送到數(shù)據(jù)保存的地方。文章來源:CDA數(shù)據(jù)分析師培訓官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10