
大數(shù)據(jù)的邊界:被改變的與無法改變的
“大數(shù)據(jù)”的洶涌澎湃,讓人們逐漸意識(shí)到,由此帶來的,極有可能是一場(chǎng)發(fā)生在幾乎所有領(lǐng)域的顛覆性革命。只是,雖然坊間有關(guān)大數(shù)據(jù)的論著很多,但敢于將這種趨勢(shì)上升到“主義”高度的,恐怕非史蒂夫·洛爾莫屬。身為在《紐約時(shí)報(bào)》撰稿長達(dá)二十余年的非虛構(gòu)寫作者和資深記者、編輯,因?yàn)殚L期從事數(shù)據(jù)科學(xué)報(bào)道,洛爾早在十多年前就敏銳地感受到“大數(shù)據(jù)”即將給人類帶來的變化。而眼前的這本《大數(shù)據(jù)主義》,不同于此前的大多數(shù)同類論著的動(dòng)人之處在于,它以一個(gè)在數(shù)據(jù)分析行業(yè)找到人生價(jià)值的年輕人、曾為臉譜網(wǎng)建立了最初的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的哈佛畢業(yè)生杰夫·哈梅巴赫的經(jīng)歷,以及人類數(shù)據(jù)時(shí)代的標(biāo)桿——IBM公司的大數(shù)據(jù)生存法則為主線,在敘事中又穿插了大量相關(guān)人物的故事和觀點(diǎn),勾勒出了近幾年大數(shù)據(jù)浪潮對(duì)人類生活諸多方面的深刻影響。
早在2012年初,史蒂夫·洛爾便先知先覺地以“大數(shù)據(jù)主義”為題,在《紐約時(shí)報(bào)》“周日評(píng)論”板塊發(fā)表了一篇社論,網(wǎng)站點(diǎn)擊量激增,很多讀者還寫了關(guān)于這篇文章的評(píng)論?!洞髷?shù)據(jù)主義》便是對(duì)上述主題進(jìn)一步挖掘的成果。
杰夫·哈梅巴赫,這位曾在華爾街這個(gè)聰明人匯集的行業(yè)做金融數(shù)據(jù)分析,之后又加盟臉譜網(wǎng),在從事數(shù)據(jù)科學(xué)研究的同時(shí)也為自己的人生贏得了財(cái)務(wù)自由。離開臉譜網(wǎng)后,他自己創(chuàng)辦了一家名為Cloudera的公司,自任首席科學(xué)家,編寫用于數(shù)據(jù)科學(xué)研究的軟件。2012年夏天,年僅28歲的哈梅巴赫又轉(zhuǎn)戰(zhàn)醫(yī)療業(yè),加入紐約西奈山伊坎醫(yī)學(xué)院,領(lǐng)導(dǎo)一個(gè)數(shù)據(jù)小組,從事遺傳信息的研究,為探索疾病模型的建立方法和治療手段尋找突破口,這是他認(rèn)為的目前能將數(shù)據(jù)科學(xué)研究投入應(yīng)用的最佳途徑。而作為一家有著上百年歷史的科技巨頭,IBM對(duì)數(shù)據(jù)技術(shù)的進(jìn)展同樣甚為關(guān)注,他們?cè)谳^早時(shí)候就組建了研究團(tuán)隊(duì),制定了戰(zhàn)略方針,投入了大量資金,招募大批該領(lǐng)域的專家,團(tuán)隊(duì)人數(shù)至今已達(dá)2000人。其首席執(zhí)行官甚至告訴洛爾:“我們把整個(gè)公司的前途都押在了大數(shù)據(jù)技術(shù)的應(yīng)用上?!?/span>
大數(shù)據(jù)生存法則
自1946年計(jì)算機(jī)問世以來,便不可逆轉(zhuǎn)地加速改變著人類的生活方式和進(jìn)程。時(shí)至今日,海量存在于互聯(lián)網(wǎng)及其他各處、能被人們獲取的信息,早已由千字節(jié)(KB)、兆(MB)、千兆(GB)、太字節(jié)(TB),躍升為拍字節(jié)(PB)、艾字節(jié)(EB)、澤字節(jié)(ZB),乃至堯字節(jié)(YB)。據(jù)測(cè)算,如果將人類現(xiàn)存的信息全部匯集并存貯起來,需要用到的ipad,疊加起來的厚度可繞地球三分之二圈。正是這驚人的數(shù)據(jù)總量,使人類在處理信息時(shí)能經(jīng)歷從量變到質(zhì)變的過程,就如同物質(zhì)到了納米級(jí)別,各種原有的特性都會(huì)發(fā)生驚人的突變,“大數(shù)據(jù)”概念的誕生,正是數(shù)據(jù)存量不斷累積的必然結(jié)果。
面對(duì)不斷生成的各種數(shù)據(jù),尤其同一個(gè)系統(tǒng)或平臺(tái)上生成的數(shù)據(jù),盡管以人類的大腦很難理清它們相互之間的關(guān)系,對(duì)這些數(shù)據(jù)得以如此產(chǎn)生的前因后果更無法給出合乎邏輯的解釋,但它們之間確實(shí)存在著一定的相關(guān)性。盡管以人類現(xiàn)有的理解能力看來,這種相關(guān)性并不十分清晰,甚至有幾分神秘,但通過總結(jié)這一系列數(shù)據(jù)之間的生成規(guī)律,人們?nèi)匀豢梢员冗^去更為有效地決策,而不是像過去通常所做的那樣,依靠個(gè)人直覺或是一些只可意會(huì)不可言傳的經(jīng)驗(yàn)來做出某個(gè)重要決定。因此,許多在過去看來無用的數(shù)據(jù),今日都“變廢為寶”了。舉例來說,世界最大零售商沃爾瑪通過對(duì)大數(shù)據(jù)統(tǒng)計(jì)和研究發(fā)現(xiàn),男性顧客在購買嬰兒尿片時(shí),通常會(huì)順便買上幾瓶啤酒。盡管商家不知其中緣由,但還是果斷推出了啤酒與尿布捆綁銷售的促銷方式,提升了啤酒銷量。由此看來,正是大數(shù)據(jù)帶來的定量分析方法,為人們的決策帶來了新的參考依據(jù)。作為一種創(chuàng)新工具,它還催生了大量相關(guān)技術(shù),如社交媒體、傳感器信號(hào)、基因組信息等,不僅有利于經(jīng)濟(jì)增長,還可以幫助我們重塑構(gòu)建世界的方式,甚至在一定程度上改變我們世界觀。
盡管大數(shù)據(jù)技術(shù)剛剛起步,但如今可涵蓋的應(yīng)用領(lǐng)域已十分廣泛:從挖掘數(shù)據(jù)幫助企業(yè)經(jīng)營決策,到對(duì)社交媒體用戶展開細(xì)致入微的數(shù)據(jù)分析,提高網(wǎng)站的廣告點(diǎn)擊率;從利用大數(shù)據(jù)培育性能前所未有的智能機(jī)器人,到推動(dòng)一些傳統(tǒng)產(chǎn)業(yè)的升級(jí)換代。此外,還有更為性命攸關(guān)的醫(yī)療行業(yè)的“大數(shù)據(jù)革命”。例如有人提出,許多慢性疾病并非個(gè)體基因引起,而是一種復(fù)雜的網(wǎng)絡(luò)性紊亂,涉及從分子、細(xì)胞、組織、器官到人類社群的各個(gè)環(huán)節(jié)。因此他們將一組涉及年齡、病史、生活方式和環(huán)境等可能影響疾病的發(fā)生發(fā)展因素,通過復(fù)雜的數(shù)學(xué)模型,全部轉(zhuǎn)化為數(shù)字,以便試驗(yàn)性地檢測(cè)一個(gè)人三年內(nèi)患上某種疾病的可能性。盡管從定量分析角度看,精密科學(xué),如物理學(xué)、化學(xué)等學(xué)科更為成熟,預(yù)測(cè)結(jié)果也更準(zhǔn)確,但人們?nèi)栽谂σ龑?dǎo)醫(yī)療行業(yè)向定量分析的方向發(fā)展,而非僅僅依靠經(jīng)驗(yàn)對(duì)人的健康狀況定性。
在美國某些研究機(jī)構(gòu)中,大數(shù)據(jù)應(yīng)用幾乎可協(xié)助建立人類行為模型,幫助人們了解自身各種行為之間的關(guān)聯(lián)關(guān)系,那些不曾為人所知的人類行為的奧秘也將慢慢得到破解。
另一個(gè)很有意思的例子,發(fā)生在IBM公司研制的智能機(jī)器人沃森身上。這個(gè)“人”在《危險(xiǎn)邊緣》節(jié)目中高超的信息處理速度,戰(zhàn)勝了面對(duì)人類對(duì)手戰(zhàn)無不勝的超級(jí)挑戰(zhàn)者,令人想起當(dāng)年深藍(lán)戰(zhàn)勝棋王卡斯帕羅夫的故事。似乎顯得巧合的是,深藍(lán)的發(fā)明者,同樣是IBM公司,如今它又一次以輝煌戰(zhàn)績(jī)證明了在人工智能領(lǐng)域的領(lǐng)先地位,所不同的是,這次的勝利,離不開大數(shù)據(jù)技術(shù)的鼎力相助。
在IBM沃森實(shí)驗(yàn)室召開的一次學(xué)術(shù)會(huì)議上,人工智能專家希利斯更提出了一個(gè)極具前瞻性的觀點(diǎn):“機(jī)器人必須學(xué)會(huì)講故事?!痹谙@箍磥?,如果一個(gè)計(jì)算機(jī)系統(tǒng)只會(huì)提供答案,而不會(huì)“思考”和“解釋”問題,那么無論運(yùn)算速度多快,都不會(huì)有突破性的前景。這里所說的“講故事”,其實(shí)就是在軟件糅合數(shù)據(jù)、想法、推斷,并形成決策時(shí),對(duì)整個(gè)過程實(shí)施跟蹤,讓人們?cè)谑褂眠^程中和過后都能知道計(jì)算機(jī)是如何一步一步完成其工作的。給出這樣的解釋,就能讓人們知道機(jī)器人與我們之間的關(guān)系,也就是弄清楚,在整個(gè)決策過程中,有哪些部分工作是機(jī)器人完成的,有哪些是由人類所做的。
大數(shù)據(jù)真果真無懈可擊?
既然如此神奇,大數(shù)據(jù)技術(shù)及其應(yīng)用豈不是理應(yīng)被當(dāng)代渴望進(jìn)步、增長的人們頂禮膜拜·史蒂夫·洛爾并不這樣認(rèn)為。大數(shù)據(jù)技術(shù)的應(yīng)用,僅從其可靠性而言,就亟待改進(jìn)。在近年來一些大公司的錯(cuò)誤經(jīng)營行為中,常常可找到大數(shù)據(jù)應(yīng)用的影子。此外,伴隨大數(shù)據(jù)技術(shù)滲透進(jìn)人們生活的,還有個(gè)人隱私被泄露的風(fēng)險(xiǎn)。無論社交網(wǎng)絡(luò)的使用,還是各種隨身軟件中內(nèi)置的定位裝置,甚至連個(gè)人的基因信息,都會(huì)在人們并不知情的情況下,被大數(shù)據(jù)擁有者有意或無意地獲取,從而令個(gè)人信息的保護(hù)程序受到嚴(yán)重威脅。
這方面最典型的例子還要數(shù)安客誠公司。這家全美最大的數(shù)據(jù)代理商,在全球范圍內(nèi)收集了數(shù)億名消費(fèi)者的相關(guān)數(shù)據(jù)。這些公開或推斷所得的信息包括年齡、種族、性別,黨派,以及諸如對(duì)度假的期待、對(duì)健康的關(guān)注程度等非客觀信息。在將這些數(shù)據(jù)歸納之后,這家網(wǎng)站就可輕易推斷出大多數(shù)美國成年人在這些項(xiàng)目上的相關(guān)數(shù)據(jù),其深入細(xì)致的程度無人可及。《紐約時(shí)報(bào)》的一位評(píng)論員甚至寫道:“訪問者登錄之后就會(huì)發(fā)現(xiàn),該網(wǎng)站不僅有大量與自己有關(guān)的信息,甚至還有描述詳細(xì)的私生活,面對(duì)這種情況,他們可能會(huì)大吃一驚?!泵鎸?duì)這種對(duì)個(gè)人隱私的嚴(yán)重侵犯,除了少數(shù)民間的隱私權(quán)倡導(dǎo)者提出抗議之外,無論從法律或技術(shù)層面,至今仍沒能設(shè)計(jì)出有效的預(yù)防措施加以制止。
更為本質(zhì)的問題還在于:盡管很多大型現(xiàn)代企業(yè)早已進(jìn)入了“無法計(jì)量就無法管理”的時(shí)代,但在人類生活的其他方面,仍有許許多多重要的東西無法只用數(shù)據(jù)就可以說明或解決的。事實(shí)上,至少迄今為止,幾乎所有能賦予我們的生活以終極意義的東西,如情感、信仰、人與人之間的愛,還有個(gè)體自身莊嚴(yán)闊大的精神世界,都絕不可能以數(shù)據(jù)來涵蓋或表達(dá)。因此單純的數(shù)據(jù)崇拜并非福音,面對(duì)人類生活的無數(shù)復(fù)雜微妙之處,任何形式的“大數(shù)據(jù)決策”,都有必要用謙卑來調(diào)和,以免誤入歧途。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07