
大數(shù)據(jù)的邊界 被改變的與無法改變的
“大數(shù)據(jù)”的洶涌澎湃,讓人們逐漸意識到,由此帶來的,極有可能是一場發(fā)生在幾乎所有領(lǐng)域的顛覆性革命。只是,雖然坊間有關(guān)大數(shù)據(jù)的論著很多,但敢于將這種趨勢上升到“主義”高度的,恐怕非史蒂夫·洛爾莫屬。身為在《紐約時報》撰稿長達(dá)二十余年的非虛構(gòu)寫作者和資深記者、編輯,因?yàn)殚L期從事數(shù)據(jù)科學(xué)報道,洛爾早在十多年前就敏銳地感受到“大數(shù)據(jù)”即將給人類帶來的變化。而眼前的這本《大數(shù)據(jù)主義》,不同于此前的大多數(shù)同類論著的動人之處在于,它以一個在數(shù)據(jù)分析行業(yè)找到人生價值的年輕人、曾為臉譜網(wǎng)建立了最初的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的哈佛畢業(yè)生杰夫·哈梅巴赫的經(jīng)歷,以及人類數(shù)據(jù)時代的標(biāo)桿——IBM公司的大數(shù)據(jù)生存法則為主線,在敘事中又穿插了大量相關(guān)人物的故事和觀點(diǎn),勾勒出了近幾年大數(shù)據(jù)浪潮對人類生活諸多方面的深刻影響。
早在2012年初,史蒂夫·洛爾便先知先覺地以“大數(shù)據(jù)主義”為題,在《紐約時報》“周日評論”板塊發(fā)表了一篇社論,網(wǎng)站點(diǎn)擊量激增,很多讀者還寫了關(guān)于這篇文章的評論。《大數(shù)據(jù)主義》便是對上述主題進(jìn)一步挖掘的成果。
杰夫·哈梅巴赫,這位曾在華爾街這個聰明人匯集的行業(yè)做金融數(shù)據(jù)分析,之后又加盟臉譜網(wǎng),在從事數(shù)據(jù)科學(xué)研究的同時也為自己的人生贏得了財務(wù)自由。離開臉譜網(wǎng)后,他自己創(chuàng)辦了一家名為Cloudera的公司,自任首席科學(xué)家,編寫用于數(shù)據(jù)科學(xué)研究的軟件。2012年夏天,年僅28歲的哈梅巴赫又轉(zhuǎn)戰(zhàn)醫(yī)療業(yè),加入紐約西奈山伊坎醫(yī)學(xué)院,領(lǐng)導(dǎo)一個數(shù)據(jù)小組,從事遺傳信息的研究,為探索疾病模型的建立方法和治療手段尋找突破口,這是他認(rèn)為的目前能將數(shù)據(jù)科學(xué)研究投入應(yīng)用的最佳途徑。而作為一家有著上百年歷史的科技巨頭,IBM對數(shù)據(jù)技術(shù)的進(jìn)展同樣甚為關(guān)注,他們在較早時候就組建了研究團(tuán)隊(duì),制定了戰(zhàn)略方針,投入了大量資金,招募大批該領(lǐng)域的專家,團(tuán)隊(duì)人數(shù)至今已達(dá)2000人。其首席執(zhí)行官甚至告訴洛爾:“我們把整個公司的前途都押在了大數(shù)據(jù)技術(shù)的應(yīng)用上?!?/span>
大數(shù)據(jù)生存法則
自1946年計(jì)算機(jī)問世以來,便不可逆轉(zhuǎn)地加速改變著人類的生活方式和進(jìn)程。時至今日,海量存在于互聯(lián)網(wǎng)及其他各處、能被人們獲取的信息,早已由千字節(jié)(KB)、兆(MB)、千兆(GB)、太字節(jié)(TB),躍升為拍字節(jié)(PB)、艾字節(jié)(EB)、澤字節(jié)(ZB),乃至堯字節(jié)(YB)。據(jù)測算,如果將人類現(xiàn)存的信息全部匯集并存貯起來,需要用到的ipad,疊加起來的厚度可繞地球三分之二圈。正是這驚人的數(shù)據(jù)總量,使人類在處理信息時能經(jīng)歷從量變到質(zhì)變的過程,就如同物質(zhì)到了納米級別,各種原有的特性都會發(fā)生驚人的突變,“大數(shù)據(jù)”概念的誕生,正是數(shù)據(jù)存量不斷累積的必然結(jié)果。
面對不斷生成的各種數(shù)據(jù),尤其同一個系統(tǒng)或平臺上生成的數(shù)據(jù),盡管以人類的大腦很難理清它們相互之間的關(guān)系,對這些數(shù)據(jù)得以如此產(chǎn)生的前因后果更無法給出合乎邏輯的解釋,但它們之間確實(shí)存在著一定的相關(guān)性。盡管以人類現(xiàn)有的理解能力看來,這種相關(guān)性并不十分清晰,甚至有幾分神秘,但通過總結(jié)這一系列數(shù)據(jù)之間的生成規(guī)律,人們?nèi)匀豢梢员冗^去更為有效地決策,而不是像過去通常所做的那樣,依靠個人直覺或是一些只可意會不可言傳的經(jīng)驗(yàn)來做出某個重要決定。因此,許多在過去看來無用的數(shù)據(jù),今日都“變廢為寶”了。舉例來說,世界最大零售商沃爾瑪通過對大數(shù)據(jù)統(tǒng)計(jì)和研究發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,通常會順便買上幾瓶啤酒。盡管商家不知其中緣由,但還是果斷推出了啤酒與尿布捆綁銷售的促銷方式,提升了啤酒銷量。由此看來,正是大數(shù)據(jù)帶來的定量分析方法,為人們的決策帶來了新的參考依據(jù)。作為一種創(chuàng)新工具,它還催生了大量相關(guān)技術(shù),如社交媒體、傳感器信號、基因組信息等,不僅有利于經(jīng)濟(jì)增長,還可以幫助我們重塑構(gòu)建世界的方式,甚至在一定程度上改變我們世界觀。
盡管大數(shù)據(jù)技術(shù)剛剛起步,但如今可涵蓋的應(yīng)用領(lǐng)域已十分廣泛:從挖掘數(shù)據(jù)幫助企業(yè)經(jīng)營決策,到對社交媒體用戶展開細(xì)致入微的數(shù)據(jù)分析,提高網(wǎng)站的廣告點(diǎn)擊率;從利用大數(shù)據(jù)培育性能前所未有的智能機(jī)器人,到推動一些傳統(tǒng)產(chǎn)業(yè)的升級換代。此外,還有更為性命攸關(guān)的醫(yī)療行業(yè)的“大數(shù)據(jù)革命”。例如有人提出,許多慢性疾病并非個體基因引起,而是一種復(fù)雜的網(wǎng)絡(luò)性紊亂,涉及從分子、細(xì)胞、組織、器官到人類社群的各個環(huán)節(jié)。因此他們將一組涉及年齡、病史、生活方式和環(huán)境等可能影響疾病的發(fā)生發(fā)展因素,通過復(fù)雜的數(shù)學(xué)模型,全部轉(zhuǎn)化為數(shù)字,以便試驗(yàn)性地檢測一個人三年內(nèi)患上某種疾病的可能性。盡管從定量分析角度看,精密科學(xué),如物理學(xué)、化學(xué)等學(xué)科更為成熟,預(yù)測結(jié)果也更準(zhǔn)確,但人們?nèi)栽谂σ龑?dǎo)醫(yī)療行業(yè)向定量分析的方向發(fā)展,而非僅僅依靠經(jīng)驗(yàn)對人的健康狀況定性。
在美國某些研究機(jī)構(gòu)中,大數(shù)據(jù)應(yīng)用幾乎可協(xié)助建立人類行為模型,幫助人們了解自身各種行為之間的關(guān)聯(lián)關(guān)系,那些不曾為人所知的人類行為的奧秘也將慢慢得到破解。
另一個很有意思的例子,發(fā)生在IBM公司研制的智能機(jī)器人沃森身上。這個“人”在《危險邊緣》節(jié)目中高超的信息處理速度,戰(zhàn)勝了面對人類對手戰(zhàn)無不勝的超級挑戰(zhàn)者,令人想起當(dāng)年深藍(lán)戰(zhàn)勝棋王卡斯帕羅夫的故事。似乎顯得巧合的是,深藍(lán)的發(fā)明者,同樣是IBM公司,如今它又一次以輝煌戰(zhàn)績證明了在人工智能領(lǐng)域的領(lǐng)先地位,所不同的是,這次的勝利,離不開大數(shù)據(jù)技術(shù)的鼎力相助。
在IBM沃森實(shí)驗(yàn)室召開的一次學(xué)術(shù)會議上,人工智能專家希利斯更提出了一個極具前瞻性的觀點(diǎn):“機(jī)器人必須學(xué)會講故事?!痹谙@箍磥?,如果一個計(jì)算機(jī)系統(tǒng)只會提供答案,而不會“思考”和“解釋”問題,那么無論運(yùn)算速度多快,都不會有突破性的前景。這里所說的“講故事”,其實(shí)就是在軟件糅合數(shù)據(jù)、想法、推斷,并形成決策時,對整個過程實(shí)施跟蹤,讓人們在使用過程中和過后都能知道計(jì)算機(jī)是如何一步一步完成其工作的。給出這樣的解釋,就能讓人們知道機(jī)器人與我們之間的關(guān)系,也就是弄清楚,在整個決策過程中,有哪些部分工作是機(jī)器人完成的,有哪些是由人類所做的。
大數(shù)據(jù)真果真無懈可擊?
既然如此神奇,大數(shù)據(jù)技術(shù)及其應(yīng)用豈不是理應(yīng)被當(dāng)代渴望進(jìn)步、增長的人們頂禮膜拜·史蒂夫·洛爾并不這樣認(rèn)為。大數(shù)據(jù)技術(shù)的應(yīng)用,僅從其可靠性而言,就亟待改進(jìn)。在近年來一些大公司的錯誤經(jīng)營行為中,常??烧业?/span>大數(shù)據(jù)應(yīng)用的影子。此外,伴隨大數(shù)據(jù)技術(shù)滲透進(jìn)人們生活的,還有個人隱私被泄露的風(fēng)險。無論社交網(wǎng)絡(luò)的使用,還是各種隨身軟件中內(nèi)置的定位裝置,甚至連個人的基因信息,都會在人們并不知情的情況下,被大數(shù)據(jù)擁有者有意或無意地獲取,從而令個人信息的保護(hù)程序受到嚴(yán)重威脅。
這方面最典型的例子還要數(shù)安客誠公司。這家全美最大的數(shù)據(jù)代理商,在全球范圍內(nèi)收集了數(shù)億名消費(fèi)者的相關(guān)數(shù)據(jù)。這些公開或推斷所得的信息包括年齡、種族、性別,黨派,以及諸如對度假的期待、對健康的關(guān)注程度等非客觀信息。在將這些數(shù)據(jù)歸納之后,這家網(wǎng)站就可輕易推斷出大多數(shù)美國成年人在這些項(xiàng)目上的相關(guān)數(shù)據(jù),其深入細(xì)致的程度無人可及?!都~約時報》的一位評論員甚至寫道:“訪問者登錄之后就會發(fā)現(xiàn),該網(wǎng)站不僅有大量與自己有關(guān)的信息,甚至還有描述詳細(xì)的私生活,面對這種情況,他們可能會大吃一驚?!泵鎸@種對個人隱私的嚴(yán)重侵犯,除了少數(shù)民間的隱私權(quán)倡導(dǎo)者提出抗議之外,無論從法律或技術(shù)層面,至今仍沒能設(shè)計(jì)出有效的預(yù)防措施加以制止。
更為本質(zhì)的問題還在于:盡管很多大型現(xiàn)代企業(yè)早已進(jìn)入了“無法計(jì)量就無法管理”的時代,但在人類生活的其他方面,仍有許許多多重要的東西無法只用數(shù)據(jù)就可以說明或解決的。事實(shí)上,至少迄今為止,幾乎所有能賦予我們的生活以終極意義的東西,如情感、信仰、人與人之間的愛,還有個體自身莊嚴(yán)闊大的精神世界,都絕不可能以數(shù)據(jù)來涵蓋或表達(dá)。因此單純的數(shù)據(jù)崇拜并非福音,面對人類生活的無數(shù)復(fù)雜微妙之處,任何形式的“大數(shù)據(jù)決策”,都有必要用謙卑來調(diào)和,以免誤入歧途。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10