
7月9日,美國(guó)《連線》雜志近日刊登了一篇關(guān)于大數(shù)據(jù)的評(píng)論文章。作者認(rèn)為,如果缺乏對(duì)人們現(xiàn)實(shí)生活的實(shí)地調(diào)查,大數(shù)據(jù)沒(méi)有什么意義。
在短短的幾十年里,“技術(shù)天才”與社會(huì)的關(guān)系已經(jīng)改變:他們從關(guān)在屋里的孤獨(dú)者變成救世主,從反社會(huì)者變成社會(huì)的最大希望。許多人現(xiàn)在似乎相信,理解我們這個(gè)世界的最佳方式,就是坐在電腦屏幕前分析我們稱之為“大數(shù)據(jù)”的海量信息。
關(guān)于這一點(diǎn),我們只要看看 “谷歌(微博)流感趨勢(shì)(Google Flu Trends)”。2008年,當(dāng)谷歌推出這項(xiàng)服務(wù)時(shí),硅谷的許多人將它鼓吹為表明大數(shù)據(jù)將很快淘汰傳統(tǒng)分析方式的一個(gè)標(biāo)志性產(chǎn)品。
但他們錯(cuò)了。
“谷歌流感趨勢(shì)”不僅沒(méi)有提供流感傳播的精確描述,也無(wú)法實(shí)現(xiàn)大數(shù)據(jù)鼓吹者的美夢(mèng)。這是因?yàn)?,如果沒(méi)有“厚數(shù)據(jù)”(豐富的、具有前后關(guān)聯(lián)性的數(shù)據(jù),它們只能通過(guò)丟開(kāi)電腦、深入實(shí)際生活才能獲得),大數(shù)據(jù)就沒(méi)有意義。電腦極客們?cè)?jīng)因?yàn)椴荒苓m應(yīng)社會(huì)生活而被嘲笑,他們被告知應(yīng)該“多出去走走”。實(shí)際上,如果大數(shù)據(jù)的信徒們希望理解這個(gè)他們也在參與塑造的世界,他們真的需要多出去走走。
谷歌的失敗與算法無(wú)關(guān)
“谷歌流感趨勢(shì)”的目的是:找出人們?cè)诹鞲屑竟?jié)常用的搜索詞,然后實(shí)時(shí)跟蹤這些搜索詞的使用高峰期。這樣,谷歌就可以在新流感爆發(fā)之前發(fā)出警報(bào),而且預(yù)警時(shí)間要比官方疾病防治中心的預(yù)警時(shí)間早大約兩周。
對(duì)很多人來(lái)說(shuō),“谷歌流感趨勢(shì)”已經(jīng)成為大數(shù)據(jù)的一個(gè)典型代表,它表現(xiàn)了大數(shù)據(jù)的巨大力量。在暢銷書(shū)《大數(shù)據(jù):一場(chǎng)改變生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者維克托?邁爾?舍恩柏格(Viktor Mayer-Sch?nberger)和肯尼斯?庫(kù)克耶(Kenneth Cukier)宣稱,與政府滯后的數(shù)據(jù)相比,“谷歌流感趨勢(shì)”是更有用、更及時(shí)的流感指示器。
然而,著名的《科學(xué)》雜志本月刊登一篇文章告訴我們,自2011年8月以來(lái),“谷歌流感趨勢(shì)”幾乎每周都會(huì)高估流感的盛行率。
而在2009年,就在“谷歌流感趨勢(shì)”推出后不久,它竟然完全沒(méi)有察覺(jué)豬流感的爆發(fā)。事實(shí)上,人們?cè)诹鞲屑竟?jié)的許多常用搜索詞與流感無(wú)關(guān),而與流感的通常爆發(fā)季節(jié)——冬季——密切相關(guān)。
許多人爭(zhēng)論道,“谷歌流感趨勢(shì)”的失敗緣于大數(shù)據(jù)的不成熟。這種觀點(diǎn)沒(méi)有切中要害。當(dāng)然,調(diào)整算法、提高數(shù)據(jù)收集技術(shù)將會(huì)讓下一代大數(shù)據(jù)工具變得更有效。然而,大數(shù)據(jù)鼓吹者真正的狂妄之處不在于對(duì)一套不成熟的算法過(guò)于自信,而在于盲目地相信坐在電腦屏幕前搗鼓一些數(shù)字就可以充分理解世界。
為什么需要厚數(shù)據(jù)
大數(shù)據(jù)僅僅是大量的“薄數(shù)據(jù)”,它們是通過(guò)對(duì)人們的活動(dòng)和行為進(jìn)行跟蹤而獲得的。我們最常去的地方,我們?cè)诰W(wǎng)上搜索的東西,我們每天睡了多久,我們有多少聯(lián)系人,我們所聽(tīng)的音樂(lè)類型等等。這些數(shù)據(jù)是通過(guò)你瀏覽器中的“cookies”、你戴在手上的FitBit腕帶或你手機(jī)上的GPS來(lái)收集的。這些信息無(wú)疑是重要的,但我們不能通過(guò)它們來(lái)獲得對(duì)人的完整理解。
為了真正地了解人,我們不久需要大數(shù)據(jù),而且需要厚數(shù)據(jù)。厚數(shù)據(jù)不僅包括事實(shí),而且包括事實(shí)的前后聯(lián)系。比如說(shuō),美國(guó)有86%的家庭每周會(huì)喝掉6夸脫以上的牛奶,但是她們?yōu)槭裁春扰D?他們是怎么喝的?一塊包含三種顏色、繡著星星和條紋圖案的布,這是薄數(shù)據(jù);一面在風(fēng)中飄揚(yáng)的美國(guó)國(guó)旗,這是厚數(shù)據(jù)。
基于“我們做了什么”,大數(shù)據(jù)對(duì)我們進(jìn)行簡(jiǎn)單化的理解;厚數(shù)據(jù)則試圖通過(guò)我們與周圍世界的聯(lián)系來(lái)理解我們。只有理解人與周圍世界的聯(lián)系,人們才能從整體上認(rèn)識(shí)這個(gè)世界,這恰恰也是谷歌、facebook等公司想要做的。
理解我們這個(gè)世界
想想硅谷的那些宏偉宣言。谷歌的宗旨是“組織全球信息,使人人皆可訪問(wèn)它們并從中獲益?!瘪R克·扎克伯格(Mark Zuckerberg)最近對(duì)投資者表示,在全球化和知識(shí)經(jīng)濟(jì)日益受到重視的當(dāng)今世界,F(xiàn)acebook致力于一個(gè)新的使命:“理解這個(gè)世界”。他說(shuō):“人們每天在Facebook上發(fā)布數(shù)十億條內(nèi)容和鏈接。在他們的幫助下,我們通過(guò)專門的算法機(jī)制為世界上所有事物建立最清晰的模型?!鄙踔劣幸恍┬」疽矃⑴c了“理解這個(gè)世界”。去年,Jawbone公司的副總裁耶利米?羅賓遜(Jeremiah Robison)說(shuō),他們的健康跟蹤設(shè)備Jawbone UP的目標(biāo)是“理解(人的)行為變化的科學(xué)?!?/span>
這些目標(biāo)的確很大。企業(yè)渴望更好地理解社會(huì),這不足為怪。畢竟,了解與客戶行為及社會(huì)文化相關(guān)的信息,這對(duì)企業(yè)經(jīng)營(yíng)來(lái)說(shuō)是必不可少的。而且,在知識(shí)經(jīng)濟(jì)時(shí)代,這些信息本身已經(jīng)成為一種通貨,它們可以換來(lái)點(diǎn)擊率、瀏覽量和廣告收入。或者更簡(jiǎn)單地說(shuō),它們可以換來(lái)權(quán)力。在這個(gè)過(guò)程中,如果谷歌、facebook等公司能不斷幫助我們?cè)鲞M(jìn)對(duì)自身的集體知識(shí),它們獲得更多權(quán)力也是正當(dāng)?shù)?。?wèn)題在于,如果它們聲稱計(jì)算機(jī)能夠組織我們的所有數(shù)據(jù),或能夠向我們提供關(guān)于流感、健康或社會(huì)關(guān)系等各方面的完整理解,那么,它們從根本上小看了“數(shù)據(jù)”和“理解”的意義。
如果硅谷的大數(shù)據(jù)鼓吹者真想“了解世界”,那么他們不僅需要掌握大數(shù)據(jù),也需要掌握厚數(shù)據(jù)。不幸的是,要獲得后者,他們需要丟開(kāi)電腦去實(shí)地體驗(yàn)這個(gè)世界,而不是僅僅通過(guò)谷歌眼鏡(或通過(guò)facebook的虛擬現(xiàn)實(shí)設(shè)備)來(lái)觀察世界。
人們的行為情境
如果你對(duì)一個(gè)領(lǐng)域高度熟悉,有能力填補(bǔ)信息空白并想象人們的行為原因,那么“薄數(shù)據(jù)”將是有用的。換句話說(shuō),如果你能夠想象并重建人們的行為的發(fā)生情境,你所觀察到的行為才是有意義的。如果缺乏對(duì)行為情境的了解,就不可能推出任何因果關(guān)系,也不可能理解人們的行為原因。
這就是為什么研究人員在科學(xué)實(shí)驗(yàn)中要竭盡全力控制實(shí)驗(yàn)室的環(huán)境,以創(chuàng)造一個(gè)各種影響因素都被考慮在內(nèi)、徹底的人工場(chǎng)所。不過(guò),真實(shí)世界并不是一個(gè)實(shí)驗(yàn)室。要確保你對(duì)陌生世界的情境有所了解,唯一的途徑是實(shí)地觀察并內(nèi)化和解釋正在發(fā)生的每一件事。
人們的背景知識(shí)
如果說(shuō)大數(shù)據(jù)擅長(zhǎng)觀察人們的行為,那么它不擅長(zhǎng)的就是理解人們對(duì)每樣事物的背景知識(shí)。我是怎么知道每次刷牙時(shí)該用多少牙膏的?我是怎么知道何時(shí)該進(jìn)入另一個(gè)交通通道的?眨眼是表示“真有趣”還是“我的眼睛進(jìn)了東西”?這些都涉及人們的內(nèi)在能力、無(wú)意識(shí)和背景知識(shí),它們控制著人們的大多數(shù)行為。跟周圍的事物一樣,這些不可見(jiàn)的背景知識(shí)只有在觀察者主動(dòng)去看的情況下才能被發(fā)現(xiàn)。不過(guò),它們卻對(duì)每個(gè)人的行為有著重要影響。它能夠解釋事物與人的聯(lián)系,以及事物對(duì)人的意義。
人類學(xué)及社會(huì)科學(xué)中有大量觀察和解釋人類行為的方法。研究人員不但觀察人的行為,而且考查他們所處的情境和他們擁有的背景知識(shí)。這些方法有一個(gè)共同的特點(diǎn):它們要求研究者深入混亂而真實(shí)的人類生活。
沒(méi)有哪一個(gè)單獨(dú)的工具能夠成為理解人類的超級(jí)武器。盡管硅谷有許多出色的發(fā)明,不過(guò)我們對(duì)任何數(shù)字技術(shù)的期望都應(yīng)該有個(gè)限度?!肮雀枇鞲汹厔?shì)”真正教給我們的是:不能僅僅問(wèn)這些數(shù)據(jù)有多“大”,還要問(wèn)這些數(shù)據(jù)有多“厚”。
有時(shí),走進(jìn)真實(shí)的生活會(huì)得到更好的結(jié)果。有時(shí),我們必須要丟下電腦。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10