
7月9日,美國《連線》雜志近日刊登了一篇關于大數(shù)據(jù)的評論文章。在短短的幾十年里,“技術天才”與社會的關系已經(jīng)改變:他們從關在屋里的孤獨者變成救世主,從反社會者變成社會的最大希望。許多人現(xiàn)在似乎相信,理解我們這個世界的最佳方式,就是坐在電腦屏幕前分析我們稱之為“大數(shù)據(jù)”的海量信息。而作者認為,如果缺乏對人們現(xiàn)實生活的實地調查,大數(shù)據(jù)沒有什么意義。
什么樣的大數(shù)據(jù)有意義?除了大數(shù)據(jù)之外,你還要走出去觀察和了解這個世界
關于這一點,我們只要看看 “谷歌流感趨勢(Google Flu Trends)”。2008年,當谷歌推出這項服務時,硅谷的許多人將它鼓吹為表明大數(shù)據(jù)將很快淘汰傳統(tǒng)分析方式的一個標志性產(chǎn)品。
“谷歌流感趨勢”不僅沒有提供流感傳播的精確描述,也無法實現(xiàn)大數(shù)據(jù)鼓吹者的美夢。這是因為,如果沒有“厚數(shù)據(jù)”(豐富的、具有前后關聯(lián)性的數(shù)據(jù),它們只能通過丟開電腦、深入實際生活才能獲得),大數(shù)據(jù)就沒有意義。電腦極客們曾經(jīng)因為不能適應社會生活而被嘲笑,他們被告知應該“多出去走走”。實際上,如果大數(shù)據(jù)的信徒們希望理解這個他們也在參與塑造的世界,他們真的需要多出去走走。
“谷歌流感趨勢”的目的是:找出人們在流感季節(jié)常用的搜索詞,然后實時跟蹤這些搜索詞的使用高峰期。這樣,谷歌就可以在新流感爆發(fā)之前發(fā)出警報,而且預警時間要比官方疾病防治中心的預警時間早大約兩周。
對很多人來說,“谷歌流感趨勢”已經(jīng)成為大數(shù)據(jù)的一個典型代表,它表現(xiàn)了大數(shù)據(jù)的巨大力量。在暢銷書《大數(shù)據(jù):一場改變生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者維克托?邁爾?舍恩柏格(Viktor Mayer-Sch?nberger)和肯尼斯?庫克耶(Kenneth Cukier)宣稱,與政府滯后的數(shù)據(jù)相比,“谷歌流感趨勢”是更有用、更及時的流感指示器。
然而,著名的《科學》雜志本月刊登一篇文章告訴我們,自2011年8月以來,“谷歌流感趨勢”幾乎每周都會高估流感的盛行率。
而在2009年,就在“谷歌流感趨勢”推出后不久,它竟然完全沒有察覺豬流感的爆發(fā)。事實上,人們在流感季節(jié)的許多常用搜索詞與流感無關,而與流感的通常爆發(fā)季節(jié)——冬季——密切相關。
許多人爭論道,“谷歌流感趨勢”的失敗緣于大數(shù)據(jù)的不成熟。這種觀點沒有切中要害。當然,調整算法、提高數(shù)據(jù)收集技術將會讓下一代大數(shù)據(jù)工具變得更有效。然而,大數(shù)據(jù)鼓吹者真正的狂妄之處不在于對一套不成熟的算法過于自信,而在于盲目地相信坐在電腦屏幕前搗鼓一些數(shù)字就可以充分理解世界。
大數(shù)據(jù)僅僅是大量的“薄數(shù)據(jù)”,它們是通過對人們的活動和行為進行跟蹤而獲得的。我們最常去的地方,我們在網(wǎng)上搜索的東西,我們每天睡了多久,我們有多少聯(lián)系人,我們所聽的音樂類型等等。這些數(shù)據(jù)是通過你瀏覽器中的“cookies”、你戴在手上的FitBit腕帶或你手機上的GPS來收集的。這些信息無疑是重要的,但我們不能通過它們來獲得對人的完整理解。
為了真正地了解人,我們不久需要大數(shù)據(jù),而且需要厚數(shù)據(jù)。厚數(shù)據(jù)不僅包括事實,而且包括事實的前后聯(lián)系。比如說,美國有86%的家庭每周會喝掉6夸脫以上的牛奶,但是她們?yōu)槭裁春扰D?他們是怎么喝的?一塊包含三種顏色、繡著星星和條紋圖案的布,這是薄數(shù)據(jù);一面在風中飄揚的美國國旗,這是厚數(shù)據(jù)。
基于“我們做了什么”,大數(shù)據(jù)對我們進行簡單化的理解;厚數(shù)據(jù)則試圖通過我們與周圍世界的聯(lián)系來理解我們。只有理解人與周圍世界的聯(lián)系,人們才能從整體上認識這個世界,這恰恰也是谷歌、facebook等公司想要做的。
想想硅谷的那些宏偉宣言。谷歌的宗旨是“組織全球信息,使人人皆可訪問它們并從中獲益?!瘪R克·扎克伯格(Mark Zuckerberg)最近對投資者表示,在全球化和知識經(jīng)濟日益受到重視的當今世界,F(xiàn)acebook致力于一個新的使命:“理解這個世界”。他說:“人們每天在Facebook上發(fā)布數(shù)十億條內容和鏈接。在他們的幫助下,我們通過專門的算法機制為世界上所有事物建立最清晰的模型?!鄙踔劣幸恍┬」疽矃⑴c了“理解這個世界”。去年,Jawbone公司的副總裁耶利米?羅賓遜(Jeremiah Robison)說,他們的健康跟蹤設備Jawbone UP的目標是“理解(人的)行為變化的科學。”
這些目標的確很大。企業(yè)渴望更好地理解社會,這不足為怪。畢竟,了解與客戶行為及社會文化相關的信息,這對企業(yè)經(jīng)營來說是必不可少的。而且,在知識經(jīng)濟時代,這些信息本身已經(jīng)成為一種通貨,它們可以換來點擊率、瀏覽量和廣告收入?;蛘吒唵蔚卣f,它們可以換來權力。在這個過程中,如果谷歌、facebook等公司能不斷幫助我們增進對自身的集體知識,它們獲得更多權力也是正當?shù)?。問題在于,如果它們聲稱計算機能夠組織我們的所有數(shù)據(jù),或能夠向我們提供關于流感、健康或社會關系等各方面的完整理解,那么,它們從根本上小看了“數(shù)據(jù)”和“理解”的意義。
如果硅谷的大數(shù)據(jù)鼓吹者真想“了解世界”,那么他們不僅需要掌握大數(shù)據(jù),也需要掌握厚數(shù)據(jù)。不幸的是,要獲得后者,他們需要丟開電腦去實地體驗這個世界,而不是僅僅通過谷歌眼鏡(或通過facebook的虛擬現(xiàn)實設備)來觀察世界。
如果你對一個領域高度熟悉,有能力填補信息空白并想象人們的行為原因,那么“薄數(shù)據(jù)”將是有用的。換句話說,如果你能夠想象并重建人們的行為的發(fā)生情境,你所觀察到的行為才是有意義的。如果缺乏對行為情境的了解,就不可能推出任何因果關系,也不可能理解人們的行為原因。
這就是為什么研究人員在科學實驗中要竭盡全力控制實驗室的環(huán)境,以創(chuàng)造一個各種影響因素都被考慮在內、徹底的人工場所。不過,真實世界并不是一個實驗室。要確保你對陌生世界的情境有所了解,唯一的途徑是實地觀察并內化和解釋正在發(fā)生的每一件事。
如果說大數(shù)據(jù)擅長觀察人們的行為,那么它不擅長的就是理解人們對每樣事物的背景知識。我是怎么知道每次刷牙時該用多少牙膏的?我是怎么知道何時該進入另一個交通通道的?眨眼是表示“真有趣”還是“我的眼睛進了東西”?這些都涉及人們的內在能力、無意識和背景知識,它們控制著人們的大多數(shù)行為。跟周圍的事物一樣,這些不可見的背景知識只有在觀察者主動去看的情況下才能被發(fā)現(xiàn)。不過,它們卻對每個人的行為有著重要影響。它能夠解釋事物與人的聯(lián)系,以及事物對人的意義。
沒有哪一個單獨的工具能夠成為理解人類的超級武器。盡管硅谷有許多出色的發(fā)明,不過我們對任何數(shù)字技術的期望都應該有個限度?!肮雀枇鞲汹厔荨闭嬲探o我們的是:不能僅僅問這些數(shù)據(jù)有多“大”,還要問這些數(shù)據(jù)有多“厚”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03