
大數(shù)據(jù)的反思 10個不容忽視的事實
自2011年以來,大數(shù)據(jù)旋風(fēng)以“迅雷不及掩耳之勢”席卷中國。毋庸置疑,大數(shù)據(jù)已然成為繼云計算、物聯(lián)網(wǎng)之后新一輪的技術(shù)變革熱潮,不僅是信息領(lǐng)域,經(jīng)濟(jì)、政治、社會等諸多領(lǐng)域都“磨刀霍霍”向大數(shù)據(jù),準(zhǔn)備在其中逐得一席之地。
中國工程院李國杰院士更是把大數(shù)據(jù)提升到戰(zhàn)略的高度,他表示,數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源。從數(shù)據(jù)中發(fā)現(xiàn)價值的技術(shù)正是最有活力的軟技術(shù),在數(shù)據(jù)技術(shù)與產(chǎn)業(yè)上的落后,將使我們像錯過工業(yè)革命機(jī)會一樣延誤一個時代。
在這樣的認(rèn)知下,“大數(shù)據(jù)”日趨變成大家“耳熟能詳”的熱詞。圖1所示的是谷歌趨勢(Google Trends)顯示的有關(guān)大數(shù)據(jù)熱度的趨勢,從圖1中可以看到,在未來的數(shù)年里,“大數(shù)據(jù)”的熱度可能還是“高燒不退”(圖1中虛線為未來趨勢)。
圖1 大數(shù)據(jù)趨勢(圖片來源:作者截圖)
在大數(shù)據(jù)熱火朝天前行的路上,多一點反思,多一份冷靜,或許能讓這路走的更好、更遠(yuǎn)?例如,2014年4月,大名鼎鼎的《紐約時報》發(fā)表題為《大數(shù)據(jù)帶來的八個(不,是九個?。﹩栴}》(Eight (No, Nine!) Problems With Big Data)”的反思文章,其中文中的第九個問題,就是所謂的“大數(shù)據(jù)的炒作(we almost forgot one last problem: the hype)”。同樣為重量級的英國報刊《財經(jīng)時報》(Financial Times,F(xiàn)T)也刊發(fā)了類似反思式的文章“大數(shù)據(jù):我們正在犯大錯誤嗎?(Big data: are we making a big mistake?)”
在大數(shù)據(jù)熱炒之中,大數(shù)據(jù)的價值是否被夸大了?是否存在人造的“心靈雞湯”?大數(shù)據(jù)技術(shù)便利帶來的“收之桑榆”,是否也存在自己的副作用——“失之東隅”——個人的隱私何以得到保障?大數(shù)據(jù)熱炒的“繁華過盡”,數(shù)據(jù)背后的巨大價值是否還能“溫潤依舊”?在眾聲喧嘩之中,我們需要冷靜審慎地思考上述問題。
太多的“唐僧式”的說教,會讓很多人感到無趣。下文分享了10個從“天南地北”收集而來的小故事(或稱段子),從這些小故事中,可對熱炒的大數(shù)據(jù)反思一下,這或許能讓讀者更加客觀地看待大數(shù)據(jù)。有些小故事與結(jié)論之間的對應(yīng)關(guān)系,或許不是那么妥帖,諸位別太較真,讀一讀、樂一樂、想一想就好!
故事01:大數(shù)據(jù)都是騙人的啊——大數(shù)據(jù)預(yù)測得準(zhǔn)嗎?
從前,有一頭不在風(fēng)口長大的豬。自打出生以來,就在豬圈這個世外桃源里美滿地生活著。每天都有人時不時地扔進(jìn)來一些好吃的東西,小豬覺得日子愜意極了!高興任性時,可在豬圈泥堆里打滾耍潑。憂傷時,可趴在豬圈的護(hù)欄上,看夕陽西下,春去秋來,歲月不爭?!柏i”生如此,夫復(fù)何求?
根據(jù)過往數(shù)百天的大數(shù)據(jù)分析,小豬預(yù)測,未來的日子會一直這樣“波瀾不驚”地過下去,直到它從小豬長成肥豬……在春節(jié)前的一個下午,一次血腥的殺戮改變了豬的信念:尼瑪大數(shù)據(jù)都是騙人的啊……慘叫嘎然而止。
圖2 大數(shù)據(jù)預(yù)測:都是騙人的
這則“人造寓言”是由《MacTalk·人生元編程》一書作者池建強(qiáng)先生“杜撰”而成的。池先生估計是想用這個搞笑的小寓言“黑”一把大數(shù)據(jù)。
我們知道,針對大數(shù)據(jù)分析,無非有兩個方面的作用:(1)面向過去,發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式,稱之為描述性分析(Descriptive Analysis);(2)面向未來,對未來趨勢進(jìn)行預(yù)測,稱之為預(yù)測性分析(Predictive Analysis)。把大數(shù)據(jù)分析的范圍從“已知”拓展 到了“未知”,從“過去” 走向 “將來”,這是大數(shù)據(jù)真正的生命力 和“靈魂” 所在。
那頭“悲催”的豬,之所以發(fā)出“大數(shù)據(jù)都是騙人的啊”吶喊,是因為它的得出了一個錯誤的“歷史規(guī)律”:根據(jù)以往的數(shù)據(jù)預(yù)測未來,它每天都會過著“飯來張口”的豬一般的生活。但是沒想到,會發(fā)生“黑天鵝事件”——春節(jié)的殺豬事件。
黑天鵝事件(Black Swan Event) 通常是指,難以預(yù)測的但影響甚大的事件,一旦發(fā)生,便會引起整個局面連鎖負(fù)面反應(yīng)甚至顛覆。讀者可閱讀納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所著的暢銷書《黑天鵝》,來獲得對“黑天鵝事件”更多的理解。
其實,我們不妨從另外一個角度來分析一下,這個搞笑的小寓言在“黑”大數(shù)據(jù)時,也有失敗的地方。通過閱讀知道,舍恩伯格教授在其著作《大數(shù)據(jù)時代》的第一個核心觀點就是:大數(shù)據(jù)即全數(shù)據(jù)(即n=All,這里n為數(shù)據(jù)的大小),其旨在收集和分析與某事物相關(guān)的“全部”數(shù)據(jù),而非僅分析“部分”數(shù)據(jù)。
那頭小豬,僅僅著眼于分析它“從小到肥”成長數(shù)據(jù)——局部小數(shù)據(jù),而忽略了“從肥到?jīng)]”的歷史數(shù)據(jù)。數(shù)據(jù)不全,結(jié)論自然會偏,預(yù)測就會不準(zhǔn)。
要不怎么會有這樣的規(guī)律總結(jié)呢:“人怕出名,豬怕壯”。豬肥了,很容易先被抓來殺掉。這樣的“豬”血淚史,天天都上演的還少嗎?上面的小寓言,其實是告訴我們:數(shù)據(jù)不全,不僅坑爹,還坑命?。?/span>
那么,問題來了,大數(shù)據(jù)等于全數(shù)據(jù)(即n=All),能輕易做到嗎?
故事02:顛簸的街道——對不起,“n=All”只是一個幻覺
圖3 顛簸的街道 (圖片來源:作者截圖)
波士頓市政府也因此驕傲地宣布,“大數(shù)據(jù),為這座城市提供了實時的信息,它幫助我們解決問題,并提供了長期的投資計劃”。著名期刊《連線》(Wired)也毫不吝嗇它的溢美之詞:這是眾包(Crowdsourcing)改善政府功能的典范之作。
眾包是《連線》雜志記者Jeff Howe于2006年發(fā)明的一個專業(yè)術(shù)語,用來描述一種新的商業(yè)模式。它以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)的做法。眾包利用眾多志愿員工的創(chuàng)意和能力——這些志愿員工具備完成任務(wù)的技能,愿意利用業(yè)余時間工作,滿足于對其服務(wù)收取小額報酬,或者暫時并無報酬,僅僅滿足于未來獲得更多報酬的前景。
然而,從一開始,“顛簸的街道”的產(chǎn)品設(shè)計就是有偏的(bias),因為使用這款A(yù)pp的對象,“不經(jīng)意間”要滿足3個條件:(1)年齡結(jié)構(gòu)趨近年輕,因為中老年人愛玩智能手機(jī)的相對較少;(2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;(3)有錢,還得有閑。前面兩個條件這還不夠,使用者還得有“閑心”, 想著開車時打開“顛簸的街道”這個App。想象一下,很多年輕人的智能手機(jī)安裝的應(yīng)用程序數(shù)量可能兩位數(shù)以上,除了較為常用的社交軟件如Facebook或Twitter(中國用戶用得較多的是微博、微信等)記得開機(jī)運行外,還有什么公益軟件“重要地”一開車就記得打開?
“顛簸的街道”的理念在于,它可以提供 “n=All(所有)”個坑洼地點信息, 但這里的“n=All(所有)”也僅僅是滿足上述3個條件的用戶記錄數(shù)據(jù),而非“所有坑洼點”的數(shù)據(jù),上述3個條件,每個條件其實都過濾了一批樣本,“n=All”注定是不成立的。在一些貧民窟,可能因為使用手機(jī)的、開車的、有閑心的App用戶偏少,即使有些路面有較多坑洼點,也未必能檢測出來。
《大數(shù)據(jù)時代》的作者舍恩伯格教授常用“n=All”,來定義大數(shù)據(jù)集合。如果真能這樣,那么就無需采樣了,也不再有采樣偏差的問題,因為采樣已經(jīng)包含了所有數(shù)據(jù)。
暢銷書《你的數(shù)字感:走出大數(shù)據(jù)分析與解讀的誤區(qū)》(Numbersense: How to Use Big Data to Your Advantage)的作者、美國紐約大學(xué)統(tǒng)計學(xué)教授Kaiser Fung,就毫不客氣地提醒人們,不要簡單地假定自己掌握了所有有關(guān)的數(shù)據(jù): “N=All(所有)”常常僅僅是對數(shù)據(jù)的一種假設(shè),而不是現(xiàn)實。
微軟-紐約首席研究員Kate Crawford也指出,現(xiàn)實數(shù)據(jù)是含有系統(tǒng)偏差的,通常需要人們仔細(xì)考量,才有可能找到并糾正這些系統(tǒng)偏差。大數(shù)據(jù),看起來包羅萬象,但“n=All”往往不過是一個頗有誘惑力的假象而已。
“n=All”,夢想很豐滿,但現(xiàn)實很骨感!
但即使具備全數(shù)據(jù),就能輕易找到隱藏于數(shù)據(jù)背后的有價值信息嗎?請接著看下面的故事。
故事03:醉漢路燈下找鑰匙——大數(shù)據(jù)的研究方法可笑嗎?
一天晚上,一個醉漢在路燈下不停地轉(zhuǎn)來轉(zhuǎn)去,警察就問他在找什么。醉漢說,我的鑰匙丟了。于是,警察幫他一起找,結(jié)果路燈周圍找了幾遍都沒找到。于是警察就問,你確信你的鑰匙是丟到這兒嗎?醉漢說,不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來,問,那你到這里來找什么?醉漢振振有辭:因為只有這里有光線?。?/span>
圖4 醉漢路燈下找鑰匙(圖片來源:經(jīng)濟(jì)學(xué)人)
這個故事很簡單,看完這個故事,有人可能會感嘆醉漢的“幼稚”、“可笑”。但不好笑的是,“烏鴉笑豬黑,自己不覺得”,這個故事也揭示了一個事實:在面臨復(fù)雜問題時,我們的思維方式也常同這個醉漢所差無幾,同樣也是先在自己熟悉的范圍和領(lǐng)域內(nèi)尋找答案,哪怕這個答案和自己的領(lǐng)域“相隔萬里”!
還有人甚至認(rèn)為,醉漢找鑰匙的行為,恰恰就是科學(xué)研究所遵循的哲學(xué)觀。前人的研究成果,恰是是后人研究的基石,也即這則故事中的“路燈”。到路燈下找鑰匙,雖看來有些荒唐,但也是“無奈之下”的明智之舉。
數(shù)據(jù)那么大,價值密度那么低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當(dāng)下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?
沃頓商學(xué)院著名教授、紐約時報最佳暢銷書作者喬納?伯杰(Jonah Berger)從另外一個角度,解讀這個故事:在這里,浩瀚的黑夜就是如同全數(shù)據(jù),“鑰匙”就好比是大數(shù)據(jù)分析中我們要找到的價值目標(biāo),他認(rèn)為,“路燈”就好比我們要達(dá)到這個目標(biāo)的測量“標(biāo)尺”,如果這個標(biāo)尺的導(dǎo)向有問題,順著這個標(biāo)尺導(dǎo)引,想要找到心儀的“鑰匙”,是非常困難的!在我們癡迷于某項自己熟悉的特定測量標(biāo)尺之前,一定要提前審視一下,這個測量標(biāo)尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!
如果在黑暗中丟失的鑰匙,是大數(shù)據(jù)中的價值,那這個價值也太稀疏了吧。下面的故事,讓我們聊聊大數(shù)據(jù)的價值。
故事04:園中有金不在金——大數(shù)據(jù)的價值
人們在描述大數(shù)據(jù)時,通常表明其具備4個V特征,即4個以V為首字母的英文描述:Volume(體量大)、Variety(模態(tài)多)、Velocity(速度快)及Value(價值大)。前三個V,本質(zhì)上,是為第四個V服務(wù)的。試想一下,如果大數(shù)據(jù)里沒有我們希望得到的價值,我們?yōu)楹芜€辛辛苦苦這么折騰前3個V?
英特爾中國研究院院長吳甘沙先生說,“鑒于大數(shù)據(jù)信息密度低,大數(shù)據(jù)是貧礦,投入產(chǎn)出比不見得好?!薄都~約時報》著名科技記者Steve Lohr,在其采訪報道“大數(shù)據(jù)時代(The Age of Big Data)”中表明,大數(shù)據(jù)價值挖掘的風(fēng)險還在于,會有很多的“誤報”發(fā)現(xiàn),用斯坦福大學(xué)統(tǒng)計學(xué)教授Trevor Hastie的話來說,就是“在數(shù)據(jù)的大干草垛中,發(fā)現(xiàn)有意義的“針”,其困難在于“很多干草看起來也像針(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”
針對大數(shù)據(jù)的價值,李國杰院士借助中國傳統(tǒng)的寓言故事《園中有金》,從另外一個角度,說明大數(shù)據(jù)的價值,寓言故事是這樣的:
有父子二人,居山村,營果園。父病后,子不勤耕作,園漸荒蕪。一日,父病危,謂子曰:園中有金。子翻地尋金,無所得,甚悵然。是年秋,園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。
人們總是期望,能從大數(shù)據(jù)中挖掘出意想不到的“大價值”??衫顕茉菏空J(rèn)為,實際上,大數(shù)據(jù)的價值,主要體現(xiàn)在它的驅(qū)動效應(yīng)上,大數(shù)據(jù)對經(jīng)濟(jì)的貢獻(xiàn),并不完全反映在大數(shù)據(jù)公司的直接收入上,應(yīng)考慮對其他行業(yè)效率和質(zhì)量提高的貢獻(xiàn)。
大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)的價值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己釀造的蜂蜜,而是蜜蜂傳粉對農(nóng)林業(yè)的貢獻(xiàn)——你能說秋天的累累碩果,沒有蜜蜂的一份功勞?
回到前文的小故事,兒子翻地的價值,不僅在于翻到園中的金子,更是在于翻地之后,促進(jìn)了秋天果園的豐收。在第03個小故事中,醉漢黑暗中尋找的鑰匙,亦非最終的價值,通過鑰匙打開的門才是。
對于大數(shù)據(jù)研究而言,一旦數(shù)據(jù)收集、存儲、分析、傳輸?shù)饶芰μ岣吡?,即使沒有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識,也極大地推動了諸如計算機(jī)軟硬件、數(shù)據(jù)分析等行業(yè)的發(fā)展,大數(shù)據(jù)的價值也已逐步體現(xiàn)。
李國杰院士認(rèn)為,我們不必天天期盼奇跡出現(xiàn),多做一些“樸實無華”的事,實際的進(jìn)步就會體現(xiàn)在扎扎實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大數(shù)據(jù)成功案例。但從事大數(shù)據(jù)行業(yè)的人士,應(yīng)保持清醒的頭腦:無華是常態(tài),精彩是無華的質(zhì)變。
如果把“大數(shù)據(jù)”比作農(nóng)夫父子院后的那片土地,那么土地的面積越大,會不會能挖掘出的“金子”就越多呢?答案還真不是,下面的故事我們說說大數(shù)據(jù)的大小之爭。
故事05:蓋洛普抽樣的成功——大小之爭,“大”數(shù)據(jù)一定勝過小抽樣嗎?
1936年,民主黨人艾爾弗雷德?蘭登(Alfred Landon)與時任總統(tǒng)富蘭克林·羅斯福(Franklin Roosevelt)競選下屆總統(tǒng)?!段膶W(xué)文摘》(The Literary Digest)這家頗有聲望的雜志承擔(dān)了選情預(yù)測的任務(wù)。之所以說它“頗有聲望”,是因為《文學(xué)文摘》曾在1920年、1924年、1928年、1932年連續(xù)4屆美國總統(tǒng)大選中,成功地預(yù)測總統(tǒng)寶座的歸屬。
1936年,《文學(xué)文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調(diào)查,不同于前幾次的調(diào)查,這次調(diào)查把范圍拓展得更廣。當(dāng)時大家都相信,數(shù)據(jù)集合越大,預(yù)測結(jié)果越準(zhǔn)確。《文學(xué)文摘》計劃寄出1000萬份調(diào)查問卷,覆蓋當(dāng)時四分之一的選民。最終該雜志在兩個多月內(nèi)收到了驚人的240萬份回執(zhí),在統(tǒng)計完成以后,《文學(xué)文摘》宣布,艾爾弗雷德?蘭登將會以55比41的優(yōu)勢,擊敗富蘭克林·羅斯福贏得大選,另外4%的選民則會零散地投給第三候選人。
然而,真實的選舉結(jié)果與《文學(xué)文摘》的預(yù)測大相徑庭:羅斯福以61比37的壓倒性優(yōu)勢獲勝。讓《文學(xué)文摘》臉上掛不住的是,新民意調(diào)查的開創(chuàng)者喬治·蓋洛普(George Gallup),僅僅通過一場規(guī)模小得多的問卷——一個3000人的問卷調(diào)查,得出了準(zhǔn)確得多的預(yù)測結(jié)果:羅斯福將穩(wěn)操勝券。蓋洛普的3000人“小”抽樣,居然挑翻了《文學(xué)文摘》240萬的“大”調(diào)查,實在讓專家學(xué)者和社會大眾跌破眼鏡。
顯然,蓋洛普有他獨到的辦法,而從數(shù)據(jù)體積大小的角度來看,“大”并不能決定一切。民意調(diào)查是基于對投票人的大范圍采樣。這意味著調(diào)查者需要處理兩個難題:樣本誤差和樣本偏差。
在過去的200多年里,統(tǒng)計學(xué)家們總結(jié)出了在認(rèn)知數(shù)據(jù)的過程中存在的種種陷阱(如樣本偏差和樣本誤差)。如今數(shù)據(jù)的規(guī)模更大了,采集的成本也更低了,“大數(shù)據(jù)”中依然存在大量的“小數(shù)據(jù)”問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。我們不能掩耳盜鈴,假裝這些陷阱都已經(jīng)被填平了,事實上,它們還都在,甚至問題更加突出。
蓋洛普成功的法寶在于,科學(xué)地抽樣,保證抽樣的隨機(jī)性,他沒有盲目的擴(kuò)大調(diào)查面積,而是根據(jù)選民的分別特征,根據(jù)職業(yè)、年齡、膚色等在3000人的比重,再確定電話訪問、郵件訪問和街頭調(diào)查等各種方式所在比例。由于樣本抽樣得當(dāng),就可以做到“以小見大”、“一葉知秋”。
《文學(xué)文摘》的失敗在于,取樣存在嚴(yán)重偏差,它的調(diào)查對象主要鎖定為它自己的訂戶。雖然《文學(xué)文摘》的問卷調(diào)查數(shù)量不少,但它的訂戶多集中在中上階層,樣本從一開始就是有偏差的(sample bias),因此,推斷的結(jié)果不準(zhǔn),就不足為奇了。而且民主黨人艾爾弗雷德?蘭登的支持者,似乎更樂于寄回問卷結(jié)果,這使得調(diào)查的錯誤更進(jìn)了一步。這兩種偏差的結(jié)合,注定了《讀者文摘》調(diào)查的失敗。
我們可以類比一下《文學(xué)文摘》的調(diào)查模式,試想一樣,如果在中國春運來臨時,在火車上調(diào)查,問乘客是不是買到票了,即使你調(diào)查1000萬人,這可是大數(shù)據(jù)啊,結(jié)論毫無意外地是都買到了,但這個結(jié)果無論如何都是不科學(xué)的,因為樣本的選取是有偏的。
當(dāng)然,采樣也是有缺點的,如果采樣沒有滿足隨機(jī)性,即使百分之幾的偏差,就可能丟失“黑天鵝事件”的信號,因此在全數(shù)據(jù)集存在的前提下,全數(shù)據(jù)當(dāng)然是首選(但從第02故事中,我們可以看到,全數(shù)據(jù)通常是無法得到的)。對針對數(shù)據(jù)分析的價值,英特爾中國研究院院長吳甘沙先生給出了一個排序:全數(shù)據(jù)>好采樣數(shù)據(jù)>不均勻的大量數(shù)據(jù)。
大數(shù)據(jù)分析技術(shù)運用得當(dāng),能極大地提升人們對事物的洞察力(insight),但技術(shù)和人誰在決策(decision-making)中起更大作用?在下面的“點球成金”小故事,我們聊聊這個話題。
故事06:點球成金——數(shù)據(jù)流PK球探,誰更重要?
《點球成金》(Moneyball)又是一例數(shù)據(jù)分析的經(jīng)典故事:
長期以來,美國職業(yè)棒球隊的教練們依賴慣例規(guī)則是,依據(jù)球員的“擊球率(Batting Average, AVG)”(其值等于安打數(shù)/打數(shù)),來挑選心儀的球員。而奧克蘭“運動家球隊”的總經(jīng)理比利?比恩(Billy Beane)卻另辟新徑,采用上壘率指標(biāo)(On-Base Percentage, OBP)來挑選球員,OBP代表一個球員能夠上壘而不是出局的能力。
采用上壘率來選拔人才,并非毫無根據(jù)。通過精細(xì)的數(shù)學(xué)模型分析,比利?比恩發(fā)現(xiàn),高“上壘率”與比賽的勝負(fù)存在某種關(guān)聯(lián)(corelation),據(jù)此他提出了自己的獨到見解,即一個球員怎樣上壘并不重要,不管他是地滾球還是三跑壘,只要結(jié)果是上壘就夠了。在廣泛的批評和質(zhì)疑聲中,比恩通過自己的數(shù)據(jù)分析,創(chuàng)立了“賽伯計量學(xué)”(Sabermerrics)。據(jù)此理論,比恩依據(jù)“高上壘率”選取了自己所需的球員,這些球員的身價遠(yuǎn)不如其他知名球員,但比利?比恩卻能帶領(lǐng)這些球員在2002年的美國聯(lián)盟西部賽事中奪得冠軍,并取得了20場連勝的戰(zhàn)績。
圖5 點球成金(圖片來源:wikipedia.org)
這個故事講得是數(shù)量化分析和預(yù)測對棒球運動的貢獻(xiàn),吳甘沙先生認(rèn)為,它在大數(shù)據(jù)背景下出現(xiàn)了傳播的誤區(qū):
第一,它頻繁出現(xiàn)在諸如舍恩伯格《大數(shù)據(jù)時代》之類的圖書中,其實這個案例并非大數(shù)據(jù)案例,而是早已存在的數(shù)據(jù)思維和方法。在“點球成金”案例中的數(shù)據(jù),套用大數(shù)據(jù)的4V特征,基本上,無一符合。
第二,《點球成金》無論是小說,還是拍出來的同名電影,都刻意或無意忽略了球探的作用。從讀者/觀眾的角度來看,奧克蘭“運動家球隊”的總經(jīng)理比利·比恩完全運用了數(shù)據(jù)量化分析取代了球探。而事實上,在運用這些數(shù)據(jù)量化工具的同時,比恩也增加了球探的費用,“軍功章里”有數(shù)據(jù)分析的一半,也有球探的一半。
目前的大數(shù)據(jù)時代,就有這么兩個流派,一派是技術(shù)主導(dǎo)派,他們提出“萬物皆數(shù)”,要么數(shù)字化,要么死亡(孫正義在對日本企業(yè)界的演講上所言),他們認(rèn)為技術(shù)在決策中占有舉足輕重地作用。另一派是技術(shù)為輔派,他們認(rèn)為,技術(shù)僅僅是為人服務(wù)的,屬于為人所用的眾多工具的一種,不可夸大其作用。
針對《點球成金》這個案例,比利?比恩的擁躉者就屬于“數(shù)據(jù)流黨”,而更強(qiáng)調(diào)球探作用的則歸屬于“球探黨”。
球探黨Bill Shanks在其所著的《球探的榮耀:論打造王者之師的最勇敢之路》(Scout’s Honor: The Bravest Way To Build A Winning Ballteam)中,對數(shù)據(jù)流黨的分析做出了強(qiáng)有力地回應(yīng)。他認(rèn)為,球探對運動員定性指標(biāo)(如競爭性、抗壓力、意志力,勤奮程度等)的衡量,是少數(shù)結(jié)構(gòu)化數(shù)據(jù)(如上壘率等)指標(biāo)無法量化刻畫的。
和《點球成金》觀點針鋒相對的是,Bill Shanks更認(rèn)可球探的作用,他把球探的作用命名為“勇士”哲學(xué)。對于勇士來說,數(shù)據(jù)分析只是眾多“刀槍棍棒”兵刃中的一種,無需奉之如圭臬,真正能“攻城略地”的還是需要勇士。比如說,運動家棒球隊雖然在數(shù)據(jù)分析的指導(dǎo)下,獲得了震驚業(yè)界的好成績,然而他們并沒有取得季后賽的勝利,也沒有奪取世界冠軍,這說明,數(shù)據(jù)分析雖重要,但人的作用更重要!
從第01故事的分析中,我們知道,大數(shù)據(jù)分析的第一層作用就是,面向過去,發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式,也就是說達(dá)到描述性分析。而為了讓讀者相信數(shù)據(jù)分析的能力,灌輸一些“心靈雞湯(或稱洗腦)”,是少不了的,哪怕它是假的!
故事07:啤酒和尿布:經(jīng)典故事是偽造的,你知道嗎?
這是一個關(guān)于零售帝國沃爾瑪?shù)墓适隆?在一次例行的數(shù)據(jù)分析之后, 研究人員突然發(fā)現(xiàn): 跟尿布一起搭配購買最多的商品,竟是啤酒!
尿布和啤酒,聽起來風(fēng)馬牛不相及,但這是對歷史數(shù)據(jù)進(jìn)行挖掘的結(jié)果,反映的是數(shù)據(jù)層面的規(guī)律。這種關(guān)系令人費解,但經(jīng)過跟蹤調(diào)查,研究人員發(fā)現(xiàn),一些年輕的爸爸常到超市去購買嬰兒尿布,有30%~40%的新爸爸,會順便買點啤酒犒勞自己。隨后,沃爾瑪對啤酒和尿布進(jìn)行了捆綁銷售,不出意料,銷售量雙雙增加。
上面這個案例,出自于涂子沛先生的所著的大數(shù)據(jù)暢銷書《數(shù)據(jù)之巔》,在這個案例中,要情節(jié)有情節(jié),要數(shù)據(jù),有數(shù)據(jù),誓言旦旦,不容你置疑。但是,這個故事雖經(jīng)典,但是讓你意想不到的是:
1.案例是編造的
這個經(jīng)典的“啤酒和尿布” (Beer and Diapers)的案例,不僅是《大數(shù)據(jù)》類圖書的常客,事實上,它更是無數(shù)次流連于“數(shù)據(jù)挖掘”之類的書籍中,特別是用來解釋“關(guān)聯(lián)規(guī)則(Association Rule)”的概念,更是“居家旅行,必備之良藥(周星馳語)”。當(dāng)前,基本上所有講大數(shù)據(jù)應(yīng)用,都會捎帶講上這個經(jīng)典案例,要求大家多研究“相關(guān)性”,少研究因果關(guān)系!但實在掃興的是,這個案例僅是一碗數(shù)據(jù)分析的“心靈雞湯”——聽起來很爽,但信不得!
實踐是檢驗真理的唯一標(biāo)準(zhǔn)。如果這個故事是真的,按理說,應(yīng)該給超級市場以無限啟發(fā)才對,可實際上,不管是中國,還是在美國,在超市里面觀察一下,就會發(fā)現(xiàn),根本沒有類似的物品擺放,相近的都很少。
故事性強(qiáng),事出有因。據(jù)吳甘沙先生透露,它是Teradata公司一位經(jīng)理編出來的“故事”,目的是讓數(shù)據(jù)分析看起來更有力,更有趣,而在歷史上從沒有發(fā)生過,感興趣的讀者可以自己參閱文獻(xiàn)。但公平地講,這個故事對數(shù)據(jù)挖掘的普及意義重大,僅從教育意義上看,仍不失為一個好故事。
2.相關(guān)性并非什么大事
即便真的有這個案例,也不說明數(shù)據(jù)分析出來的“相關(guān)性”,有什么特別的神奇之處。舍恩伯格教授的《大數(shù)據(jù)時代》核心觀點之一就是:趾高氣揚的因果關(guān)系光芒不再,卑微的相關(guān)關(guān)系將被“翻身做主人”,知道“是什么”就夠了,沒必要知道“為什么”。但需要我們更為深入了解的事實是:
“要相關(guān),不要因果”,這個觀點其實并非舍恩伯格首先提出的。最早的提出者應(yīng)為《連線》(Wired)主編Chris Anderson ,2008年他在題為 “理論的終結(jié):數(shù)據(jù)洪流讓科學(xué)方法依然過時(End of Theory: the Data Deluge Makes the Scientific Method Obsolete)【9】” 文章中,率先提出:在PB時代,我們可以說,有相關(guān)性足夠了(Petabytes allow us to say: “Correlation is enough)”。
圖6 連線雜志:理論的終結(jié)
“要相關(guān),不要因果”的觀點,并不受學(xué)術(shù)界待見。甚至,《大數(shù)據(jù)時代》的中文版翻譯者周濤亦在序言里說,“放棄對因果關(guān)系的追求,是人類的墮落”。對于這個觀點,李國杰院士認(rèn)為:在大數(shù)據(jù)中,看起來毫不相關(guān)的兩件事同時或相繼出現(xiàn)的現(xiàn)象比比皆是,相關(guān)性本身并沒有多大價值,關(guān)鍵是找對了“相關(guān)性”背后的理由,才是新知識或新發(fā)現(xiàn)。
大數(shù)據(jù)分析的第二個功能,或者說更為的核心功能在于,預(yù)測。預(yù)測主要用于對未來進(jìn)行籌劃,大到產(chǎn)業(yè)的布局,小到流感的預(yù)警,均可用預(yù)測。但是對未來的預(yù)測,能準(zhǔn)嗎?
故事08:谷歌流感預(yù)測:預(yù)測是如何失效的?
2009年2月,谷歌公司的工程師們在國際著名學(xué)術(shù)期刊《自然》上發(fā)表了一篇非常有意思的論文:《利用搜索引擎查詢數(shù)據(jù)檢測禽流感流行趨勢》,并設(shè)計了大名鼎鼎的流感預(yù)測系統(tǒng)(Google Flu Trends,GFT,訪問網(wǎng)址為:www.google.org/flutrends/)。
GFT預(yù)測H1N1流感的原理非常樸素:如果在某一個區(qū)域某一個時間段,有大量的有關(guān)流感的搜索指令,那么,就可能存在一種潛在的關(guān)聯(lián):在這個地區(qū),就有很大可能性存在對應(yīng)的流感人群,相關(guān)部門就值得發(fā)布流感預(yù)警信息。
GFT監(jiān)測并預(yù)測流感趨勢的過程僅需一天,有時甚至可縮短至數(shù)個小時。相比而言,美國疾病控制與預(yù)防中心(Center for Disease Control and Prevention,CDC)同樣也能利用采集來的流感數(shù)據(jù),發(fā)布預(yù)警信息。但CDC的流感預(yù)測結(jié)果,通常需要滯后兩周左右才能得以發(fā)布。但對于一種飛速傳播的疾?。ㄈ缜萘鞲械龋咔轭A(yù)警滯后發(fā)布,后果可能是致命的。
GFT一度被認(rèn)為是大數(shù)據(jù)預(yù)測未來的經(jīng)典案例,給很多人打開了一扇未來的窗口。根據(jù)這個故事,大數(shù)據(jù)的布道者們給出了4個令自己滿意的結(jié)論:
由于所有數(shù)據(jù)點都被捕捉到,故傳統(tǒng)的抽樣統(tǒng)計的方法完全可以被淘汰。換句話說,做到了“n=All”;
無需再尋找現(xiàn)象背后的原因,只需要知道某兩者之間的統(tǒng)計相關(guān)性就夠用了。針對這個案例,只需知道“大量有關(guān)流感的搜索指令”和“流感疫情”之間存在相關(guān)性就夠了。
不再需要統(tǒng)計學(xué)模型,只要有大量的數(shù)據(jù)就能完成分析目的,印證了《連線》主編Chris Anderson 提出的“理論終結(jié)”的論調(diào)。
大數(shù)據(jù)分析可得到驚人準(zhǔn)確的結(jié)果。GFT的預(yù)測結(jié)果和CDC公布的真實結(jié)果相關(guān)度高達(dá)96%。
但據(jù)英國《財經(jīng)時報》(FT)援引劍橋大學(xué)教授David Spiegelhalter毫不客氣的評價說,這四條 “完全是胡說八道(complete bollocks. Absolute nonsense)”。
針對前3條觀點的不足之處,前文故事已經(jīng)涉及到了,不再贅言。針對第4條,我們有必要再解析一下——GFT預(yù)測是如何失效的?
谷歌工程師們開發(fā)的GFT,可謂轟動一時,但好景不長,相關(guān)論文發(fā)表4年后,2013年2月13日,《自然》發(fā)文指出,在最近(2012年12月)的一次流感爆發(fā)中谷歌流感趨勢不起作用了。GFT預(yù)測顯示某次的流感爆發(fā)非常嚴(yán)重,然而疾控中心(CDC)在匯總各地數(shù)據(jù)以后,發(fā)現(xiàn)谷歌的預(yù)測結(jié)果比實際情況要夸大了幾乎一倍,如圖7所示。
圖7 GFT流感預(yù)測失準(zhǔn) (圖片來源:自然期刊)
研究人員發(fā)現(xiàn),問題的根源在于,谷歌工程師并不知道搜索關(guān)鍵詞和流感傳播之間到底有什么關(guān)聯(lián),也沒有試圖去搞清楚關(guān)聯(lián)背后的原因,只是在數(shù)據(jù)中找到了一些統(tǒng)計特征——相關(guān)性。這種做法在大數(shù)據(jù)分析中很常見。為了提高GFT的預(yù)測準(zhǔn)確性,谷歌工程師們不斷地微調(diào)預(yù)測算法,但GFT每一次算法微調(diào),都是為了修補(bǔ)之前的測不準(zhǔn),但每次修補(bǔ)又都造成了另外的誤差。
谷歌疫情之所以會誤報,還因為大數(shù)據(jù)分析中存在“預(yù)測即干涉”的問題。量子物理創(chuàng)始人之一維爾納?海森堡(Werner Heisenberg),曾在1927年的一篇論文中指出,在量子世界中,測量粒子位置,必然會影響粒子的速度,即存在“測不準(zhǔn)原理”。也就是說,在量子尺度的微距世界中,“測量即干涉”。如今,在媒體熱炒的“大數(shù)據(jù)”世界中,類似于“測不準(zhǔn)原理”,即存在“預(yù)測即干涉”悖論。
這個“預(yù)測即干涉”悖論和“菜農(nóng)種菜”的現(xiàn)象有“曲藝同工”之處:當(dāng)年的大白菜賣價不錯(歷史數(shù)據(jù)),預(yù)計明年的賣價也不錯(預(yù)測),于是眾多菜農(nóng)在這個預(yù)測的指導(dǎo)下,第二年都去種大白菜(采取行動),結(jié)果是,菜多價賤傷農(nóng)(預(yù)測失?。?。
進(jìn)一步分析就可發(fā)現(xiàn),GFT預(yù)測失準(zhǔn)在很大程度上是因為,一旦GFT提到了有疫情,立刻會有媒體報道,就會引發(fā)更多相關(guān)信息搜索,反過來強(qiáng)化了GFT對疫情的判定。這樣下去,算法無論怎么修補(bǔ),都無法改變其愈發(fā)不準(zhǔn)確的命運。
對GFT預(yù)測更猛烈的攻擊,來自著名期刊《科學(xué)》。2014年3月,該雜志發(fā)表由哈佛大學(xué)、美國東北大學(xué)的幾位學(xué)者聯(lián)合撰寫的論文“谷歌流感的寓言:大數(shù)據(jù)分析中的陷阱(The parable of Google Flu: traps in big data analysis)”,他們對谷歌疫情預(yù)測不準(zhǔn)的問題做了更為深入地調(diào)查,也討論了大數(shù)據(jù)的“陷阱”本質(zhì)?!犊茖W(xué)》一文作者認(rèn)為:大數(shù)據(jù)的分析
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務(wù)解決方案 ...
2025-09-09