
從谷歌流感趨勢談大數(shù)據(jù)分析的光榮與陷阱
本文從谷歌流感趨勢2009年前后表現(xiàn)差異談起,討論了大數(shù)據(jù)分析容易面臨的大數(shù)據(jù)自大、算法演化、看不見的動機導致數(shù)據(jù)生成機制變化等陷阱,以及對我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的借鑒。本文認為,為健康發(fā)展大數(shù)據(jù)產(chǎn)業(yè),我國需要防范大數(shù)據(jù)自大風險、推動大數(shù)據(jù)產(chǎn)業(yè)和小數(shù)據(jù)產(chǎn)業(yè)齊頭并進,并強化提高大數(shù)據(jù)透明度、審慎評估大數(shù)據(jù)質(zhì)量等方面的努力。?
一、谷歌流感趨勢:未卜先知?
“谷歌流感趨勢”(Google Flu Trends,GFT)未卜先知的故事,常被看做大數(shù)據(jù)分析優(yōu)勢的明證。2008年11月谷歌公司啟動的GFT項目,目標是預測美國疾控中心(CDC)報告的流感發(fā)病率。甫一登場,GFT就亮出十分驚艷的成績單。2009年,GFT團隊在《自然》發(fā)文報告,只需分析數(shù)十億搜索中45個與流感相關(guān)的關(guān)鍵詞,GFT就能比CDC提前兩周預報2007-2008季流感的發(fā)病率。
也就是說,人們不需要等CDC公布根據(jù)就診人數(shù)計算出的發(fā)病率,就可以提前兩周知道未來醫(yī)院因流感就診的人數(shù)了。有了這兩周,人們就可以有充足的時間提前預備,避免中招。多少人可以因為大數(shù)據(jù)避免不必要的痛苦、麻煩和經(jīng)濟損失啊。
此一時,彼一時。2014年, Lazer等學者在《科學》發(fā)文報告了GFT近年的表現(xiàn)。2009年,GFT沒有能預測到非季節(jié)性流感A-H1N1;從2011年8月到2013年8月的108周里,GFT有100周高估了CDC報告的流感發(fā)病率。高估有多高呢?在2011-2012季,GFT預測的發(fā)病率是CDC報告值的1.5倍多;而到了2012-2013季,GFT流感發(fā)病率已經(jīng)是CDC報告值的雙倍多了。這樣看來,GFT不就成了那個喊“狼來了”的熊孩子了么。那么不用大數(shù)據(jù)會如何?作者報告,只用兩周前CDC的歷史數(shù)據(jù)來預測發(fā)病率,其表現(xiàn)也要比GFT好很多。
2013年,谷歌調(diào)整了GFT的算法,并回應(yīng)稱出現(xiàn)偏差的罪魁禍首是媒體對GFT的大幅報道導致人們的搜索行為發(fā)生了變化。Lazer等學者窮追不舍。他們的估算表明,GFT預測的2013-2014季的流感發(fā)病率,仍然高達CDC報告值的1.3倍。并且,前面發(fā)現(xiàn)的系統(tǒng)性誤差仍然存在,也就是過去犯的錯誤如今仍然在犯。因為遺漏了某些重要因素,GFT還是病得不輕。
為什么傳說中充滿榮光的大數(shù)據(jù)分析會出現(xiàn)如此大的系統(tǒng)性誤差呢?從大數(shù)據(jù)的收集特征和估計方法的核心,我們可以探究一二。
二、新瓶裝舊酒:過度擬合
大數(shù)據(jù)時代的來臨,為數(shù)據(jù)收集帶來了深刻變革。海量數(shù)據(jù)、實時數(shù)據(jù)、豐富多樣的非結(jié)構(gòu)數(shù)據(jù),以前所未有的廣度進入了人們的生活。但是不變的是,在統(tǒng)計分析方法上,數(shù)據(jù)挖掘(Data mining)仍然是統(tǒng)計分析的主要技術(shù)。而數(shù)據(jù)挖掘中最引人注目的過度擬合(overfitting)問題,由于下文提到的各類陷阱的存在,遠遠沒有解決。
我們先用一個故事來解釋何為過度擬合。假設(shè)有一所叫做象牙塔的警官學校致力于培養(yǎng)抓小偷的警察。該校宣稱,在他們學??梢砸姷剿蓄愋偷钠胀ㄈ恕⒁材芤姷剿蓄愋偷男⊥?;到他們學校來學習就能成為世界上最厲害的警察。但是這所學校有個古怪,就是從不教授犯罪心理學。
象牙塔的教學方式是這樣的:將人群隨機分為十組,每組都是既有普通人又有小偷。學員可以觀察到前九組所有人,也知道誰是普通人誰是小偷。學員要做的是,根據(jù)自己從前九組中了解到的小偷特征,從第十組中找出小偷。比如學員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒,那么在第十組觀察到有人在買尿布時也買啤酒,就作為一個嫌疑條件。完成這個過程之后,學校再將人群打散重新分成十組,如此循環(huán)往復,之后學校進行測試。測試方式就是再次將人群隨機分為十組,看誰能最快最準根據(jù)前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察,可以派到社會上抓小偷了。
一段時間后,問題來了:象牙塔最棒警察在象牙塔校內(nèi)總能迅速找到小偷,可一旦出了象牙塔, 該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現(xiàn),甚至比從來沒有來象牙塔學習的人還要差。
在這個故事里,象牙塔最棒警察就相當于根據(jù)大數(shù)據(jù)的數(shù)據(jù)挖掘方法、機器學習之后挑選出來的最優(yōu)模型。小偷相當于特定問題需要甄選出的對象,比如得流感的人、不干預就會自殺的人、賴賬的人。前九組的人就相當于用于訓練模型的訓練數(shù)據(jù);第十組人則相當于檢驗訓練結(jié)果的檢驗數(shù)據(jù)。不教授犯罪心理學就意味著抓小偷并不需要理解小偷為什么會成為小偷,類似于在數(shù)據(jù)分析中只關(guān)心相關(guān)關(guān)系而不關(guān)注因果關(guān)系。訓練最佳警察的過程,就類似于運用機器學習技術(shù), 采用訓練數(shù)據(jù)來訓練模型,然后采用檢驗數(shù)據(jù)來選擇模型,并將預測最好的模型作為最佳模型,用于未來的各類應(yīng)用中 。
最后,警察在象牙塔內(nèi)能快速抓小偷而校外不能,就是過度擬合問題。由于在學校通過多次重復練習,學員小偷的特征已經(jīng)爛熟于心,因此無論怎么隨機分,都能快速找到小偷并且不出錯;這就相當于訓練模型時,由于已經(jīng)知道要甄選人群的特征,模型能夠?qū)颖緝?nèi)觀測值作出很好的擬合。由于象牙塔學校判斷小偷的標準主要看外部特征而不去理解內(nèi)在原因,比如小偷常戴鴨舌帽,那么當社會人群里的小偷特征與象牙塔人群有很大差別時,比如社會上的小偷更常戴禮帽,在象牙塔內(nèi)一抓一個準的鴨舌帽標準,到社會就變成一抓一個錯了。也就是說,在樣本內(nèi)預測很好的模型,到樣本外預測很差。 這,就是過度擬合的問題。
從過度擬合角度,可以幫助我們理解為什么GFT在2009年表現(xiàn)好而之后表現(xiàn)差。在2009年,GFT已經(jīng)可以觀察到2007-2008年間的全部CDC數(shù)據(jù),也就是說GFT可以清楚知道CDC報告的哪里發(fā)病率高而哪里發(fā)病率低。這樣,采用上述訓練數(shù)據(jù)和檢驗數(shù)據(jù)尋找最佳模型的方法時標準就很清晰,就是不惜代價高度擬合已經(jīng)觀察到的發(fā)病率。 Lazer 等人發(fā)現(xiàn),GFT在預測2007-2008年流感流行率時,存在丟掉一些看似古怪的搜索詞,而用另外的5000萬搜索詞去擬合1152個數(shù)據(jù)點的情況。
2009年之后,該模型面對的數(shù)據(jù)就真正是未知的,這時如果后來的數(shù)據(jù)特征與2007-2008年的數(shù)據(jù)高度相似,那么GFT也該可以高度擬合CDC估計值。但現(xiàn)實是無情的,系統(tǒng)性誤差的存在,表明GFT在一些環(huán)節(jié)出了較大偏差而不得不面對過度擬合問題。
從上面的故事可以看到,產(chǎn)生過度擬合有三個關(guān)鍵環(huán)節(jié)。第一,象牙塔學校認定本校知道所有普通人與所有小偷的特征,也就等于知道了社會人群特征。第二,象牙塔學校訓練警察,不關(guān)心小偷的形成原因,而關(guān)注細致掌握已知小偷的特征。第三,象牙塔學校認為,不論時間如何變化,本校永遠能保證掌握的普通人和小偷的行為特征不會發(fā)生大規(guī)模變動、特別是不會因為本校的訓練而發(fā)生改變。
在大數(shù)據(jù)這個新瓶里,如果不避開下面的三個陷阱,就仍然可能裝著數(shù)據(jù)挖掘帶來的過度擬合舊酒:大數(shù)據(jù)自大、算法演化、看不見的動機導致的數(shù)據(jù)生成機制變化。
三、大數(shù)據(jù)分析的挑戰(zhàn)
?。ㄒ唬┫葳逡唬骸按髷?shù)據(jù)自大”
Lazer等學者提醒大家關(guān)注 “大數(shù)據(jù)自大(big data hubris)”的傾向,即認為自己擁有的數(shù)據(jù)是總體,因此在分析定位上,大數(shù)據(jù)將代替科學抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)(后文稱為“小數(shù)據(jù)”)、而不是作為小數(shù)據(jù)的補充。
如今,大數(shù)據(jù)確實使企業(yè)或者機構(gòu)獲取每一個客戶的信息、構(gòu)成客戶群的總體數(shù)據(jù)成為可能,那么說企業(yè)有這樣的數(shù)據(jù)就不需要關(guān)心抽樣會有問題嗎?
這里的關(guān)鍵是,企業(yè)或者機構(gòu)擁有的這個稱為總體的數(shù)據(jù),和研究問題關(guān)心的總體是否相同?!稊?shù)據(jù)之巔》一書記載了下面這個例子:上世紀三十年代,美國的《文學文摘》有約240萬讀者。如果《文學文摘》要了解這個讀者群的性別結(jié)構(gòu)與年齡結(jié)構(gòu),那么只要財力人力允許,不抽樣、直接分析所有這240萬左右的數(shù)據(jù)是可行的。但是,如果要預測何人當選1936年總統(tǒng),那么認定“自己的讀者群”這個總體和“美國選民”這個總體根本特征完全相同,就會差之毫厘謬以千里了。事實上,《文學雜志》的訂戶數(shù)量雖多,卻集中在中上層,并不能代表全體選民。與此相應(yīng),蓋洛普根據(jù)選民的人口特點來確定各類人群在樣本中的份額,建立一個5000人的樣本。在預測下屆總統(tǒng)這個問題上,采用這個小數(shù)據(jù)比采用《文學文摘》的大數(shù)據(jù),更準確地把握了民意。
在GFT案例中,“GFT采集的搜索信息”這個總體,和“某流感疫情涉及的人群”這個總體,恐怕不是一個總體。除非這兩個總體的生成機制相同,否則用此總體去估計彼總體難免出現(xiàn)偏差。
進一步說,由于某個大數(shù)據(jù)是否是總體跟研究問題密不可分,在實證分析中,往往需要人們對科學抽樣下能夠代表總體的小數(shù)據(jù)有充分認識,才能判斷認定單獨使用大數(shù)據(jù)進行研究會不會犯“大數(shù)據(jù)自大”的錯誤。
?。ǘ┫葳宥核惴ㄑ莼?/span>
相比于“大數(shù)據(jù)自大”問題,算法演化問題(algorithm dynamics)就更為復雜、對大數(shù)據(jù)在實證運用中產(chǎn)生的影響也更為深遠。我們還是借一個假想的故事來理解這一點。假定一個研究團隊希望通過和尚在朋友圈發(fā)布的信息來判斷他們對風險的態(tài)度,其中和尚遇到老虎的次數(shù)是甄別他們是否喜歡冒險的重要指標。觀察一段時間后該團隊發(fā)現(xiàn),小和尚智空原來遇到老虎的頻率大概是一個月一次,但是從半年前開始,智空在朋友圈提及自己遇到老虎的次數(shù)大幅增加、甚至每天都會遇到很多只。由于大數(shù)據(jù)分析不關(guān)心因果,研究團隊也就不花心思去追究智空為什么忽然遇到那么多老虎,而根據(jù)歷史數(shù)據(jù)認定小智空比過去更愿意冒險了。但是研究團隊不知道的情況是:過去智空與老和尚同住,半年前智空奉命下山化齋;臨行前老和尚交代智空,山下的女人是老虎、遇到了快躲開。在這個故事里,由于老和尚的叮囑,智空眼里老虎的標準變了。換句話說,同樣是老虎數(shù)據(jù),半年前老虎觀測數(shù)量的生成機制,和半年后該數(shù)據(jù)的生成機制是不同的。要命的是,研究團隊對此并不知情。
現(xiàn)實中大數(shù)據(jù)的采集也會遇到類似問題,因為大數(shù)據(jù)往往是公司或者企業(yè)進行主要經(jīng)營活動之后被動出現(xiàn)的產(chǎn)物。以谷歌公司為例,其商業(yè)模式的主要目標是更快速地為使用者提供準確信息。為了實現(xiàn)這一目標,數(shù)據(jù)科學家與工程師不斷更新谷歌搜索的算法、讓使用者可以通過后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要,但是在數(shù)據(jù)生成機制方面,卻會出現(xiàn)使用者搜索的關(guān)鍵詞并非出于使用者本意的現(xiàn)象。
這就產(chǎn)生了兩個問題:第一,由于算法規(guī)則在不斷變化而研究人員對此不知情,今天的數(shù)據(jù)和明天的數(shù)據(jù)容易不具備可比性,就像上例中半年前的老虎數(shù)據(jù)和半年后的老虎數(shù)據(jù)不可比一樣。第二,數(shù)據(jù)收集過程的性質(zhì)發(fā)生了變化。大數(shù)據(jù)不再只是被動記錄使用者的決策,而是通過算法演化,積極參與到使用者的行為決策中。
在GFT案例中,2009年以后,算法演化導致搜索數(shù)據(jù)前后不可比,特別是“搜索者鍵入的關(guān)鍵詞完全都是自發(fā)決定”這一假定在后期不再成立。這樣,用2009年建立的模型去預測未來,就無法避免因過度擬合問題而表現(xiàn)較差了。
(三)、陷阱三:看不見的動機
算法演化問題中,數(shù)據(jù)生成者的行為變化是無意識的,他們只是被頁面引導,點出一個個鏈接。如果在數(shù)據(jù)分析中不關(guān)心因果關(guān)系,那么也就無法處理人們有意識的行為變化影響數(shù)據(jù)根本特征的問題。這一點,對于數(shù)據(jù)使用者和對數(shù)據(jù)收集機構(gòu),都一樣不可忽略。
除掉人們的行為自發(fā)產(chǎn)生系統(tǒng)不知道的變化之外,大數(shù)據(jù)的評估標準對人們行為的影響尤為值得關(guān)注。再以智空為例。假定上文中的小和尚智空發(fā)現(xiàn)自己的西瓜信用分遠遠低于自己好友智能的西瓜信用分。智空很不服氣,經(jīng)過仔細觀察,他認為朋友圈言論可能是形成差異的主因。于是他細細研究了智能的朋友圈。他發(fā)現(xiàn),智能從不在朋友圈提及遇到老虎的事,而是常常宣傳不殺生、保護環(huán)境、貼心靈雞湯,并定期分享自己化齋時遇到慷慨施主的事。雖然在現(xiàn)實中,他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開,從此朋友圈言論風格大變,而不久后他也滿意地看到自己的西瓜信用分大幅提高了。
如今,大數(shù)據(jù)常常倚重的一個優(yōu)勢,是社交媒體的數(shù)據(jù)大大豐富了各界對于個體的認知。這一看法常常建立在一個隱含假定之上,就是人們在社交媒體分享的信息都是真實的、自發(fā)的、不受評級機構(gòu)和各類評估機構(gòu)標準影響的。但是,在互聯(lián)網(wǎng)時代,人們通過互聯(lián)網(wǎng)學習的能力大大提高。如果人們通過學習評級機構(gòu)的標準而相應(yīng)改變社交媒體的信息,就意味著大數(shù)據(jù)分析的評估標準已經(jīng)內(nèi)生于人們生產(chǎn)的數(shù)據(jù)中,這時,不通過仔細為人們的行為建模,是難以準確抓住的數(shù)據(jù)生成機制這類的質(zhì)變的。
從數(shù)據(jù)生成機構(gòu)來看,他們對待數(shù)據(jù)的態(tài)度也可能發(fā)生微妙的變化。例如,過去社交媒體企業(yè)記錄保存客戶信息的動機僅僅是本公司發(fā)展業(yè)務(wù)需要,算法演化也是單純?yōu)榱烁玫胤?wù)消費者。但隨著大數(shù)據(jù)時代的推進,“數(shù)據(jù)為王”的特征越來越明顯,公司逐漸意識到,自己擁有的數(shù)據(jù)逐漸成為重要的資產(chǎn)。除了可以在一定程度上給使用者植入廣告增加收入之外,還可以在社會上產(chǎn)生更為重要的影響力。這時就不能排除數(shù)據(jù)生成機構(gòu)存在為了自身的利益,在一定程度上操縱數(shù)據(jù)的生成與報告的可能性。比如,在Facebook等社交媒體上的民意調(diào)查,就有可能對一個國家的政治走向產(chǎn)生影響。而民意調(diào)查語言的表述、調(diào)查的方式可以影響調(diào)查結(jié)果,企業(yè)在一定程度上就可以根據(jù)自身利益來操縱民意了。
簡而言之,天真地認為數(shù)據(jù)使用者和數(shù)據(jù)生成機構(gòu)都是無意識生產(chǎn)大數(shù)據(jù)、忽略了人們行為背后趨利避害的動機的大數(shù)據(jù)統(tǒng)計分析,可能對于數(shù)據(jù)特征的快速變化迷惑不解,即便看到模型預測表現(xiàn)差,也難以找到行之有效的克服方法。
四、前車之鑒
目前,我國高度重視大數(shù)據(jù)發(fā)展。2015年8月31日,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作?!毒V要》認為,大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力(310328,基金吧)、重塑國家競爭優(yōu)勢的新機遇,和提升政府治理能力的新途徑?!毒V要》指出,2018年底前,要建成國家政府數(shù)據(jù)統(tǒng)一開放平臺,率先在信用、交通、醫(yī)療等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會開放。與此相應(yīng),近年來多地成立了大數(shù)據(jù)管理局、業(yè)界學界對于大數(shù)據(jù)的分析利用也予以熱烈回應(yīng)。因此,了解大數(shù)據(jù)分析的優(yōu)勢與陷阱,對我國的經(jīng)濟發(fā)展和實證研究具有極其重要的意義;而GFT項目折射出的大數(shù)據(jù)使用中可能存在的機會與問題,都值得關(guān)注。
(一) 防范“大數(shù)據(jù)自大”帶來的風險
GFT案例表明,如果認為大數(shù)據(jù)可以代替小數(shù)據(jù),那么過度擬合問題可以帶來巨大的估計誤差。這一點在“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的今天尤其需要關(guān)注。這是因為大數(shù)據(jù)作為目前“創(chuàng)新”最閃亮的新元素被高度推崇的,而我國經(jīng)濟處于轉(zhuǎn)型時期的特征,使企業(yè)或者機構(gòu)面對的微觀數(shù)據(jù)不斷發(fā)生動態(tài)變化。如果在數(shù)據(jù)挖掘中忽略這些變化,往往要面臨過度擬合帶來的損失。
例如,我國P2P網(wǎng)貸行業(yè)采用的數(shù)據(jù)體量雖然大多達不到大數(shù)據(jù)要求的海量數(shù)據(jù),但是不少企業(yè)熱衷采用爬蟲等技術(shù)從社交媒體挖掘信息用于甄別客戶。這些平臺健康狀況,就可能與過度擬合的嚴重程度密不可分。 根據(jù)中國P2P網(wǎng)貸行業(yè)2014年度運營簡報和2015年上半年的運營簡報,在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問題平臺數(shù),并與2015年6月新增問題平臺數(shù)作比較。[1]
新增問題平臺的大幅增加原因雖然有多方面,但是從數(shù)據(jù)分析的角度看,由于還沒有合法的數(shù)據(jù)共享機制,P2P平臺在甄別客戶質(zhì)量時,往往只依靠自身渠道和從社交媒體等挖掘的數(shù)據(jù),并采用數(shù)據(jù)挖掘方法建立相應(yīng)建立模型。在數(shù)據(jù)分析中,不少P2P平臺往往疏于查考自身樣本的代表性、也忽略宏觀經(jīng)濟數(shù)據(jù)和其他微觀數(shù)據(jù)所包含的信息。由于互聯(lián)網(wǎng)金融公司出現(xiàn)時間短、又主要成長于經(jīng)濟繁榮期,如果單單依賴有限的數(shù)據(jù)渠道,數(shù)據(jù)挖掘與機器學習過程對新常態(tài)下個體行為沒有足夠的認識,在經(jīng)濟下行時仍然根據(jù)歷史數(shù)據(jù)而低估逾期率,導致高估平臺健康狀況,最終不得不面對問題平臺不斷增加的局面。
(二) 大數(shù)據(jù)和小數(shù)據(jù)齊頭并進大勢所趨
大數(shù)據(jù)和小數(shù)據(jù)各有優(yōu)劣。簡而言之,小數(shù)據(jù)通常不會假定該數(shù)據(jù)就是總體,因此收集數(shù)據(jù)前往往需要確定收集數(shù)據(jù)的目標、根據(jù)該目標設(shè)計的問卷或者收集方法、確定抽樣框。在數(shù)據(jù)采集后,不同學者往往可以通過將新收集數(shù)據(jù)與不同數(shù)據(jù)的交叉驗證,來評估數(shù)據(jù)的可信度。小數(shù)據(jù)在收集上有變量定義清晰、數(shù)據(jù)生成機制基本可控、檢驗評估成本相對較低等優(yōu)點,但是缺點是數(shù)據(jù)收集成本高,時間間隔長、顆粒度較粗。
大數(shù)據(jù)的優(yōu)勢就包括數(shù)據(jù)體量大、收集時間短、數(shù)據(jù)類型豐富,顆粒度很細。但是,由于大數(shù)據(jù)往往是一些企業(yè)和機構(gòu)經(jīng)營活動的附帶產(chǎn)品,因此并不是通過精心論證的測度工具生成。另外,由于大數(shù)據(jù)的體量很大,交叉驗證數(shù)據(jù)的可信度、不同學者采用相同數(shù)據(jù)獨立研究以檢驗數(shù)據(jù)的前后一致性等工作難度較大。這些特點意味著大數(shù)據(jù)本身未必有科學研究要求的那樣準確、可靠,在數(shù)據(jù)分析中就需要對大數(shù)據(jù)適合研究的問題有較清晰的認識。
在與小數(shù)據(jù)互為補充推動研究與認知方面,大數(shù)據(jù)大有可為。將大數(shù)據(jù)與小數(shù)據(jù)相結(jié)合,可以大大提高數(shù)據(jù)的顆粒度和預測精度。比如對CDC流感發(fā)病率的預測研究發(fā)現(xiàn),將GFT采用的大數(shù)據(jù)和CDC的歷史數(shù)據(jù)相結(jié)合的模型,其預測能力比單獨運用大數(shù)據(jù)或者小數(shù)據(jù)要好很多。
大數(shù)據(jù)往往可以實時生成,對于觀察特定社區(qū)的動態(tài)具有小數(shù)據(jù)無可替代的優(yōu)勢。比如,美國在“九一一”之后,出于快速準確估計在某個特定小社區(qū)活動的人口的需要而啟動了“工作單位和家庭住址縱向動態(tài)(LEHD)”項目,該項目將人口普查數(shù)據(jù)、全國公司數(shù)據(jù)、個人申請失業(yè)保險、補貼、納稅等記錄聯(lián)通,可以對社區(qū)在短時間內(nèi)的“新陳代謝”作出較為全面的刻畫。
這類的數(shù)據(jù)結(jié)合研究,對于了解我國社會經(jīng)濟狀況的動態(tài)變化會十分重要。一個可能的應(yīng)用是,將城市人口、工作狀態(tài)、性別、年齡、收入等小數(shù)據(jù)采集的信息,和實時產(chǎn)生的交通狀況相結(jié)合,來預測人們的出行特征,來解決城市交通擁堵、治理霧霾等問題。另一個可能的應(yīng)用是,推動人民銀行征信中心個人征信系統(tǒng)數(shù)據(jù)和民間征信系統(tǒng)大數(shù)據(jù)的結(jié)合,建立高質(zhì)量的中國個人征信體系。
另外,我國經(jīng)濟處于轉(zhuǎn)型時期,有不少政策亟需快速評估政策果效。以小數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)數(shù)據(jù)量豐富的優(yōu)勢,可以通過互聯(lián)網(wǎng)做一些隨機實驗,來評估一些政策的效果,也是可能的發(fā)展方向。
在過去的十多年中,我國在通過非官方渠道采集小數(shù)據(jù)、特別是微觀實證數(shù)據(jù)方面取得了長足進展。在多方努力下,更多經(jīng)過嚴格科學論證而產(chǎn)生的數(shù)據(jù)可被公眾免費獲得并用于研究。例如,北京大學的“中國健康與養(yǎng)老追蹤調(diào)查”、“中國家庭追蹤調(diào)查”,都由經(jīng)濟、教育、健康、社會學等多領(lǐng)域的專家協(xié)同參與問卷的設(shè)計和數(shù)據(jù)采集的質(zhì)控。在這些努力下,小數(shù)據(jù)的生成機制更為透明,交叉驗證調(diào)查數(shù)據(jù)的可信度等實證研究的必要步驟也更為可行。
但是,目前在小數(shù)據(jù)的收集和使用、政府和有關(guān)機構(gòu)的小數(shù)據(jù)開放運用方面,我國還有很大推進空間。只有在對涉及我國基本國情的小數(shù)據(jù)進行充分學習研究之后,我國學界和業(yè)界才能對經(jīng)濟政治社會文化等領(lǐng)域的基本狀況有較清晰的把握。而這類的把握,是評估大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)可研究問題的關(guān)鍵,對推進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展有舉足輕重的作用。
因此在政策導向上,為要實現(xiàn)大數(shù)據(jù)、小數(shù)據(jù)相得益彰推動經(jīng)濟發(fā)展的目標,在促進發(fā)展大數(shù)據(jù)的同時也要大力發(fā)展小數(shù)據(jù)相關(guān)產(chǎn)業(yè),推動小數(shù)據(jù)相關(guān)研究與合作,使大數(shù)據(jù)與小數(shù)據(jù)齊頭并進、互為補充。
?。ㄈ┨岣叽髷?shù)據(jù)使用的透明度,加強對大數(shù)據(jù)質(zhì)量的評估
大數(shù)據(jù)面臨的透明度問題遠比小數(shù)據(jù)嚴重。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法,但是谷歌并沒有公開相應(yīng)數(shù)據(jù)、也沒有解釋這類數(shù)據(jù)是如何搜集的。我國大數(shù)據(jù)相關(guān)企業(yè)的數(shù)據(jù),也鮮有學者可以獲得并用于做研究的例子。
與透明度相關(guān)的就是大數(shù)據(jù)分析結(jié)果的可復制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù),因此就難以復制、評估采用該數(shù)據(jù)分析結(jié)果的可靠性。因此利用大數(shù)據(jù)的研究難以形成合力,只能處于案例、個例的狀態(tài)。
另外還要注意到,如果數(shù)據(jù)生成機制不清晰,研究結(jié)論難以復制,而算法演化也表明,最終數(shù)據(jù)往往成為使用者和設(shè)計者共同作用的結(jié)果。這種數(shù)據(jù)生成的“黑箱”特征,容易成為企業(yè)或者機構(gòu)操縱數(shù)據(jù)生成過程和研究報告結(jié)果的溫床。唯有通過推動大數(shù)據(jù)的透明化、公開化,我們才能在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展之初,建立健康的數(shù)據(jù)文化。
因此,在大數(shù)據(jù)時代,為了更好利用大數(shù)據(jù),需要采取相關(guān)措施,增加在大數(shù)據(jù)生成過程的透明度方面的努力。例如,采取措施推進數(shù)據(jù)生成企業(yè)在妥善處理隱私信息后,定期公布大數(shù)據(jù)隨機抽樣數(shù)據(jù)、要求數(shù)據(jù)生成企業(yè)及時公布數(shù)據(jù)算法的變更,鼓勵采用大數(shù)據(jù)的研究實現(xiàn)可復制性、便于交叉驗證等。
五、結(jié)語
目前有些流行觀點認為,在大數(shù)據(jù)時代,技術(shù)容許人們擁有了總體因此抽樣不再重要、另外由于數(shù)據(jù)挖掘術(shù)的進展,只需關(guān)心相關(guān)關(guān)系而不必再關(guān)心因果關(guān)系。而GFT的實例表明,即便谷歌公司用于GFT計算的是數(shù)十億的觀測值,也不能認為谷歌公司擁有了流感人群的總體。誤認為數(shù)據(jù)體量大就擁有了總體,就無法謙卑結(jié)合其他渠道的小數(shù)據(jù),得到更為穩(wěn)健的分析結(jié)論。而GFT估計的偏誤原因,從來都離不開人們的主動的行為-- 無論是谷歌公司自己認為的GFT的流行導致更多人使用該搜索、還是Lazer等人認為的算法變化、丟棄異常值。因此,不明白數(shù)據(jù)生成機理變化的原因而只看相關(guān)關(guān)系的后果,于谷歌是GFT的計算偏誤丟了臉,而對熱情地投身于采用大數(shù)據(jù)到創(chuàng)新、創(chuàng)業(yè)中的中國民眾和相關(guān)機構(gòu)來說,則可能是不得不面對事先沒有預備的重大經(jīng)濟損失。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07