
如今,包括電視在內(nèi)的許多媒體,都有“大數(shù)據(jù)分析”相關(guān)的一些欄目,大數(shù)據(jù)的概念也正在悄悄進(jìn)入普通老百姓的意識中。我最早接觸大數(shù)據(jù)應(yīng)用的時候, 被其中的一個重要案例所吸引,那就是谷歌與甲型H1N1流感的傳奇故事。我們不得不佩服谷歌公司的眼光,從其誕生之日,谷歌就保存了用戶所有的搜索記錄, 其他許多公司是不是將這些數(shù)據(jù)都當(dāng)做垃圾扔掉了?你以為你在用谷歌搜索呀,其實(shí)谷歌也在搜索你!谷歌知道了我們在什么地方、什么時間,對什么東西感興趣。如果將大量用戶的這些東西結(jié)合在一起,是不是有巨大的商業(yè)價值?現(xiàn)在,谷歌每天都會收到來自全球超過30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它完成各種有趣的工作,關(guān)鍵在于你的想象力。
谷歌的工程師們很早就發(fā)現(xiàn),某些搜索字詞非常有助于了解流感疫情:在流感季節(jié),與流感有關(guān)的搜索會明顯增多;到了過敏季節(jié),與過敏有關(guān)的搜索會顯著 上升;而到了夏季,與曬傷有關(guān)的搜索又會大幅增加。這是很容易理解的,一般的人沒有什么生病的癥狀,是不會去主動查那些與疾病相關(guān)的內(nèi)容的。于 是,2008年谷歌推出了“谷歌流感趨勢”(GFT),這個工具根據(jù)匯總的谷歌搜索數(shù)據(jù),近乎實(shí)時地對全球當(dāng)前的流感疫情進(jìn)行估測,但當(dāng)時并沒有引起太多 人的關(guān)注。2009年在H1N1爆發(fā)幾周前,谷歌公司的工程師們在Nature上發(fā)表了一篇論文,介紹了GFT,成功預(yù)測了H1N1在全美范圍的傳播,甚至具體到特定的地區(qū)和州,而且判斷非常及時,令公共衛(wèi)生官員們和計算機(jī)科學(xué)家們倍感震驚。與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成為了一個更有效、更及時的指示標(biāo),不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。這個工具最初運(yùn)行表現(xiàn)很好,許多國家的研究人員已經(jīng)證實(shí),其流感樣疾?。╥nfluenza-like illness, ILI)的估計是準(zhǔn)確的。
2013年2月,GFT再次上了頭條,但這次不是因?yàn)楣雀枇鞲懈櫹到y(tǒng)又有了什么新的成就。2013年1月,美國流感發(fā)生率達(dá)到峰值,谷歌流感趨勢 的估計比實(shí)際數(shù)據(jù)高兩倍,就是這個不精確性再次引起了媒體的關(guān)注。事實(shí)上,在2013年的報道之前,GFT就多次在很長一段時間內(nèi)過高地估計了流感的流行 情況。 從2011年8月到2013年9月108周中,谷歌開發(fā)工具超估流感流行高達(dá)100個周。2012 – 2013與2011 – 2012的季節(jié)相比,它高估了流感流行趨勢超過50%。在去年冬天的流感季節(jié)高峰,谷歌追蹤是疾病控制和預(yù)防中心(CDC)實(shí)際搜集數(shù)據(jù)的兩倍。這些錯誤 不是隨機(jī)分布的。例如,前一周的錯誤會影響預(yù)測下一周的錯誤(時間自相關(guān)),錯誤的方向和大小隨季節(jié)而變化,這些模式使得GFT高估了相當(dāng)多的信息,而這 些信息原本是可以通過傳統(tǒng)統(tǒng)計方法提取而避免的。
在上周Science上發(fā)表的一篇文章“谷歌流感的寓言:大數(shù)據(jù)分析的陷阱”,就是以這個故事為案例,解釋了大數(shù)據(jù)分析為何會背離事實(shí),并提出了大 數(shù)據(jù)時代背景下一些值得思考的事。作者認(rèn)為造成這種結(jié)果有兩個重要原因,分別是大數(shù)據(jù)浮夸(Big Data Hubris)和算法變化。
(1)我們經(jīng)常隱含的假設(shè)是,大數(shù)據(jù)是傳統(tǒng)的數(shù)據(jù)收集和分析的替代品,而不是補(bǔ)充。在其他地方,我們斷言大數(shù)據(jù)有巨大的科學(xué)可能性,但是,數(shù)據(jù)的量并不意味著人們可以忽略測量的基本問題,構(gòu)造效度和信度以及數(shù)據(jù)間的依賴關(guān)系。其核心挑戰(zhàn)是大多數(shù)大數(shù)據(jù)得到了大眾的關(guān)注,但并沒有產(chǎn)生對科學(xué)分析來說有效和可靠的數(shù)據(jù)。
(2)在谷歌為改善其服務(wù)中,也改變了數(shù)據(jù)生成過程。這些調(diào)整有可能人為推高了一些搜索,并導(dǎo)致谷歌的高估。例 如,2011年,作為常規(guī)搜索算法調(diào)整的一部分,谷歌對于許多查詢開始采用推薦相關(guān)搜索詞(包括列出與許多流感相關(guān)術(shù)語的尋找流感治療的清單)的方式,在 2012年,為了響應(yīng)對癥狀的搜索,谷歌開始提供診斷術(shù)語(當(dāng)用“喉嚨痛”搜索時,會列出許多相關(guān)的搜索詞,見下圖;當(dāng)然不同的語言差別也是很大的)。研 究人員認(rèn)為,如果是這樣,那么谷歌流感趨勢不準(zhǔn)確性就不是必然的,這并不是谷歌的方法或大數(shù)據(jù)分析本身存在什么缺陷,可以通過改變搜索引擎的一些策略
另外,當(dāng)研究人員對在過去幾年各種流感相關(guān)的查詢進(jìn)行研究時,他們發(fā)現(xiàn)兩個關(guān)鍵搜索詞(流感治療,以及如何區(qū)分流感、受涼或感冒)與谷歌流感趨勢結(jié) 合更密切,而不是實(shí)際的流感,看來這些特殊的搜索似乎是導(dǎo)致不準(zhǔn)確問題的大部分原因。從大數(shù)據(jù)追蹤流感是一個特別困難的問題。事實(shí)證明,很大一部分與 CDC流感發(fā)生率數(shù)據(jù)相關(guān)的搜索詞,并非是得流感的人引起的,而是由影響搜索模式和流感傳播的第三個因素(季節(jié))產(chǎn)生的。事實(shí)上,谷歌流感趨勢的開發(fā)人員發(fā)現(xiàn)那些特定的搜索詞是隨時間而發(fā)生變化的,但這些搜索顯然與病毒無關(guān)。
這些問題并不限于GFT。研究搜索或社會媒體能否預(yù)測某個未知的參數(shù)已經(jīng)成為一種普遍現(xiàn)象,與傳統(tǒng)方法和假設(shè)形成了鮮明的對比。盡管這些研究顯示了這些數(shù)據(jù)的價值,但是還遠(yuǎn)未達(dá)到要取代傳統(tǒng)的方法或理論的地步。大數(shù)據(jù)在幫助公共衛(wèi)生事業(yè)方面具有巨大的潛力,但如果沒有足夠的背景信息,僅僅靠數(shù)字可能是會誤導(dǎo)人的。谷 歌是一個業(yè)務(wù),但也保留著人們的愿望、想法和聯(lián)系的數(shù)據(jù)。確定谷歌流感趨勢出現(xiàn)問題的確切位置并不容易,因?yàn)樵摴镜乃阉魉惴ê蛿?shù)據(jù)收集過程是其專有技 術(shù)。誠然,對局外人來說很難分析谷歌流感趨勢,因?yàn)樵摴静⒉辉腹_特定搜索詞的原始數(shù)據(jù),以及將這些搜索詞出現(xiàn)頻率轉(zhuǎn)化為流感評估的特定算法。上周 Science文章的作者也仍然認(rèn)為,問題是可以解決的。他們推薦應(yīng)該將大數(shù)據(jù)與小數(shù)據(jù)(即傳統(tǒng)的控制數(shù)據(jù)集)結(jié)合起來,創(chuàng)建對人類行為更深入、更準(zhǔn)確的表達(dá)。
科學(xué)是一個是站在巨人肩膀上逐漸累積的過程,需要科學(xué)家能夠不斷地評估他們建立的工作,而知識的積累需要數(shù)據(jù)形式的燃料。相關(guān)研究者網(wǎng)絡(luò)總是想提高 大數(shù)據(jù)項(xiàng)目的價值,并從這些類型的數(shù)據(jù)中擠出更多的可操作性的信息。最初GFT是希望產(chǎn)生一個能準(zhǔn)確反映當(dāng)前流行傳染病可能,這樣可早日采取措施進(jìn)行生命 救治的干預(yù)。從根本上講這是正確的,所有的分析表明,這確實(shí)是有價值的信息提取。另一個值得重視的問題是數(shù)據(jù)的源頭,不管是私營企業(yè)還是社交媒體都可能存 在有意無意地操縱數(shù)據(jù)的問題,因?yàn)樗麄兛偸且_保與其產(chǎn)品的相關(guān)性或贏得廣告收入。對各個流感的分析表明,最好的結(jié)果來自兩個來源的信息和技術(shù)的結(jié)合。取代談?wù)摗按髷?shù)據(jù)革命”的應(yīng)該是“全數(shù)據(jù)革命”(all data revolution),應(yīng)該用全新的技術(shù)和方法對各種問題進(jìn)行更多更好的分析。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03