
當我與越來越多的數(shù)據(jù)科學(xué)和 "大數(shù)據(jù)" 社區(qū)合作時,我震驚地發(fā)現(xiàn),大部分從業(yè)者基礎(chǔ)都狹隘地集中在統(tǒng)計和計算專業(yè)知識上,并沒有對正在研究的領(lǐng)域有扎實的基礎(chǔ)。不管是政府機構(gòu),還是商業(yè)公司,許多崗位都有數(shù)據(jù)科學(xué)家的身影。我曾共事過的同事,多是從計算機科學(xué)或硬件科學(xué)領(lǐng)域開始他們的職業(yè)生涯。這種特定領(lǐng)域知識的缺乏如何影響當今的大數(shù)據(jù)和數(shù)據(jù)分析世界?
在我接觸過的數(shù)據(jù)科學(xué)家中,極少數(shù)在他們目前研究的學(xué)科和領(lǐng)域擁有深厚的背景或嚴格的培訓(xùn)。與我合作過的許多組織中,數(shù)據(jù)科學(xué)家被視為即時問題解決者, 在組織的整個運作中快速移動,分析一個領(lǐng)域中的深層技術(shù)。然后第二天去解決在另一個完全不同的領(lǐng)域中出現(xiàn)的復(fù)雜問題。每天早上,數(shù)據(jù)科學(xué)者制作出電子報表,當天下午便會收到模型的結(jié)果,然而數(shù)據(jù)分析流程中的生產(chǎn)者和消費者之間幾乎沒有互動或溝通。
這造成了一種危險的情況,數(shù)據(jù)科學(xué)家往往不熟悉他們所使用的數(shù)據(jù)中的細微差別或他們所研究的領(lǐng)域的專業(yè)假設(shè),并可能會無意中產(chǎn)生誤入歧途的分析。這并不是說數(shù)據(jù)科學(xué)是一門糟糕的科學(xué),而是數(shù)據(jù)分析只是一種工具,而不是某種形式的普遍真理。其實所有的數(shù)據(jù)都是一樣,大量數(shù)據(jù)以及用于分析這些數(shù)據(jù)的統(tǒng)計方法、算法和軟件包必須與無數(shù)潛在錯誤作斗爭。
正如我在無數(shù)場合所指出的,挖掘數(shù)據(jù)和回答問題有很大的不同。任何給定的數(shù)據(jù)集都只是對實際情況的某一方面體現(xiàn),但單一的數(shù)據(jù)集不可能提供了對所有現(xiàn)實存在的完美、全面和公正的體現(xiàn)。這意味著, 在分析數(shù)據(jù)方面,對自己正在關(guān)注的數(shù)據(jù)有任何了解遠比擁有統(tǒng)計博士要重要得多。正如我去年為《衛(wèi)報》撰寫的文章那樣,即使是像內(nèi)特·西爾弗這樣最著名的統(tǒng)計學(xué)家,也會對他們正在處理的數(shù)據(jù)做出錯誤的假設(shè)。
進行數(shù)據(jù)挖掘與進行其他領(lǐng)域的實驗是一樣的: 實驗的實際執(zhí)行是一個非常長的流程的最后階段,即使在收集結(jié)果之后,仍然有一個漫長而詳細的過程來驗證結(jié)果。然而,我遇到的數(shù)據(jù)科學(xué)家很少接受過實驗設(shè)計方面的嚴格培訓(xùn),也很少有人完全理解和認可他們在分析的每個階段所做的無數(shù)假設(shè)。
與任何實驗一樣, 數(shù)據(jù)分析有很長的流程,每個階段都會對環(huán)境產(chǎn)生影響。首先是利用通過調(diào)查或傳感器儀器新收集的數(shù)據(jù)或推特等存儲庫的現(xiàn)有數(shù)據(jù)收集數(shù)據(jù)。與任何實驗一樣,用于收集數(shù)據(jù)的儀器和收集數(shù)據(jù)的條件會對最終數(shù)據(jù)產(chǎn)生巨大影響,甚至有可能使數(shù)據(jù)捕捉感興趣現(xiàn)象的能力消失。一旦收集到數(shù)據(jù),就必須隔離收集環(huán)境的各種影響和偏見,以嘗試清理數(shù)據(jù)和隔離錯誤。這可能需要規(guī)范化來處理隨著時間的推移對集合環(huán)境的更改。有一系列的算法或統(tǒng)計方法用于清理和分析數(shù)據(jù),但這些方法往往可能會對數(shù)據(jù)的組成做出假設(shè),而這些假設(shè)可能不成立,可能需要替代方法對錯誤和噪聲更加穩(wěn)健。最后,分析的最終結(jié)果要求仔細考慮整個處理流程,以徹底消除假設(shè)所提議的結(jié)果以外的任何其他來源。
我所看到的數(shù)據(jù)科學(xué)往往從抓取任何最容易訪問的數(shù)據(jù)集開始: 因此,驅(qū)動查找的基礎(chǔ)數(shù)據(jù)更多的是基于哪些數(shù)據(jù)可以最快速地獲得,而不是哪些數(shù)據(jù)實際上最能回答問題。一位域名專家可以告訴你, 從英語西方社交媒體平臺挖掘直播流媒體視頻可能不是評估偏遠森林村觀點的最佳方式,這個村莊只有一部太陽能非數(shù)據(jù)功能手機作為其唯一的手機與外界的聯(lián)系。同樣, 在一個沒有移動數(shù)據(jù)滲透、只有功能手機的地區(qū),很少有居民有手機。在打電話吃飯的手續(xù)上,使用開放餐桌餐廳預(yù)訂來衡量疾病爆發(fā)可能不是一個可行的解決方案預(yù)訂不是當?shù)貍鹘y(tǒng)的一部分。然而,這兩者都給我被要求審查的重大項目帶來了嚴峻的驚喜。問題是,很少有數(shù)據(jù)科學(xué)項目涉及大量能夠?qū)?shù)據(jù)選擇過程進行這種檢查和深入了解的領(lǐng)域?qū)<摇?/span>
也許接下來最關(guān)鍵的部分是: 驗證和清潔。這就是領(lǐng)域?qū)I(yè)知識對于驗證當前數(shù)據(jù)是否可以轉(zhuǎn)換為實際支持所需分析的內(nèi)容更為關(guān)鍵的地方。例如, 我曾經(jīng)被要求幫助監(jiān)督一個按國家匯編失業(yè)數(shù)據(jù)的項目, 該項目可以追溯到幾百年前。問題是, 每個國家對 "失業(yè)" 概念的定義都不同。有些人將所有失業(yè)者混為一談, 而另一些人則將尋找的人與不找工作的人分開, 或?qū)埣踩伺懦谕饣虬埣踩?、在家工作、社會福利收?jù)、大學(xué)生等。這些定義往往會隨著時間的推移而變化, 這意味著在一年的數(shù)據(jù)中, "失業(yè)" 可能只指一個國家的失業(yè)磚匠, 可能會將國家支持的福利領(lǐng)取者排除在另一個國家, 并可能包括所有個人, 包括所有個人全日制大學(xué)生在另一個, 然后改變第二年在一些國家, 但不是其他國家。這在比較需要對數(shù)據(jù)進行廣泛研究和修補才能修復(fù)的國家時, 在數(shù)據(jù)中產(chǎn)生了非常奇怪的滲出和樓梯步進效應(yīng)。
不幸的是, 很少有數(shù)據(jù)科學(xué)家在探索性和魔鬼的數(shù)據(jù)集分析方面接受過廣泛的培訓(xùn)。他們經(jīng)常會下載一個數(shù)據(jù)集, 閱讀隨數(shù)據(jù)所附的文檔, 并完全根據(jù)文檔所說的數(shù)據(jù)應(yīng)該是什么樣子進行分析。當然, 在現(xiàn)實生活中, 數(shù)據(jù)很少與文檔完全匹配。也許最著名的是, 在創(chuàng)建廣泛報道的2012年全球推特心跳分析時, 我們發(fā)現(xiàn), 當時的文檔和其他數(shù)據(jù)科學(xué)家提供的公共統(tǒng)計數(shù)據(jù)表明, 推特數(shù)據(jù)所包含的數(shù)據(jù)不到1% 的地理標記推特。然而, 當我對 Twitter Decahose 進行各種模式和異常的初步掃描時, 一個早期的發(fā)現(xiàn)是, iPhones 將其地理位置信息存儲在一個沒有記錄和非標準的字段中, 這在推特中增加了1%可用的地理位置信息 (推特規(guī)模的大量信息)。雖然有幾篇奇怪的論文評論說, 在這里和那里看到了一些奇怪的數(shù)據(jù)點, 但沒有人坐下來, 帶著完整的推特數(shù)據(jù), 在上面進行詳盡的掃描, 尋找任何與文件不同的東西, 或者是像奇怪的一樣突出的東西,如 JSON 工程中的技術(shù)錯誤等。
也許最致命的是, 我所遇到的數(shù)據(jù)科學(xué)家很少有在理解規(guī)范化和測量對結(jié)果的影響方面有過廣泛的培訓(xùn)或背景, 從調(diào)查設(shè)計和管理到錯誤的數(shù)字精度。隨著時間的推移, 幾乎所有數(shù)據(jù)集的可用性和準確性都呈指數(shù)級增長, 尤其是在后數(shù)字時代。無論是看失業(yè)數(shù)據(jù), 還是看提及特定主題的新聞文章數(shù)量, 任何數(shù)據(jù)集中捕捉到的現(xiàn)實的基本觀點都不是靜態(tài)的: 它是高度流動和動態(tài)的, 往往以非常非線性的方式變化。這就需要廣泛的領(lǐng)域知識來了解數(shù)據(jù)集是如何編譯的, 以及它所測量的字段或現(xiàn)象的功能和細微差別。
在所有關(guān)于推特的學(xué)術(shù)研究中, 很大一部分使用了免費的1% 流量媒體的API。然而, 一長串的研究認為, 1% 的流量是一個非隨機樣本的整個推特消防軟管與明顯的差異, 這表明我們對 Twitter 如何大規(guī)模運作的理解和知識可能是有偏見或錯誤的。
在互聯(lián)網(wǎng)時代之前, 絕大多數(shù)涉及新聞報道的學(xué)術(shù)研究都是扭曲的, 因為它未能使被評估的網(wǎng)點的組成和總產(chǎn)量的潛在變化常態(tài)化。新聞機構(gòu)并不是及時固定的靜態(tài)實體--它們的主題焦點會隨著讀者利益的變化而變化, 每天發(fā)表的文章總量也會隨著時間的推移而發(fā)生巨大的變化。
2010年, 為了在美國教育委員會的《總統(tǒng)任期》中進行的一項研究, 保羅·馬蓋利和我在《紐約時報》的美國記錄報紙印刷版中研究了過去半個世紀來高等教育覆蓋面的變化。如果僅僅計算出每年提到所有美國研究型大學(xué)的原始文章數(shù)量, 由此得出的圖表顯示, 60年來對高等教育的興趣相對穩(wěn)定。
在《紐約時報》1945-2005年印刷版中提到一所研究型大學(xué)的文章總數(shù) (信用: Kalev Leetaru/sunden 大學(xué)轉(zhuǎn)載)。然而, 如下文所示, 在這60年期間 (1945-2005年), 《紐約時報》的年總產(chǎn)量線性萎縮了50% 以上。
因此, 雖然在這60年里, 提到研究型大學(xué)的文章的絕對數(shù)量保持相對穩(wěn)定, 但這是在論文縮小一半以上的背景下發(fā)生的, 這意味著如果我們每年除以原始文章的數(shù)量當年《紐約時報》所有文章的總數(shù)都提到了高等教育, 我們得到了一個截然不同的畫面, 這一情況顯示, 在這60年里, 這一情況穩(wěn)定地幾乎增加了兩倍。
問題就出在這里--大多數(shù)研究審查媒體對某一主題的報道只是報道原始數(shù)量, 而不是通過被評估的網(wǎng)點的總產(chǎn)出的變化來常態(tài)化。
即使在規(guī)范化之外, 數(shù)據(jù)科學(xué)家也經(jīng)常通過對照輔助數(shù)據(jù)集檢查數(shù)據(jù)集來 "驗證" 數(shù)據(jù)集。然而, 如果比較數(shù)據(jù)集是由同一組織使用相同的數(shù)據(jù)源和方法生成的, 則不會提供真正的驗證點。事實上, 我看到在同行評審文獻中發(fā)表的文章越來越多, 這些文章比較了多個數(shù)據(jù)集, 并認為其中一篇比另一個數(shù)據(jù)集更準確, 因為它表明它與第三個數(shù)據(jù)集的相關(guān)性更密切, 但第三個數(shù)據(jù)集是在哪里產(chǎn)生的使用相同的數(shù)據(jù)和方法。這意味著, 相關(guān)檢查實際上只是評估這兩個項目在將相同的方法應(yīng)用于相同的數(shù)據(jù)時的匹配程度, 而不是它們在評估有關(guān)現(xiàn)象時是否比第三個項目更準確。讓一名領(lǐng)域?qū)<覅⑴c該項目, 將使這種錯誤在最初階段被抓住, 而不是通過同行審查才能生存到出版。這也表明, 許多同行評審期刊, 包括一些最負盛名的領(lǐng)域, 缺乏領(lǐng)域?qū)<襾砜尚诺赝性u審他們的許多提交。
數(shù)據(jù)集創(chuàng)建者可以做些什么來幫助分析師避免犯這類錯誤?當 Culturomics 團隊發(fā)表 2010年的論文時, 他們意識到, 大量將使用其數(shù)據(jù)的人不會完全理解或理解正常化的重要性。僅僅報告到1800年到年英語語文書籍中出現(xiàn)的每個單詞的原始次數(shù)就會產(chǎn)生巨大的誤導(dǎo), 因為在這一期間, 按年出版的數(shù)字化書籍的總宇宙成倍增長。為了解決這個問題, 作者創(chuàng)建了一個公共訪問視圖, 該視圖只報告規(guī)范化的值, 而無法查看原始計數(shù)。這可確保普通用戶不會被引入歧途。對于擁有處理數(shù)十億行數(shù)據(jù)集的技術(shù)能力的高級用戶來說, 這些數(shù)據(jù)集也可供下載, 前提是任何有技能處理原始數(shù)據(jù)的人都可能擁有了解如何正確規(guī)范化數(shù)據(jù).
簡而言之, Culturomics 的創(chuàng)作者主動設(shè)計了他們的數(shù)據(jù)集的發(fā)布, 以便積極引導(dǎo)用戶遠離無意中的錯誤, 而不僅僅是在 web 服務(wù)器上翻拍一組 CSV 文件, 并交叉手指, 讓人們使用這些文件正確。
正如我在2014年為 wired 撰寫的文章中所說, "要使大數(shù)據(jù)超越營銷炒作, 走向真正的變革性解決方案, 就必須從產(chǎn)生它的計算機科學(xué)實驗室中 ' 成長 ', 花更多的時間去理解它所應(yīng)用的特定領(lǐng)域的算法和數(shù)據(jù), 而不是操作它們的計算算法.
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03