
大數(shù)據(jù)下的統(tǒng)計學(xué):問題優(yōu)先而非解法優(yōu)先
在大數(shù)據(jù)時代,統(tǒng)計學(xué)應(yīng)當(dāng)如何發(fā)揮它的優(yōu)勢?很多統(tǒng)計學(xué)家都在探討這個問題,包括Steve M. 和Larry W. 也在他們的博客探討了有關(guān)的內(nèi)容。而筆者的科研方向主要是研究基因組學(xué),也通常被列為統(tǒng)計學(xué)和統(tǒng)計學(xué)家發(fā)揮巨大作用的“大數(shù)據(jù)”的領(lǐng)域之一,所以對這個問題也思考了一段時間。
一個自然而然的問題就是:“為什么在基因?qū)W研究中,統(tǒng)計學(xué)家可以取得如此大的成功?”筆者這里想借用Brian C.的一句話來解釋:Problem first, not solution backward (問題優(yōu)先而非解法優(yōu)先)
在當(dāng)下,“大數(shù)據(jù)”這個詞的廣泛應(yīng)用得益于數(shù)據(jù)的獲取變得越來越便宜。一個例子就是DNA序列掃描的價格。在其他領(lǐng)域中也是一樣,例如人體運動的數(shù)據(jù)記錄,F(xiàn)itbits,Google books,Twitter上的社交網(wǎng)絡(luò)數(shù)據(jù)等等。這些數(shù)據(jù)的獲取或許在十年前有著令人生畏的價格,但現(xiàn)在卻絕非難事。
作為一名統(tǒng)計學(xué)家,我們希望從這些非常不同的領(lǐng)域中尋找大數(shù)據(jù)普適的原則:
1.這些數(shù)據(jù)都無法在一個簡單的筆記本電腦上進(jìn)行分析(不論從幾千兆到兆兆字節(jié))。
2.這些數(shù)據(jù)形式復(fù)雜,結(jié)構(gòu)龐雜,如有非結(jié)構(gòu)化的文字信息,有缺失很多數(shù)據(jù)的json文件,含有質(zhì)量指標(biāo)的fastq文件等等等等。
那么為什么在基因研究中,統(tǒng)計學(xué)家能取得如此大的成功呢?在筆者看來,很多原因就是干這一行的統(tǒng)計學(xué)家愿意花上很長的時間,去處理那些很細(xì)節(jié)的數(shù)據(jù)問題。比如,在大數(shù)據(jù)上運行哪怕是最為簡單的統(tǒng)計模型,也要花上數(shù)個小時的時間,抑或處理一個得到的基因序列并對它們進(jìn)行必要的修復(fù)也同樣是非常耗時耗力。正因為愿意去花時間理解并處理這些很實際的、很細(xì)節(jié)的問題,統(tǒng)計學(xué)家才能得到那些別人無法得到的數(shù)據(jù),才使得統(tǒng)計學(xué)家在基因?qū)W科上取得了今天的成就。
這些事情并不輕松,也并不“高雅”。很多統(tǒng)計學(xué)家也不稱之為“統(tǒng)計”。Steve在他的博客中提到:“坦誠地說,我對于現(xiàn)在的統(tǒng)計學(xué)很少能提出有價值的新觀點表示失望。”我想,他的觀點是有很多統(tǒng)計學(xué)家贊同的。大意是說由于在大數(shù)據(jù)上面目前沒有什么好的理論提出,所以在大數(shù)據(jù)方面也就沒什么值得稱為上乘的“新觀點”。他們的這種觀點就是solution backward (解法優(yōu)先):我們需要漂亮的理論,然后把它應(yīng)用到具體問題。
與之不同,我們提出的方式,就是problemforward (問題優(yōu)先)。正因為當(dāng)下得到數(shù)據(jù)變得越來越便宜,我們也就可以分析和學(xué)習(xí)很多以前無法完成的課題。計算機(jī)科學(xué),物理學(xué),生物基因以及其他一些領(lǐng)域在大數(shù)據(jù)上面一直保持領(lǐng)先正因為他們的研究者在數(shù)據(jù)分析上并不一定需要一個統(tǒng)計上“完美”的解答。他們更關(guān)注有科學(xué)意義的問題并愿意花時間,精力去處理那些繁瑣的“大數(shù)據(jù)”來進(jìn)行分析,從而達(dá)到目的。因此,他們能獲得別人從未研究過的數(shù)據(jù)并從中提煉有價值的部分。
在基因?qū)W科中就有著很好的例子。DNA晶片的發(fā)明,對這個領(lǐng)域產(chǎn)生了革命性的影響。而后統(tǒng)計學(xué)家進(jìn)入這個領(lǐng)域。他們和其他科研人員一起為了同樣的科學(xué)問題,在實際數(shù)據(jù)上投入了大量的時間,精力來完成數(shù)據(jù)處理,或者開發(fā)能夠處理數(shù)據(jù)的軟件。在筆者看來,想要在大數(shù)據(jù)時代真正做出成果,首先要專注于那些有意義的科學(xué)問題,然后才是提出能解決科學(xué)問題的統(tǒng)計方法。這就需要我們重新去思考統(tǒng)計學(xué)。那些比如并行計算,數(shù)據(jù)再加工,數(shù)據(jù)可復(fù)制性,軟件開發(fā)等等問題,其實和純統(tǒng)計理論方法同樣的重要。
當(dāng)然,在大數(shù)據(jù)時代,統(tǒng)計學(xué)有著廣泛的發(fā)揮空間,用我們獨特的技能去處理這些新問題中的不確定性,但是這一切的前提都是我們要首先愿意去為了科學(xué)目標(biāo)來處理那些關(guān)于數(shù)據(jù)方面繁瑣的工作。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03