
大數(shù)據(jù),并非越大越好
大數(shù)據(jù)這兩年一直是熱詞。發(fā)展中的大數(shù)據(jù)確實(shí)帶來了很多有用信息,但也使我們遇到越來越多的難題。其中最大的難題就是如何去偽存真,將那些帶來誤導(dǎo)的噪音去除。
因此,發(fā)展中的大數(shù)據(jù)需要的不僅是專業(yè)的數(shù)據(jù)信息人才,而是需要更多善于和各個(gè)領(lǐng)域的大數(shù)據(jù)打交道的人,這對(duì)統(tǒng)計(jì)學(xué)的人才培養(yǎng)提出了全新的要求。
人人都知道,我們生活中很多事情都與大數(shù)據(jù)發(fā)生著關(guān)聯(lián)。以我在哈佛大學(xué)教的通識(shí)課“生活中的統(tǒng)計(jì):你快樂(或痛苦)的幾率”為例。羅曼史就與大數(shù)據(jù)和統(tǒng)計(jì)學(xué)有密切關(guān)系?,F(xiàn)在有不少號(hào)稱可以幫助大家找到心上人的網(wǎng)站。具體怎么找?通常,網(wǎng)站會(huì)做一些調(diào)查問卷獲得個(gè)人信息。同時(shí)調(diào)查那些相愛的人與他們個(gè)人的興趣愛好、教育背景、家庭情況等有多大的相關(guān)性。根據(jù)這些搜集到的數(shù)據(jù)建立一個(gè)統(tǒng)計(jì)公式,給出一種概率上的預(yù)測(cè)。當(dāng)達(dá)到一定概率時(shí),網(wǎng)站就會(huì)顯示兩個(gè)人匹配。這類統(tǒng)計(jì)公式的可靠性建立在大量的數(shù)據(jù)上,而它的形成需要用到許多統(tǒng)計(jì)的思想和方法,包括設(shè)計(jì)問卷、抽樣調(diào)查、建立模型、分析數(shù)據(jù)等等。
另外,酒和巧克力的口感也與大數(shù)據(jù)處理有關(guān)。因?yàn)檫@兩者中的變量因素特別多,比如天氣、地區(qū)、葡萄品種、采集及釀造的方法等;巧克力的可可產(chǎn)地、天氣、制作方法等。變量越多,不確定性就越多,越需要統(tǒng)計(jì)學(xué)家們的工作。
所謂大數(shù)據(jù),并非越大越美,越大越有價(jià)值?,F(xiàn)在大數(shù)據(jù)研究中,這一點(diǎn)誤導(dǎo)很多人。
比如,在美國(guó)抽取一個(gè)1000人的抽樣調(diào)查。這個(gè)調(diào)查若是同樣在中國(guó)做,要達(dá)到同樣精度,需要抽取多少人?美國(guó)的人口是3.2億人,中國(guó)的人口是美國(guó)的4倍多一點(diǎn)。每次我在大學(xué)講座問到這個(gè)問題,只有10%以下的人說出正確答案--只需抽樣1000人,而絕大多數(shù)人認(rèn)為抽樣數(shù)必須大于4000。
為什么呢?最簡(jiǎn)單的比喻是:喝湯時(shí),要確定湯的咸淡,大多數(shù)人只需要品幾口,并不需要把湯全部喝完。這個(gè)判斷的準(zhǔn)確性取決于什么?這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說的隨機(jī)取樣。無論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫(yī)院驗(yàn)血時(shí),每個(gè)人不論是胖是瘦,小孩還是大人,醫(yī)生都只會(huì)抽一點(diǎn)點(diǎn)就可以做出判斷。這意味著抽樣調(diào)查需要有一定的樣本,但是一旦超過臨界點(diǎn)以后,和母體大小的關(guān)系是完全可以忽略的。也就是說,大數(shù)據(jù)再大,只要科學(xué)抽樣,哪怕只有百分之零點(diǎn)零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對(duì)量,并非數(shù)據(jù)越多結(jié)果越可靠。以現(xiàn)在最熱的個(gè)性化治療為例。如果一個(gè)藥對(duì)95%的人有效,但對(duì)我沒有用,那顯然這個(gè)95%的數(shù)字對(duì)我毫無意義。
一個(gè)真實(shí)的例子是,在20世紀(jì)80年代,英國(guó)有一本雜志登了兩種治療腎結(jié)石的方法。文章摘要宣稱方法A治療腎結(jié)石,成功率是78%;用方案B的話,成功率是83%。在沒有其他信息的情況下,任何人都會(huì)認(rèn)為B方案治療效果更好。但是仔細(xì)閱讀那篇文章,你會(huì)發(fā)現(xiàn)當(dāng)研究人員把病人分成大結(jié)石和小結(jié)石兩組時(shí),方案A比方案B在每組里的成功率都要高。
為什么會(huì)出現(xiàn)這樣似乎令人困惑的所謂“辛普生悖論”?我們應(yīng)該如何運(yùn)用這樣的數(shù)據(jù)去選擇我們個(gè)人的治療方案?這些新的問題會(huì)隨著大數(shù)據(jù)的發(fā)展越來越多地呈現(xiàn)在我們面前。而且這些都是傳統(tǒng)的統(tǒng)計(jì)學(xué)科中不太會(huì)遇到的難題。大數(shù)據(jù)中這類難題越來越多,這對(duì)我們大數(shù)據(jù)研究帶來了越來越多的挑戰(zhàn),當(dāng)然也為我們的人才培養(yǎng)帶來了更多的挑戰(zhàn)。
找到更高效方法,解決社會(huì)問題和科學(xué)問題
大數(shù)據(jù)伴隨著技術(shù)與信息的革命應(yīng)運(yùn)而生,近年來發(fā)展非常迅速。大數(shù)據(jù)發(fā)展過程中出現(xiàn)的種種問題也使得一些新的統(tǒng)計(jì)思想出現(xiàn),對(duì)統(tǒng)計(jì)方法也提出了更高要求。
所謂中國(guó)人有中國(guó)夢(mèng),美國(guó)人有美國(guó)夢(mèng),統(tǒng)計(jì)學(xué)家也有統(tǒng)計(jì)學(xué)家的夢(mèng)。大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)家的夢(mèng)是找到一些有效的可快速實(shí)現(xiàn)的統(tǒng)計(jì)方法來解決社會(huì)問題和科學(xué)挑戰(zhàn)。
大數(shù)據(jù)是信息礦山,有待挖掘與提煉。它是管理決策、商務(wù)投資的基因,也是科學(xué)技術(shù)發(fā)展的基石。
大數(shù)據(jù),顧名思義,就是大而復(fù)雜的數(shù)據(jù)。互聯(lián)網(wǎng)、生命科學(xué)、工程科學(xué)、自然科學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等都是最先實(shí)現(xiàn)大數(shù)據(jù)化的學(xué)科,現(xiàn)在人文、歷史學(xué)也都數(shù)據(jù)化了。大數(shù)據(jù)是刻畫當(dāng)今科學(xué)研究與決策的前沿。
大數(shù)據(jù)有多大?若假設(shè)個(gè)人電腦的硬盤容量是1TB,2003年全世界數(shù)據(jù)大約可裝滿5百萬臺(tái)電腦,現(xiàn)在能裝滿80億臺(tái),到2020年,全世界數(shù)據(jù)預(yù)計(jì)能裝滿400億臺(tái)電腦。這些數(shù)據(jù)之大可想而知了。
大數(shù)據(jù)研究是非常有前途的領(lǐng)域。它首先可以為個(gè)體化服務(wù)提供巨大的便利。科學(xué)家們最先想到的是精準(zhǔn)醫(yī)療,比如,化療對(duì)某些人群有用,對(duì)某些人群卻有害,這就需要我們考慮引入大數(shù)據(jù)進(jìn)行變量的分析??裳芯康淖兞坑泻芏啵热绛h(huán)境因素、個(gè)體基因、以及它們的交互作用等,而且人體本身也有很大差異,所以需要從大數(shù)據(jù)中進(jìn)行分析和推斷。以前醫(yī)生在一千個(gè)病例中看到一個(gè)異常值,但不清楚這是特例還是有科學(xué)價(jià)值的。如今,在一百萬個(gè)病例中見到一千次異常值,我們就會(huì)知道,這些病人需要個(gè)體化治療了。大量的變?cè)蛡€(gè)體的異樣性,是研究大數(shù)據(jù)最本質(zhì)的難點(diǎn)。
大數(shù)據(jù)是經(jīng)濟(jì)的新資源,發(fā)展的新引擎。數(shù)據(jù)越大,也越容易產(chǎn)生新的問題。也越需要新的解決方案。這就需要有效的嶄新的統(tǒng)計(jì)學(xué)習(xí)方法和思想來解決。
大數(shù)據(jù)分析,既可風(fēng)險(xiǎn)預(yù)測(cè),也可尋求因果。比如根據(jù)健康大數(shù)據(jù)預(yù)測(cè)人體最可能患的疾病,預(yù)測(cè)最可能得哪一類癌癥,這就是大數(shù)據(jù)下的風(fēng)險(xiǎn)度量。除了預(yù)測(cè),人類還希望知道各個(gè)因素之間的自變量與因變量的科學(xué)關(guān)系,從而達(dá)到治療與控制的目的,這是大數(shù)據(jù)更高一層的應(yīng)用。
當(dāng)我們利用大數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),最需要解決的是噪音疊加問題。因?yàn)榇髷?shù)據(jù)涉及到幾萬個(gè)、幾百萬個(gè)乃至數(shù)百億個(gè)變量,這就意味著如果每一個(gè)變量都造成一點(diǎn)點(diǎn)誤差,最后的預(yù)測(cè)會(huì)是很多誤差的疊加,亦即失之毫厘,差之千里。
例如我們有3000支股票,要做投資選擇的話,至少要分析兩兩之間的相關(guān)系數(shù),3000支股票的相關(guān)系數(shù)矩陣中有450萬個(gè)參數(shù),如果對(duì)這450萬個(gè)參數(shù)進(jìn)行估計(jì),就會(huì)導(dǎo)致最后的估計(jì)誤差很大。因此,對(duì)大數(shù)據(jù)的處理最關(guān)鍵的是合理地處理這些變量,將投資風(fēng)險(xiǎn)減少到10%左右。只有在這樣低的風(fēng)險(xiǎn)下,投資才能轉(zhuǎn)化成回報(bào)。這就是我們通常說的量化投資,量化投資首先是利用市場(chǎng)存在局部的無效性,從中得到套利。例如百度的大數(shù)據(jù)金融聲稱他們利用股票搜索的關(guān)注度和傳統(tǒng)金融理論進(jìn)行股票投資,可以做得比大市要好得多。如果真是這樣的情況,那么最重要的理由就是——大數(shù)據(jù)金融的量化投資,從關(guān)注度中找到新的風(fēng)險(xiǎn)因子。
中國(guó)乃至全世界的市場(chǎng)都證明,量化投資仍然有很多套利可尋。中國(guó)市場(chǎng)尤其如此——因?yàn)槊绹?guó)市場(chǎng)通過統(tǒng)計(jì)來量化投資套利的人數(shù)比較多,因此獲利空間會(huì)相對(duì)少,而中國(guó)這樣的人相對(duì)少一些,所以獲利的機(jī)會(huì)就多。當(dāng)然,大數(shù)據(jù)金融對(duì)實(shí)體經(jīng)濟(jì)有更直接的影響,那就是個(gè)人對(duì)個(gè)人(PtoP)的融資。人們利用大數(shù)據(jù)來對(duì)貸款人償還能力進(jìn)行評(píng)估,從而得到合理的風(fēng)險(xiǎn)回報(bào)。
用大數(shù)據(jù)分析來預(yù)測(cè),是通過電腦和統(tǒng)計(jì)模型來解決,這包括機(jī)器學(xué)習(xí)領(lǐng)域最潮的“深度學(xué)習(xí)”。如果要預(yù)測(cè)股票指數(shù),預(yù)測(cè)宏觀經(jīng)濟(jì)的指標(biāo),通過機(jī)器的“深度學(xué)習(xí)”,結(jié)合統(tǒng)計(jì)建模的新方法,可以達(dá)到良好的效果。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03