
大數(shù)據(jù),并非越大越好
大數(shù)據(jù)這兩年一直是熱詞。發(fā)展中的大數(shù)據(jù)確實帶來了很多有用信息,但也使我們遇到越來越多的難題。其中最大的難題就是如何去偽存真,將那些帶來誤導(dǎo)的噪音去除。
因此,發(fā)展中的大數(shù)據(jù)需要的不僅是專業(yè)的數(shù)據(jù)信息人才,而是需要更多善于和各個領(lǐng)域的大數(shù)據(jù)打交道的人,這對統(tǒng)計學(xué)的人才培養(yǎng)提出了全新的要求。
人人都知道,我們生活中很多事情都與大數(shù)據(jù)發(fā)生著關(guān)聯(lián)。以我在哈佛大學(xué)教的通識課“生活中的統(tǒng)計:你快樂(或痛苦)的幾率”為例。羅曼史就與大數(shù)據(jù)和統(tǒng)計學(xué)有密切關(guān)系?,F(xiàn)在有不少號稱可以幫助大家找到心上人的網(wǎng)站。具體怎么找?通常,網(wǎng)站會做一些調(diào)查問卷獲得個人信息。同時調(diào)查那些相愛的人與他們個人的興趣愛好、教育背景、家庭情況等有多大的相關(guān)性。根據(jù)這些搜集到的數(shù)據(jù)建立一個統(tǒng)計公式,給出一種概率上的預(yù)測。當(dāng)達(dá)到一定概率時,網(wǎng)站就會顯示兩個人匹配。這類統(tǒng)計公式的可靠性建立在大量的數(shù)據(jù)上,而它的形成需要用到許多統(tǒng)計的思想和方法,包括設(shè)計問卷、抽樣調(diào)查、建立模型、分析數(shù)據(jù)等等。
另外,酒和巧克力的口感也與大數(shù)據(jù)處理有關(guān)。因為這兩者中的變量因素特別多,比如天氣、地區(qū)、葡萄品種、采集及釀造的方法等;巧克力的可可產(chǎn)地、天氣、制作方法等。變量越多,不確定性就越多,越需要統(tǒng)計學(xué)家們的工作。
所謂大數(shù)據(jù),并非越大越美,越大越有價值?,F(xiàn)在大數(shù)據(jù)研究中,這一點誤導(dǎo)很多人。
比如,在美國抽取一個1000人的抽樣調(diào)查。這個調(diào)查若是同樣在中國做,要達(dá)到同樣精度,需要抽取多少人?美國的人口是3.2億人,中國的人口是美國的4倍多一點。每次我在大學(xué)講座問到這個問題,只有10%以下的人說出正確答案--只需抽樣1000人,而絕大多數(shù)人認(rèn)為抽樣數(shù)必須大于4000。
為什么呢?最簡單的比喻是:喝湯時,要確定湯的咸淡,大多數(shù)人只需要品幾口,并不需要把湯全部喝完。這個判斷的準(zhǔn)確性取決于什么?這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說的隨機(jī)取樣。無論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫(yī)院驗血時,每個人不論是胖是瘦,小孩還是大人,醫(yī)生都只會抽一點點就可以做出判斷。這意味著抽樣調(diào)查需要有一定的樣本,但是一旦超過臨界點以后,和母體大小的關(guān)系是完全可以忽略的。也就是說,大數(shù)據(jù)再大,只要科學(xué)抽樣,哪怕只有百分之零點零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對量,并非數(shù)據(jù)越多結(jié)果越可靠。以現(xiàn)在最熱的個性化治療為例。如果一個藥對95%的人有效,但對我沒有用,那顯然這個95%的數(shù)字對我毫無意義。
一個真實的例子是,在20世紀(jì)80年代,英國有一本雜志登了兩種治療腎結(jié)石的方法。文章摘要宣稱方法A治療腎結(jié)石,成功率是78%;用方案B的話,成功率是83%。在沒有其他信息的情況下,任何人都會認(rèn)為B方案治療效果更好。但是仔細(xì)閱讀那篇文章,你會發(fā)現(xiàn)當(dāng)研究人員把病人分成大結(jié)石和小結(jié)石兩組時,方案A比方案B在每組里的成功率都要高。
為什么會出現(xiàn)這樣似乎令人困惑的所謂“辛普生悖論”?我們應(yīng)該如何運用這樣的數(shù)據(jù)去選擇我們個人的治療方案?這些新的問題會隨著大數(shù)據(jù)的發(fā)展越來越多地呈現(xiàn)在我們面前。而且這些都是傳統(tǒng)的統(tǒng)計學(xué)科中不太會遇到的難題。大數(shù)據(jù)中這類難題越來越多,這對我們大數(shù)據(jù)研究帶來了越來越多的挑戰(zhàn),當(dāng)然也為我們的人才培養(yǎng)帶來了更多的挑戰(zhàn)。
找到更高效方法,解決社會問題和科學(xué)問題
大數(shù)據(jù)伴隨著技術(shù)與信息的革命應(yīng)運而生,近年來發(fā)展非常迅速。大數(shù)據(jù)發(fā)展過程中出現(xiàn)的種種問題也使得一些新的統(tǒng)計思想出現(xiàn),對統(tǒng)計方法也提出了更高要求。
所謂中國人有中國夢,美國人有美國夢,統(tǒng)計學(xué)家也有統(tǒng)計學(xué)家的夢。大數(shù)據(jù)時代,統(tǒng)計學(xué)家的夢是找到一些有效的可快速實現(xiàn)的統(tǒng)計方法來解決社會問題和科學(xué)挑戰(zhàn)。
大數(shù)據(jù)是信息礦山,有待挖掘與提煉。它是管理決策、商務(wù)投資的基因,也是科學(xué)技術(shù)發(fā)展的基石。
大數(shù)據(jù),顧名思義,就是大而復(fù)雜的數(shù)據(jù)。互聯(lián)網(wǎng)、生命科學(xué)、工程科學(xué)、自然科學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等都是最先實現(xiàn)大數(shù)據(jù)化的學(xué)科,現(xiàn)在人文、歷史學(xué)也都數(shù)據(jù)化了。大數(shù)據(jù)是刻畫當(dāng)今科學(xué)研究與決策的前沿。
大數(shù)據(jù)有多大?若假設(shè)個人電腦的硬盤容量是1TB,2003年全世界數(shù)據(jù)大約可裝滿5百萬臺電腦,現(xiàn)在能裝滿80億臺,到2020年,全世界數(shù)據(jù)預(yù)計能裝滿400億臺電腦。這些數(shù)據(jù)之大可想而知了。
大數(shù)據(jù)研究是非常有前途的領(lǐng)域。它首先可以為個體化服務(wù)提供巨大的便利。科學(xué)家們最先想到的是精準(zhǔn)醫(yī)療,比如,化療對某些人群有用,對某些人群卻有害,這就需要我們考慮引入大數(shù)據(jù)進(jìn)行變量的分析??裳芯康淖兞坑泻芏?,比如環(huán)境因素、個體基因、以及它們的交互作用等,而且人體本身也有很大差異,所以需要從大數(shù)據(jù)中進(jìn)行分析和推斷。以前醫(yī)生在一千個病例中看到一個異常值,但不清楚這是特例還是有科學(xué)價值的。如今,在一百萬個病例中見到一千次異常值,我們就會知道,這些病人需要個體化治療了。大量的變元和個體的異樣性,是研究大數(shù)據(jù)最本質(zhì)的難點。
大數(shù)據(jù)是經(jīng)濟(jì)的新資源,發(fā)展的新引擎。數(shù)據(jù)越大,也越容易產(chǎn)生新的問題。也越需要新的解決方案。這就需要有效的嶄新的統(tǒng)計學(xué)習(xí)方法和思想來解決。
大數(shù)據(jù)分析,既可風(fēng)險預(yù)測,也可尋求因果。比如根據(jù)健康大數(shù)據(jù)預(yù)測人體最可能患的疾病,預(yù)測最可能得哪一類癌癥,這就是大數(shù)據(jù)下的風(fēng)險度量。除了預(yù)測,人類還希望知道各個因素之間的自變量與因變量的科學(xué)關(guān)系,從而達(dá)到治療與控制的目的,這是大數(shù)據(jù)更高一層的應(yīng)用。
當(dāng)我們利用大數(shù)據(jù)進(jìn)行預(yù)測時,最需要解決的是噪音疊加問題。因為大數(shù)據(jù)涉及到幾萬個、幾百萬個乃至數(shù)百億個變量,這就意味著如果每一個變量都造成一點點誤差,最后的預(yù)測會是很多誤差的疊加,亦即失之毫厘,差之千里。
例如我們有3000支股票,要做投資選擇的話,至少要分析兩兩之間的相關(guān)系數(shù),3000支股票的相關(guān)系數(shù)矩陣中有450萬個參數(shù),如果對這450萬個參數(shù)進(jìn)行估計,就會導(dǎo)致最后的估計誤差很大。因此,對大數(shù)據(jù)的處理最關(guān)鍵的是合理地處理這些變量,將投資風(fēng)險減少到10%左右。只有在這樣低的風(fēng)險下,投資才能轉(zhuǎn)化成回報。這就是我們通常說的量化投資,量化投資首先是利用市場存在局部的無效性,從中得到套利。例如百度的大數(shù)據(jù)金融聲稱他們利用股票搜索的關(guān)注度和傳統(tǒng)金融理論進(jìn)行股票投資,可以做得比大市要好得多。如果真是這樣的情況,那么最重要的理由就是——大數(shù)據(jù)金融的量化投資,從關(guān)注度中找到新的風(fēng)險因子。
中國乃至全世界的市場都證明,量化投資仍然有很多套利可尋。中國市場尤其如此——因為美國市場通過統(tǒng)計來量化投資套利的人數(shù)比較多,因此獲利空間會相對少,而中國這樣的人相對少一些,所以獲利的機(jī)會就多。當(dāng)然,大數(shù)據(jù)金融對實體經(jīng)濟(jì)有更直接的影響,那就是個人對個人(PtoP)的融資。人們利用大數(shù)據(jù)來對貸款人償還能力進(jìn)行評估,從而得到合理的風(fēng)險回報。
用大數(shù)據(jù)分析來預(yù)測,是通過電腦和統(tǒng)計模型來解決,這包括機(jī)器學(xué)習(xí)領(lǐng)域最潮的“深度學(xué)習(xí)”。如果要預(yù)測股票指數(shù),預(yù)測宏觀經(jīng)濟(jì)的指標(biāo),通過機(jī)器的“深度學(xué)習(xí)”,結(jié)合統(tǒng)計建模的新方法,可以達(dá)到良好的效果。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10