
統(tǒng)計(jì)學(xué)的七大支柱_數(shù)據(jù)分析師培訓(xùn)
JSM上統(tǒng)計(jì)界的老幫主Stephen Stigler做了一個(gè)主題演講,講“統(tǒng)計(jì)學(xué)的七大支柱”,好心又認(rèn)真的Rick Wicklin同學(xué)記了筆記,彼時(shí)估計(jì)還在中國城吃飯的我才得以了解SS大人到底講了什么。回頭看看筆記,我覺得SS大人有點(diǎn)吹噓統(tǒng)計(jì)學(xué)之嫌。所謂支柱,就是沒了它咱就垮了。七大支柱為:
匯總:我們從數(shù)據(jù)匯總中獲得知識(shí)。本小子認(rèn)為匯總是統(tǒng)計(jì)的經(jīng)典用途,但匯總(描述統(tǒng)計(jì))只是統(tǒng)計(jì)學(xué)的一方面,另一個(gè)同樣重要也相對更靠譜一些的方面是預(yù)測。我從來都是揚(yáng)預(yù)測而抑匯總的,因?yàn)榻y(tǒng)計(jì)學(xué)生來就帶有不靠譜的本性,匯總搞錯(cuò)了無從查證,預(yù)測錯(cuò)了一定程度上我們還是知道錯(cuò)了多遠(yuǎn)的。
邊際效應(yīng)遞減:隨著數(shù)據(jù)量增大,信息量并不是線性增加,而是到了一定程度之后可能就沒太多新的信息了。SS大人用n(樣本量)的平方根來形容這個(gè)遞減,我覺得太牽強(qiáng)了,例如樣本均值的標(biāo)準(zhǔn)誤里有個(gè)n的平方根,但這跟信息有毛線關(guān)系呢?
似然/概率:概率論當(dāng)然是統(tǒng)計(jì)學(xué)的支柱,當(dāng)然也要取決于我們怎么定義統(tǒng)計(jì)學(xué),但說概率是數(shù)理統(tǒng)計(jì)的基礎(chǔ)肯定不會(huì)有人不同意。有人說統(tǒng)計(jì)是“研究不確定性的科學(xué)”,我現(xiàn)在最煩的就是“科學(xué)”二字,人人都把自己的工作升級(jí)為科學(xué),尼瑪什么是科學(xué)?我認(rèn)為數(shù)學(xué)/數(shù)理統(tǒng)計(jì)可以是學(xué)科,但不是科學(xué)。要稱自己的做的是科學(xué),先問問那些養(yǎng)兔子和大腸桿菌的苦逼博士們再想想自己做的算不算科學(xué)。說自己研究的是一門學(xué)科又沒什么丟人的,這年頭神馬“數(shù)據(jù)科學(xué)”,以及孟生旺老師諷刺的“數(shù)學(xué)科學(xué)學(xué)院”(一個(gè)名字里三個(gè)重復(fù)的字,直接叫“數(shù)學(xué)系”丟人嗎?),都是一些沒有底氣的人才想出來的名詞。我敬佩老老實(shí)實(shí)做實(shí)驗(yàn)的自然科學(xué)工作者,不是說用紙筆推公式的工作者做的是無意義的事情或者不苦逼,而是說沒事不要在這些稱謂上較勁,安分守己一點(diǎn)比較好。
橫向比較:例如比較兩樣本均值的差異。SS大人講別的學(xué)科是與“金標(biāo)準(zhǔn)”進(jìn)行比較,而我們是在數(shù)據(jù)內(nèi)部比較,如方差分析ANOVA和t檢驗(yàn)。我沒太明白這算什么支柱,而且統(tǒng)計(jì)里面也不是沒有和“金標(biāo)準(zhǔn)”比較的情形啊。
回歸和多元分析:身高的回歸是經(jīng)典例子了,這確實(shí)是一個(gè)有趣的發(fā)現(xiàn),但現(xiàn)實(shí)中回歸被用來做什么了呢?我感覺回歸的主要作用是被鋪天蓋地的論文拿來當(dāng)炮灰(你看,俺的方法比回歸好),或者在外專業(yè)里面當(dāng)萬精油(你看,俺跑了個(gè)回歸,系數(shù)顯著耶)。與其說某種方法是支柱,不如說方法和領(lǐng)域知識(shí)的結(jié)合是支柱。沒有具體的領(lǐng)域知識(shí),跑個(gè)系數(shù)顯著的回歸只是盲人摸象。
試驗(yàn)設(shè)計(jì):這個(gè)當(dāng)然也很重要,我覺得這是七大支柱里唯一可以稱為支柱的一個(gè),因?yàn)樗梢悦撾x領(lǐng)域知識(shí)而有效。沒有比較就沒有鑒別,大家都知道要比較,但怎么比是個(gè)關(guān)鍵問題。例如前些日子火爆的漢字聽寫大賽就違反了“隨機(jī)”、“重復(fù)”、“對照”等試驗(yàn)設(shè)計(jì)基本原則,在缺乏概率指導(dǎo)下的競賽,難免有些不公平。
模型和殘差:這個(gè)有點(diǎn)局限于回歸套路了,不是所有模型都涉及殘差項(xiàng)的。若不檢查殘差的分布,統(tǒng)計(jì)學(xué)會(huì)不會(huì)垮掉?我認(rèn)為未必。即使殘差仍然有明顯的特征,模型也未必完全不合適,這要看你想要獲取模型中哪部分的信息。文章來源:CDA數(shù)據(jù)分析師官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03