
CDA數(shù)據(jù)分析師 出品
編譯:Mika
【導(dǎo)讀】
統(tǒng)計(jì)學(xué)在我們的日常生活中無處不在,它有助于我們更好地了解世界,并做出更好的決策。
在今天的內(nèi)容里,我們將帶你用十分鐘了解:統(tǒng)計(jì)學(xué)到底是關(guān)于什么的一門學(xué)問。
歡迎來到這個(gè)充滿未知、謬論和假設(shè)的世界,統(tǒng)計(jì)學(xué)的世界里不僅有博弈、思想實(shí)驗(yàn)還有擲硬幣實(shí)驗(yàn)…
等你看完今天的內(nèi)容,你就知道統(tǒng)計(jì)學(xué)有何用?該如何用?
在日常生活我們常常會(huì)遇到有關(guān)統(tǒng)計(jì)的問題時(shí),你知道該如何思考。
統(tǒng)計(jì)學(xué)在日常生活中有很大的用處:
統(tǒng)計(jì)就是理解,并運(yùn)用數(shù)據(jù)。
下面就讓我們開始回答“什么是統(tǒng)計(jì)學(xué)”這個(gè)問題。
關(guān)于英式下午茶有一段軼事。
在20世紀(jì)20年代的劍橋,一位女士認(rèn)為:牛奶是先加還是后加,這會(huì)影響茶的口感。
當(dāng)時(shí)的天才們立馬開始思考,該如何驗(yàn)證她的猜想。
于是,他們將8杯茶的順序打亂。想看看她能否品嘗出每一杯是先加奶,還是先加茶。
但就算她嘗出不同了,那又能說明什么呢?
因?yàn)樗饘?duì)和答錯(cuò)的可能性相同。而且即使她確實(shí)品出區(qū)別了,還有可能是她將錯(cuò)就錯(cuò)得到的。
如何判斷她是否是品茶專家呢?運(yùn)氣好和舌頭靈的界限在哪兒?
眾人一籌莫展時(shí),輪到Ronald A. Fisher出場(chǎng)了。
Fisher的一生為統(tǒng)計(jì)學(xué)做出了大量奠基工作。
這些知識(shí)能幫我們?cè)讵q豫時(shí)作出決定,不只是品茶實(shí)驗(yàn)。Fisher創(chuàng)造性地提出實(shí)驗(yàn)設(shè)計(jì)法 ,使統(tǒng)計(jì)學(xué)成為一門嚴(yán)謹(jǐn)?shù)目茖W(xué)。
盡管Fisher本人沒有給出茶實(shí)驗(yàn)的結(jié)果。但這個(gè)故事的結(jié)局就是,那位女士正確的區(qū)分出了所有的茶。
現(xiàn)在,我們要引出相關(guān)但不同的兩個(gè)統(tǒng)計(jì)學(xué)概念了。
我們說統(tǒng)計(jì)學(xué)的領(lǐng)域就是收集和分析數(shù)據(jù)的實(shí)踐活動(dòng)。我們認(rèn)為統(tǒng)計(jì)學(xué)就是數(shù)據(jù)的總和。
為了回答“什么是統(tǒng)計(jì)學(xué)”,我們應(yīng)該先問“統(tǒng)計(jì)學(xué)有什么用”。
假設(shè)你為了期末考試熬夜復(fù)習(xí)。早上醒來,發(fā)現(xiàn)你倒在書桌上就睡著了,臉上還沾著枕漢堡的殘?jiān)?
你會(huì)想,我為什么要吃這種東西?快餐控制了我的生活嗎?然后你說服了自己,我只是圖方便罷了。
但你也很糾結(jié),你在想當(dāng)中深層次的原因。
接著你上網(wǎng)搜“快餐消費(fèi)” ,找到一份相關(guān)的調(diào)查問卷。
你做的第一件事可能就是問自己感興趣的問題。例如,你可能會(huì)問:
......
這些問題都挺不錯(cuò)的。
但我們有一個(gè)更重要的問題要問:統(tǒng)計(jì)學(xué)能解決這些問題嗎?
我之前說過統(tǒng)計(jì)學(xué)只是工具,不能所有臟活累活都給它干。
為了回答“為什么有人會(huì)吃快餐”這個(gè)問題,你可以讓他做一份問卷。但你沒法保證他們是如實(shí)作答的。
可能是因?yàn)樽约豪鄣貌幌胱鲲?,才沉迷快餐的;或者他們也不知道為什么要吃快餐?
有了調(diào)查的結(jié)果后,你可以得出最可能的結(jié)論是:人們吃快餐只是圖省事,或者人們平均一周吃5次快餐。
但你并沒有研究人們?yōu)槭裁磿?huì)吃這么多。
你求出的叫“代理變量” ,與所求有關(guān),但并非其自身。
為了回答“為什么周末吃快餐更多”或者“一周兩次也讓我壓力山大” ,我們就不僅要知道吃快餐的人數(shù),這個(gè)問卷里有了,而且還要知道是在一周的哪幾天吃的。
而且我們給“壓力”具體化。
借助統(tǒng)計(jì)學(xué),很容易回答 “為什么人們?cè)谥苣┏缘亩唷薄?
但是 “吃快餐是否與壓力大有關(guān)” 卻無法直接回答。
類似這樣有趣的問題無法直接用統(tǒng)計(jì)學(xué)來解釋。而“吃快餐的人每周工作時(shí)長(zhǎng)是否超過80小時(shí)” 這種問題是可以回答的。
回答上述問題的工具可分為兩種:描述統(tǒng)計(jì)與推理統(tǒng)計(jì)。
描述統(tǒng)計(jì)描述了數(shù)據(jù)的基本情況。描述統(tǒng)計(jì)一般是研究數(shù)據(jù)的中段在哪兒。
統(tǒng)計(jì)學(xué)家稱之為,集中趨勢(shì)的度量,以及數(shù)據(jù)分布特征的度量。它們根據(jù)大量不直觀的數(shù)據(jù),通過分析和總結(jié),希望得到有價(jià)值的信息。
假設(shè)你在當(dāng)?shù)氐娜A夫餅生產(chǎn)工廠干了兩年。終于有一天,你研究出了金棕色的,十分美味的華夫餅。
現(xiàn)在,你想漲漲工資。這是你應(yīng)得的,沒人能做出這么好吃的華夫餅。
但你打算漲多少?
加1000元嗎?
還是5000元呢?
你知道自己有點(diǎn)本事了,但不知道其他華夫餅工人的工資。
你在網(wǎng)上搜索了一番,發(fā)現(xiàn)一家專業(yè)的華夫餅論壇,當(dāng)中有一位叫“華夫探”的用戶貼出了華夫餅工人的工資表。
瀏覽了一串?dāng)?shù)字后,你知道了別的冷凍華夫餅公司的女工是否比你賺得多。還能看出你比剛來的新人多賺多少。
但你還是看不出公司里或者行業(yè)中價(jià)格的整體情況。
因?yàn)檫@里有幾千個(gè)華夫餅工人的數(shù)據(jù)。你看見的是一串離散的點(diǎn),而不是圖樣。你還是不知道應(yīng)該向老板開價(jià)多少。
這里就用到描述統(tǒng)計(jì)學(xué)了。
可以算出自己公司里工人的平均工資,以及每人相對(duì)于平均工資的分布。
你可以看出CEO的工資與剛進(jìn)公司的新人工資的差距,是大還是???你的工資與它們兩者相比如何。你可以算出行業(yè)中你所在職位的工資平均值,觀察這個(gè)范圍的兩端。
有了這些數(shù)據(jù),你再向老板開價(jià)的時(shí)候就有底氣了。
盡管描述統(tǒng)計(jì)學(xué)很有用,但是只能提供基本信息。
推理統(tǒng)計(jì)學(xué)能給出推理結(jié)論,推理統(tǒng)計(jì)學(xué)能對(duì)手中的數(shù)據(jù)進(jìn)行延伸推論。
假設(shè)你有一個(gè)裝滿鹽水太妃糖的糖果桶,有粉色的、白色的、黃色的。
如果你想知道每種顏色有多少塊,你可以慢慢數(shù):一塊、兩塊、三塊...
這會(huì)給你描述統(tǒng)計(jì)學(xué)的數(shù)據(jù),但是誰有那閑工夫?;蛘吣阕ヒ淮蟀烟牵蛿?shù)這些就行了。
這就用到推理統(tǒng)計(jì)學(xué)了。
如果桶里的糖混合均勻的話,你一把抓的也足夠多。你可以借助推理統(tǒng)計(jì)的原理,用“樣本”估計(jì)總體。
我們用推理統(tǒng)計(jì)來完成更復(fù)雜的工作,可以讓我們驗(yàn)證一個(gè)想法或者假設(shè)。
例如,回答“在美國(guó),30歲以下的人吃的快餐更多嗎”這種問題。我們不需要讓所有人都來回答這個(gè)問題。
假設(shè)有人說他們的最新益腦維他命產(chǎn)品能提升智商,你會(huì)跟風(fēng)搶購(gòu)嗎?
如果他們告訴你:A組的20人吃了一個(gè)月后,平均智商提升了2個(gè)點(diǎn) 。而B組的沒有吃的20個(gè)人,平均智商只提升了1個(gè)點(diǎn)。
現(xiàn)在呢?開始動(dòng)心了吧?
推理統(tǒng)計(jì)讓你可以判斷出,兩個(gè)樣本的智商是否發(fā)生了變化。
當(dāng)然,作為個(gè)體你可以拒絕相信。也不要因?yàn)闃?biāo)桿的不同而大驚小怪。
不同問題標(biāo)準(zhǔn)也不同,“為什么我的貓更喜歡某一種貓糧” 或 “這種藥能治好肺癌嗎”。
說服你買新款治癌藥,比說服你換一種貓糧要難得多。這也是理所當(dāng)然的。
經(jīng)過推理統(tǒng)計(jì)的測(cè)試仍存在一定程度的不確定性。
畢竟答案要么是“是”或者“否”。
你的工作就是排除不確定因素,獲取有價(jià)值信息。
如果統(tǒng)計(jì)學(xué)是超級(jí)英雄,那么他的絕招就是——拿不準(zhǔn)。而他的口號(hào)就是“我會(huì)犯錯(cuò),但不能不做”。
統(tǒng)計(jì)學(xué)是工具,它幫助我們理解世界中的龐大信息。像眼睛和耳朵能濾除外界無用的刺激,給我們呈現(xiàn)出最好的世界一樣。
統(tǒng)計(jì)學(xué)為我們抽取世界中有益的數(shù)據(jù),描述統(tǒng)計(jì)學(xué)使我們能讀懂?dāng)?shù)據(jù)。
雖然失去了個(gè)體數(shù)據(jù)信息,推理統(tǒng)計(jì)學(xué)讓我們處理存在不確定性的數(shù)據(jù)。
但它不是萬能的,它們是來幫忙的,不是來打工的。它們幫我們看清了不確定性,但沒有排除不確定性。
再拿工具來比喻,統(tǒng)計(jì)學(xué)就像電鋸,不理解原理的話,不僅無用還可能有害。我們必須要知道什么能做,什么不能做。
同時(shí)我們還要知道,統(tǒng)計(jì)學(xué)不好會(huì)讓我們吃虧上當(dāng)。
而電鋸用不好會(huì)導(dǎo)致美國(guó)全年的3.6萬起傷人事件,其中81%是撕裂傷。你知道其實(shí)沒什么人死于電鋸嗎?也會(huì)有,但非常少有。95%的傷者是男性,這不能說明男人用不好電鋸。
…...
總之,統(tǒng)計(jì)學(xué)有所為,有所不為。我們學(xué)習(xí)統(tǒng)計(jì)學(xué)就要理解這當(dāng)中的差異。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10