
CDA數(shù)據(jù)分析師 出品
編譯:Mika
【導(dǎo)讀】
統(tǒng)計(jì)學(xué)在我們的日常生活中無(wú)處不在,它有助于我們更好地了解世界,并做出更好的決策。
在今天的內(nèi)容里,我們將帶你用十分鐘了解:統(tǒng)計(jì)學(xué)到底是關(guān)于什么的一門(mén)學(xué)問(wèn)。
歡迎來(lái)到這個(gè)充滿(mǎn)未知、謬論和假設(shè)的世界,統(tǒng)計(jì)學(xué)的世界里不僅有博弈、思想實(shí)驗(yàn)還有擲硬幣實(shí)驗(yàn)…
等你看完今天的內(nèi)容,你就知道統(tǒng)計(jì)學(xué)有何用?該如何用?
在日常生活我們常常會(huì)遇到有關(guān)統(tǒng)計(jì)的問(wèn)題時(shí),你知道該如何思考。
統(tǒng)計(jì)學(xué)在日常生活中有很大的用處:
統(tǒng)計(jì)就是理解,并運(yùn)用數(shù)據(jù)。
下面就讓我們開(kāi)始回答“什么是統(tǒng)計(jì)學(xué)”這個(gè)問(wèn)題。
關(guān)于英式下午茶有一段軼事。
在20世紀(jì)20年代的劍橋,一位女士認(rèn)為:牛奶是先加還是后加,這會(huì)影響茶的口感。
當(dāng)時(shí)的天才們立馬開(kāi)始思考,該如何驗(yàn)證她的猜想。
于是,他們將8杯茶的順序打亂。想看看她能否品嘗出每一杯是先加奶,還是先加茶。
但就算她嘗出不同了,那又能說(shuō)明什么呢?
因?yàn)樗饘?duì)和答錯(cuò)的可能性相同。而且即使她確實(shí)品出區(qū)別了,還有可能是她將錯(cuò)就錯(cuò)得到的。
如何判斷她是否是品茶專(zhuān)家呢?運(yùn)氣好和舌頭靈的界限在哪兒?
眾人一籌莫展時(shí),輪到Ronald A. Fisher出場(chǎng)了。
Fisher的一生為統(tǒng)計(jì)學(xué)做出了大量奠基工作。
這些知識(shí)能幫我們?cè)讵q豫時(shí)作出決定,不只是品茶實(shí)驗(yàn)。Fisher創(chuàng)造性地提出實(shí)驗(yàn)設(shè)計(jì)法 ,使統(tǒng)計(jì)學(xué)成為一門(mén)嚴(yán)謹(jǐn)?shù)目茖W(xué)。
盡管Fisher本人沒(méi)有給出茶實(shí)驗(yàn)的結(jié)果。但這個(gè)故事的結(jié)局就是,那位女士正確的區(qū)分出了所有的茶。
現(xiàn)在,我們要引出相關(guān)但不同的兩個(gè)統(tǒng)計(jì)學(xué)概念了。
我們說(shuō)統(tǒng)計(jì)學(xué)的領(lǐng)域就是收集和分析數(shù)據(jù)的實(shí)踐活動(dòng)。我們認(rèn)為統(tǒng)計(jì)學(xué)就是數(shù)據(jù)的總和。
為了回答“什么是統(tǒng)計(jì)學(xué)”,我們應(yīng)該先問(wèn)“統(tǒng)計(jì)學(xué)有什么用”。
假設(shè)你為了期末考試熬夜復(fù)習(xí)。早上醒來(lái),發(fā)現(xiàn)你倒在書(shū)桌上就睡著了,臉上還沾著枕漢堡的殘?jiān)?
你會(huì)想,我為什么要吃這種東西?快餐控制了我的生活嗎?然后你說(shuō)服了自己,我只是圖方便罷了。
但你也很糾結(jié),你在想當(dāng)中深層次的原因。
接著你上網(wǎng)搜“快餐消費(fèi)” ,找到一份相關(guān)的調(diào)查問(wèn)卷。
你做的第一件事可能就是問(wèn)自己感興趣的問(wèn)題。例如,你可能會(huì)問(wèn):
......
這些問(wèn)題都挺不錯(cuò)的。
但我們有一個(gè)更重要的問(wèn)題要問(wèn):統(tǒng)計(jì)學(xué)能解決這些問(wèn)題嗎?
我之前說(shuō)過(guò)統(tǒng)計(jì)學(xué)只是工具,不能所有臟活累活都給它干。
為了回答“為什么有人會(huì)吃快餐”這個(gè)問(wèn)題,你可以讓他做一份問(wèn)卷。但你沒(méi)法保證他們是如實(shí)作答的。
可能是因?yàn)樽约豪鄣貌幌胱鲲?,才沉迷快餐的;或者他們也不知道為什么要吃快餐?
有了調(diào)查的結(jié)果后,你可以得出最可能的結(jié)論是:人們吃快餐只是圖省事,或者人們平均一周吃5次快餐。
但你并沒(méi)有研究人們?yōu)槭裁磿?huì)吃這么多。
你求出的叫“代理變量” ,與所求有關(guān),但并非其自身。
為了回答“為什么周末吃快餐更多”或者“一周兩次也讓我壓力山大” ,我們就不僅要知道吃快餐的人數(shù),這個(gè)問(wèn)卷里有了,而且還要知道是在一周的哪幾天吃的。
而且我們給“壓力”具體化。
借助統(tǒng)計(jì)學(xué),很容易回答 “為什么人們?cè)谥苣┏缘亩唷薄?
但是 “吃快餐是否與壓力大有關(guān)” 卻無(wú)法直接回答。
類(lèi)似這樣有趣的問(wèn)題無(wú)法直接用統(tǒng)計(jì)學(xué)來(lái)解釋。而“吃快餐的人每周工作時(shí)長(zhǎng)是否超過(guò)80小時(shí)” 這種問(wèn)題是可以回答的。
回答上述問(wèn)題的工具可分為兩種:描述統(tǒng)計(jì)與推理統(tǒng)計(jì)。
描述統(tǒng)計(jì)描述了數(shù)據(jù)的基本情況。描述統(tǒng)計(jì)一般是研究數(shù)據(jù)的中段在哪兒。
統(tǒng)計(jì)學(xué)家稱(chēng)之為,集中趨勢(shì)的度量,以及數(shù)據(jù)分布特征的度量。它們根據(jù)大量不直觀的數(shù)據(jù),通過(guò)分析和總結(jié),希望得到有價(jià)值的信息。
假設(shè)你在當(dāng)?shù)氐娜A夫餅生產(chǎn)工廠干了兩年。終于有一天,你研究出了金棕色的,十分美味的華夫餅。
現(xiàn)在,你想漲漲工資。這是你應(yīng)得的,沒(méi)人能做出這么好吃的華夫餅。
但你打算漲多少?
加1000元嗎?
還是5000元呢?
你知道自己有點(diǎn)本事了,但不知道其他華夫餅工人的工資。
你在網(wǎng)上搜索了一番,發(fā)現(xiàn)一家專(zhuān)業(yè)的華夫餅論壇,當(dāng)中有一位叫“華夫探”的用戶(hù)貼出了華夫餅工人的工資表。
瀏覽了一串?dāng)?shù)字后,你知道了別的冷凍華夫餅公司的女工是否比你賺得多。還能看出你比剛來(lái)的新人多賺多少。
但你還是看不出公司里或者行業(yè)中價(jià)格的整體情況。
因?yàn)檫@里有幾千個(gè)華夫餅工人的數(shù)據(jù)。你看見(jiàn)的是一串離散的點(diǎn),而不是圖樣。你還是不知道應(yīng)該向老板開(kāi)價(jià)多少。
這里就用到描述統(tǒng)計(jì)學(xué)了。
可以算出自己公司里工人的平均工資,以及每人相對(duì)于平均工資的分布。
你可以看出CEO的工資與剛進(jìn)公司的新人工資的差距,是大還是???你的工資與它們兩者相比如何。你可以算出行業(yè)中你所在職位的工資平均值,觀察這個(gè)范圍的兩端。
有了這些數(shù)據(jù),你再向老板開(kāi)價(jià)的時(shí)候就有底氣了。
盡管描述統(tǒng)計(jì)學(xué)很有用,但是只能提供基本信息。
推理統(tǒng)計(jì)學(xué)能給出推理結(jié)論,推理統(tǒng)計(jì)學(xué)能對(duì)手中的數(shù)據(jù)進(jìn)行延伸推論。
假設(shè)你有一個(gè)裝滿(mǎn)鹽水太妃糖的糖果桶,有粉色的、白色的、黃色的。
如果你想知道每種顏色有多少塊,你可以慢慢數(shù):一塊、兩塊、三塊...
這會(huì)給你描述統(tǒng)計(jì)學(xué)的數(shù)據(jù),但是誰(shuí)有那閑工夫?;蛘吣阕ヒ淮蟀烟牵蛿?shù)這些就行了。
這就用到推理統(tǒng)計(jì)學(xué)了。
如果桶里的糖混合均勻的話(huà),你一把抓的也足夠多。你可以借助推理統(tǒng)計(jì)的原理,用“樣本”估計(jì)總體。
我們用推理統(tǒng)計(jì)來(lái)完成更復(fù)雜的工作,可以讓我們驗(yàn)證一個(gè)想法或者假設(shè)。
例如,回答“在美國(guó),30歲以下的人吃的快餐更多嗎”這種問(wèn)題。我們不需要讓所有人都來(lái)回答這個(gè)問(wèn)題。
假設(shè)有人說(shuō)他們的最新益腦維他命產(chǎn)品能提升智商,你會(huì)跟風(fēng)搶購(gòu)嗎?
如果他們告訴你:A組的20人吃了一個(gè)月后,平均智商提升了2個(gè)點(diǎn) 。而B(niǎo)組的沒(méi)有吃的20個(gè)人,平均智商只提升了1個(gè)點(diǎn)。
現(xiàn)在呢?開(kāi)始動(dòng)心了吧?
推理統(tǒng)計(jì)讓你可以判斷出,兩個(gè)樣本的智商是否發(fā)生了變化。
當(dāng)然,作為個(gè)體你可以拒絕相信。也不要因?yàn)闃?biāo)桿的不同而大驚小怪。
不同問(wèn)題標(biāo)準(zhǔn)也不同,“為什么我的貓更喜歡某一種貓糧” 或 “這種藥能治好肺癌嗎”。
說(shuō)服你買(mǎi)新款治癌藥,比說(shuō)服你換一種貓糧要難得多。這也是理所當(dāng)然的。
經(jīng)過(guò)推理統(tǒng)計(jì)的測(cè)試仍存在一定程度的不確定性。
畢竟答案要么是“是”或者“否”。
你的工作就是排除不確定因素,獲取有價(jià)值信息。
如果統(tǒng)計(jì)學(xué)是超級(jí)英雄,那么他的絕招就是——拿不準(zhǔn)。而他的口號(hào)就是“我會(huì)犯錯(cuò),但不能不做”。
統(tǒng)計(jì)學(xué)是工具,它幫助我們理解世界中的龐大信息。像眼睛和耳朵能濾除外界無(wú)用的刺激,給我們呈現(xiàn)出最好的世界一樣。
統(tǒng)計(jì)學(xué)為我們抽取世界中有益的數(shù)據(jù),描述統(tǒng)計(jì)學(xué)使我們能讀懂?dāng)?shù)據(jù)。
雖然失去了個(gè)體數(shù)據(jù)信息,推理統(tǒng)計(jì)學(xué)讓我們處理存在不確定性的數(shù)據(jù)。
但它不是萬(wàn)能的,它們是來(lái)幫忙的,不是來(lái)打工的。它們幫我們看清了不確定性,但沒(méi)有排除不確定性。
再拿工具來(lái)比喻,統(tǒng)計(jì)學(xué)就像電鋸,不理解原理的話(huà),不僅無(wú)用還可能有害。我們必須要知道什么能做,什么不能做。
同時(shí)我們還要知道,統(tǒng)計(jì)學(xué)不好會(huì)讓我們吃虧上當(dāng)。
而電鋸用不好會(huì)導(dǎo)致美國(guó)全年的3.6萬(wàn)起傷人事件,其中81%是撕裂傷。你知道其實(shí)沒(méi)什么人死于電鋸嗎?也會(huì)有,但非常少有。95%的傷者是男性,這不能說(shuō)明男人用不好電鋸。
…...
總之,統(tǒng)計(jì)學(xué)有所為,有所不為。我們學(xué)習(xí)統(tǒng)計(jì)學(xué)就要理解這當(dāng)中的差異。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03