
幾則趣味的統(tǒng)計(jì)小故事,你秒懂了嗎?
很多人在學(xué)習(xí)統(tǒng)計(jì)時(shí)都認(rèn)為統(tǒng)計(jì)由一系列枯燥的數(shù)字、公式和圖表組成,十分繁雜無(wú)味。然而隨著對(duì)這門課的深入理解,不知不覺中會(huì)逐漸體會(huì)到統(tǒng)計(jì)的趣味性。這里,挑選幾則經(jīng)典的統(tǒng)計(jì)趣味小故事與大家分享,希望大家喜歡。
《紅樓夢(mèng)》作者考證
眾所周知,《紅樓夢(mèng)》一書共120回,自從胡適作《紅樓夢(mèng)考證》以來(lái),一般都認(rèn)為前80回為曹雪芹所寫,后40回為高鶚?biāo)m(xù)。然而長(zhǎng)期以來(lái)這種看法一直都飽受爭(zhēng)議。
能否從統(tǒng)計(jì)上做出論證?從1985年開始,復(fù)旦大學(xué)的李賢平教授帶領(lǐng)他的學(xué)生作了這項(xiàng)很有意義的工作,他們創(chuàng)造性的想法是將120回看成是120個(gè)樣本,然后確定與情節(jié)無(wú)關(guān)的虛詞出現(xiàn)的次數(shù)作為變量,巧妙運(yùn)用數(shù)理統(tǒng)計(jì)分析方法,看看哪些回目出自同一人的手筆。
一般認(rèn)為,每個(gè)人使用某些詞的習(xí)慣是特有的。于是李教授用每個(gè)回目中47個(gè)虛詞(之,其,或,……;呀,嗎,咧,罷……;可,便,就……等)出現(xiàn)的次數(shù)(頻率),作為《紅樓夢(mèng)》各個(gè)回目的數(shù)字標(biāo)志。之所以要拋開情節(jié),是因?yàn)樵谝话闱闆r下,同一情節(jié)大家描述的都差不多,但由于個(gè)人寫作特點(diǎn)和習(xí)慣的不同,所用的虛詞是不會(huì)一樣的。利用多元分析中的聚類分析法進(jìn)行聚類,果然將120回分成兩類,即前80回為一類,后40回為一類,很形象地證實(shí)了不是出自同一人的手筆。
之后又進(jìn)一步分析前80回是否為曹雪芹所寫?這時(shí)又找了一本曹雪芹的其它著作,做了類似計(jì)算,結(jié)果證實(shí)了用詞手法完全相同,斷定前80回為曹雪芹一人手筆,是他根據(jù)《石頭記》寫成,中間插入《風(fēng)月寶鑒》,還有一些別的增加成分。而后40回是否為高鶚寫的呢?論證結(jié)果推翻了后40回是高鶚一個(gè)人所寫,而是曹雪芹親友將其草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當(dāng)為另一人所寫等等。
這個(gè)論證在紅學(xué)界轟動(dòng)很大,李教授他們用多元統(tǒng)計(jì)分析方法支持了紅學(xué)界的觀點(diǎn),使紅學(xué)界大為贊嘆。
出租車肇事
某市發(fā)生一起出租車肇事逃逸案件,當(dāng)時(shí)目擊證人僅有一位。據(jù)證人陳述,肇事車為綠色。該市出租車僅有藍(lán)、綠兩種顏色,其中0.5%的出租車為綠色。目前已排除了外市出租車肇事的可能性。
同時(shí),為了驗(yàn)證證人的辨色能力,還專門對(duì)其進(jìn)行了辨色測(cè)試。測(cè)試結(jié)果表明,無(wú)論對(duì)藍(lán)色還是綠色,證人都能以95%的概率判斷正確。即若出租車為藍(lán)色(綠色),證人100次中能有95次準(zhǔn)確地判斷出車為藍(lán)色(綠色)。
現(xiàn)在的問(wèn)題是公安部門是否應(yīng)該完全相信證人的目擊,而把調(diào)查完全放在該市的綠色出租車上?
通過(guò)統(tǒng)計(jì)中貝葉斯公式的計(jì)算,我們會(huì)發(fā)現(xiàn)證人的目擊并不能成為調(diào)查的依據(jù),仍然需要將調(diào)查的重點(diǎn)放在藍(lán)色出租車上。
啤酒與尿布的故事
全球最大的零售商沃爾瑪通過(guò)分析顧客購(gòu)物的數(shù)據(jù)后發(fā)現(xiàn),很多周末購(gòu)買尿布的顧客同時(shí)也購(gòu)買啤酒。
經(jīng)過(guò)深入觀察和研究發(fā)現(xiàn),美國(guó)家庭買尿布的多是爸爸。年輕的父親們下班后要到超市買尿布,同時(shí)“順手牽羊”帶走啤酒,好在周末看棒球賽時(shí)過(guò)把酒癮。
后來(lái)沃爾瑪就把尿布和啤酒擺放得很近,從而雙雙促進(jìn)了尿布和啤酒的銷量。這個(gè)故事被公認(rèn)是數(shù)據(jù)挖掘的經(jīng)典范例。
車間供電問(wèn)題
某車間有200臺(tái)車床,由于檢修、測(cè)量、調(diào)換刀具等種種原因,即使在生產(chǎn)期間,各臺(tái)車床還是時(shí)常需要停工,若每臺(tái)車床有60%的時(shí)間在開動(dòng),而每臺(tái)車床開動(dòng)時(shí)需要耗電1千瓦,那么應(yīng)該供給這個(gè)車間多少電力才能保證此車間正常生產(chǎn)?
顯然,若供給這個(gè)車間200 千瓦的電力則此車間便能正常生產(chǎn)。但這樣做很不劃算,因?yàn)槊颗_(tái)車床的開工率只有60%,也就是說(shuō),平均起來(lái)這個(gè)車間中同時(shí)工作的車床只有120臺(tái),供給200千瓦的電力太多了。那么供給120千瓦的電力呢?這又太少了點(diǎn),因?yàn)橛袝r(shí)同時(shí)工作的車床數(shù)會(huì)超過(guò)120臺(tái),則120千瓦的電能就不夠用,因而導(dǎo)致一些車床無(wú)法工作,那么到底給多少電能才能既保證生產(chǎn)正常又節(jié)約電力呢?
事實(shí)上供給這個(gè)車間141千瓦的電就夠了,雖然在這時(shí)也可能碰到因電力不足導(dǎo)致部分車床無(wú)法運(yùn)轉(zhuǎn)的情況,但是這種機(jī)會(huì)非常小,小于千分之一,也就是說(shuō)在8小時(shí)的工作中只有30秒鐘會(huì)碰到這種情況,這顯然影響不大,但是節(jié)約出來(lái)的59千瓦電能卻可以用于很多別的用途。
這里的計(jì)算涉及到統(tǒng)計(jì)學(xué)中的中心極限定理和正態(tài)分布。
怎么樣,現(xiàn)在你是不是覺得統(tǒng)計(jì)學(xué)還是蠻有意思的呢?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10