
數(shù)據(jù)不會(huì)說(shuō)謊__5大常見(jiàn)統(tǒng)計(jì)偏倚
每項(xiàng)重要的研究背后都離不開(kāi)好的數(shù)據(jù),是它們使分析成為可能。而每項(xiàng)不好的研究背后嘛……這個(gè) 后面會(huì)說(shuō)。人們常說(shuō)“用數(shù)據(jù)說(shuō)謊”,我要說(shuō)往往數(shù)據(jù)分析是沒(méi)問(wèn)題的,但這些分析卻是建立在夸大或不實(shí)的數(shù)據(jù)之上。下面便是幾個(gè)常見(jiàn)的“錯(cuò)進(jìn)錯(cuò)出”案例。
選擇偏倚
《紐約客》資深影評(píng)人寶琳?凱爾(Pauline Kael)據(jù)稱曾經(jīng)在理查德?尼克松(Richard
Nixon)當(dāng)選美國(guó)總統(tǒng)后評(píng)論:“尼克松不可能贏了競(jìng)選,我認(rèn)識(shí)的人里面沒(méi)一個(gè)投了他。”這句話很有可能是杜撰的,但卻很好地說(shuō)明了糟糕的樣本(一群自
由派朋友)會(huì)如何給更大的群體帶來(lái)錯(cuò)誤的偏見(jiàn)(全美國(guó)的投票結(jié)果)。而這也引出了我們應(yīng)該問(wèn)自己的問(wèn)題:如何選擇評(píng)估樣本?如果要接受評(píng)估的群體的每一個(gè)
成員沒(méi)有均等的機(jī)會(huì)入選樣本,那么最終得出的結(jié)論就將會(huì)有偏頗。以愛(ài)荷華州的民意測(cè)驗(yàn)為例,這是美國(guó)總統(tǒng)競(jìng)選中的一項(xiàng)慣例,在總統(tǒng)大選年的8月,也就是正
式投票的前一個(gè)月,共和黨的候選人會(huì)來(lái)到愛(ài)荷華州的埃姆斯市(Ames)籠絡(luò)選民,選民每個(gè)人支付30美元投上一票以參與表決。愛(ài)荷華州的民意測(cè)驗(yàn)結(jié)果并
不能告訴我們共和黨候選人的未來(lái)。(該調(diào)查的預(yù)測(cè)在過(guò)去5次大選中只說(shuō)對(duì)了3次共和黨提名候選人的結(jié)果。)為什么?因?yàn)橹Ц?0美元投票參與這項(xiàng)民意測(cè)驗(yàn)
的愛(ài)荷華州共和黨選民跟愛(ài)荷華州的其他共和黨選民不同,而愛(ài)荷華州的共和黨選民又跟美國(guó)其他地區(qū)的共和黨選民不同。
“尼克松不可能贏了競(jìng)選,我認(rèn)識(shí)的人里面沒(méi)一個(gè)投了他。”
選擇偏倚還有其他很多種形式。在機(jī)場(chǎng)做消費(fèi)者問(wèn)卷調(diào)查很可能造成偏倚,因?yàn)樽w機(jī)的人大體上會(huì)比一般人更富裕;而在
90號(hào)洲際公路上做同樣的調(diào)查問(wèn)卷結(jié)果又會(huì)偏向另一端。而兩項(xiàng)調(diào)查都有可能出現(xiàn)的偏倚則是那些愿意在公共場(chǎng)合接受問(wèn)卷調(diào)查的人不同于那些不愿意被打擾的
人。如果你在公共場(chǎng)合問(wèn)100個(gè)人做一份簡(jiǎn)短的調(diào)查,其中只有60人愿意,那么這60個(gè)人跟剩下40個(gè)看都不看你一眼就走開(kāi)的人在某些地方有著顯著的不
同。
發(fā)表偏倚
正面的結(jié)果比負(fù)面的更有可能得到發(fā)表,而這可能會(huì)混淆我們最終所見(jiàn)到的結(jié)論。假設(shè)你剛剛做完了一次嚴(yán)謹(jǐn)?shù)淖粉櫿{(diào)查,
得出結(jié)論認(rèn)為玩視頻游戲不能預(yù)防結(jié)腸癌。在這項(xiàng)調(diào)查中,你花了20年的時(shí)間跟蹤訪問(wèn)了作為代表性樣本的10萬(wàn)個(gè)美國(guó)人;這些人當(dāng)中,長(zhǎng)時(shí)間玩視頻游戲的跟
不玩兒視頻游戲的罹患結(jié)腸癌的幾率基本一致。我們假設(shè)你的研究方法完美無(wú)缺。但哪家醫(yī)學(xué)期刊會(huì)發(fā)表你的研究結(jié)論呢?
“大多數(shù)活動(dòng)都不能預(yù)防結(jié)腸癌。”
答案是沒(méi)有。原因有二:第一,沒(méi)有有力的科學(xué)理由認(rèn)為玩兒視頻游戲?qū)Y(jié)腸癌有什么影響,因此你研究這個(gè)的意義不明;其次,也是更重要的一點(diǎn),某件事情不能預(yù)防結(jié)腸癌不是什么有趣的發(fā)現(xiàn)。畢竟,大多數(shù)東西都不能預(yù)防結(jié)腸癌。否定的結(jié)論尤其不性感,不論是在醫(yī)療領(lǐng)域還是其他。
而兩相抵消,就對(duì)我們看到的研究(或者說(shuō)看不到的)產(chǎn)生了偏倚。假設(shè)你的研究生同學(xué)經(jīng)過(guò)另一項(xiàng)追蹤調(diào)查得出了不同的
結(jié)論,她發(fā)現(xiàn)玩視頻游戲的人確實(shí)罹患結(jié)腸癌的幾率較小?,F(xiàn)在就有意思多了!醫(yī)學(xué)期刊要的就是這樣的論文,大眾媒體、博客寫(xiě)手,還有視頻游戲的制作商(他們
巴不得在自己產(chǎn)品的包裝上標(biāo)注玩游戲有益身體健康),都在尋找這樣的內(nèi)容。要不了多久,全美國(guó)的虎媽們就會(huì)紛紛奪過(guò)自己孩子手里的書(shū)本,轉(zhuǎn)而逼迫他們玩游
戲來(lái)“保護(hù)”下一代免于癌癥困擾了。
當(dāng)然,統(tǒng)計(jì)學(xué)里反復(fù)強(qiáng)調(diào)的一個(gè)論點(diǎn)是,異乎尋常的事情時(shí)而發(fā)生,這只是概率問(wèn)題。如果你進(jìn)行100次調(diào)查,其中有一
次很可能會(huì)出現(xiàn)純屬無(wú)稽的結(jié)果——就像玩視頻游戲和結(jié)腸癌患病率低之間的數(shù)據(jù)關(guān)聯(lián)。而問(wèn)題在于:99次發(fā)現(xiàn)玩游戲跟患結(jié)腸癌無(wú)關(guān)的研究都得不到發(fā)表,因?yàn)?
它們沒(méi)有意思,而那一次發(fā)現(xiàn)兩者有關(guān)聯(lián)的研究卻被印刷出來(lái),迎來(lái)了眾多關(guān)注。偏倚的源頭并不在于研究本身,但傳達(dá)給公眾的信息卻是偏頗的。而研讀視頻游戲
和癌癥關(guān)聯(lián)的研究者只能發(fā)現(xiàn)一篇論文,而這篇論文表明的卻是玩視頻游戲能預(yù)防癌癥。實(shí)際上,100項(xiàng)研究里有99項(xiàng)都找不出二者之間有任何關(guān)聯(lián)。
回憶偏倚
記憶是件奇妙的東西——盡管不能總算作優(yōu)質(zhì)數(shù)據(jù)的來(lái)源。人類天生就有沖動(dòng)將現(xiàn)狀理解成過(guò)去發(fā)生的事情合乎邏輯的結(jié)
果,也就是因果關(guān)系。問(wèn)題出在當(dāng)我們?cè)噲D去解釋某些當(dāng)前特別好或者特別糟糕的結(jié)果時(shí),記憶就會(huì)變得“系統(tǒng)性的不堪一擊”。例如一項(xiàng)研究飲食和癌癥之間的關(guān)
系的研究。1993年,一名哈佛大學(xué)的研究者構(gòu)建了一組罹患乳腺癌的婦女和沒(méi)有被診斷出癌癥的年齡匹配組女性的數(shù)據(jù)。研究人員分別詢問(wèn)了這兩組女性的早年
飲食習(xí)慣。研究得出了清晰的結(jié)論:患有乳腺癌的婦女在年輕時(shí)有更顯著的可能擁有高脂肪的飲食。
哈,不過(guò),這實(shí)際上不是在研究飲食習(xí)慣對(duì)罹患癌癥幾率有什么影響。這項(xiàng)研究真正調(diào)查的是患上癌癥如何影響了女性對(duì)自
己早年飲食習(xí)慣的記憶。所有參與這項(xiàng)研究的女性都在多年以前,在任何人都沒(méi)有被診斷患有癌癥的時(shí)候,填寫(xiě)了關(guān)于其飲食習(xí)慣的調(diào)查問(wèn)卷。研究的結(jié)果十分驚
人,患有乳腺癌的婦女回想自己過(guò)去飲食攝入的脂肪的含量比她們實(shí)際消耗的要多得多;沒(méi)有患癌癥的女性則沒(méi)有出現(xiàn)這種情況。
《紐約時(shí)報(bào)雜志》在描述這種記憶偏倚的隱秘本質(zhì)時(shí)稱:
罹患乳腺癌不僅改變了一位女性的當(dāng)下和未來(lái);它連她的過(guò)去也
改變了?;加腥橄侔┑呐裕o(wú)意識(shí)地)認(rèn)為高脂飲食可能是她們患病的易感原因,并且(無(wú)意識(shí)地)認(rèn)為自己過(guò)去有高脂的飲食習(xí)慣。對(duì)于任何了解這種恥辱病的
歷史的人而言,這一模式都熟悉得令人悲傷:和她們之前成千上萬(wàn)的女性一樣,這些女性在她們自己的記憶里尋找原因,并將這個(gè)原因放置在記憶里。”
回憶偏倚是也是追蹤研究往往偏向于橫向研究(cross-sectional
studies)的一個(gè)原因。在橫向研究里,數(shù)據(jù)是同時(shí)采集的。在5歲的時(shí)候,參與者會(huì)被問(wèn)及他對(duì)學(xué)校的態(tài)度。然后,再過(guò)13年,我們可以重訪參與者,看
他是否高中輟學(xué)。在橫向研究中,所有的數(shù)據(jù)都在同一時(shí)間點(diǎn)采集,研究者必須詢問(wèn)18歲的高中輟學(xué)生他5歲時(shí)對(duì)學(xué)校有何看法,而這一信息固然便是不怎么可靠
的。
存活者誤差
假設(shè)一名高中校長(zhǎng)報(bào)告說(shuō),學(xué)生中的一組特定人群在4年中(編注:美國(guó)高中有4年)考試成績(jī)穩(wěn)步上升。這批人高二的得
分比他們?cè)诟咭粫r(shí)的成績(jī)好。高三那年的分?jǐn)?shù)更好,高四達(dá)到了最好。我們假定不存在作弊的情況,也沒(méi)有任何創(chuàng)造性地運(yùn)用描述性的統(tǒng)計(jì)數(shù)據(jù)。無(wú)論用什么評(píng)價(jià)標(biāo)
準(zhǔn),這批學(xué)生每一年都比前一年做得更好:平均數(shù)、中位數(shù)、學(xué)生在年級(jí)水平的百分比等等。你會(huì)(A)提名這所學(xué)校的領(lǐng)導(dǎo)為“年度最佳校長(zhǎng)”還是(B)要求提
供更多的數(shù)據(jù)?
“如果你有一屋子高矮不齊的人,強(qiáng)迫最矮的那個(gè)離開(kāi)房間會(huì)使整個(gè)房間的平均身高上升,但這樣做并不會(huì)使任何人的身高變高?!?/i>
我的話就會(huì)選(B)。我嗅到了存活者誤差的貓膩,這種情況下樣本中去掉了一些或很多觀測(cè)數(shù)據(jù),以至于改變了整個(gè)剩下
的觀測(cè)結(jié)果,因而任何基于剩余觀測(cè)數(shù)據(jù)所做的分析也受了影響。假設(shè)我們的校長(zhǎng)真不是個(gè)好人:他學(xué)校里的學(xué)生啥也沒(méi)學(xué)到;每年都有半數(shù)人輟學(xué)。不過(guò),這在數(shù)
學(xué)的考試分?jǐn)?shù)上面看起來(lái)很是漂亮——但沒(méi)有任何一名學(xué)生實(shí)際上考得更好。有理可測(cè),學(xué)得最差的學(xué)生(也是考試分?jǐn)?shù)最低的學(xué)生)最有可能輟學(xué),那么考試分?jǐn)?shù)
的平均分會(huì)隨著更多學(xué)生輟學(xué)而穩(wěn)步上升。(如果你有一屋子高矮不齊的人,強(qiáng)迫最矮的那個(gè)離開(kāi)房間會(huì)使整個(gè)房間的平均身高上升,但這樣做并不會(huì)使任何人的身
高變高。)
健康用戶誤差
每天按時(shí)吃維生素片的人更有可能身體健康——他們是每天都按時(shí)吃維生素的人!而至于維生素是否真的有益健康這又另當(dāng)
別論了。
想想這樣一個(gè)思考實(shí)驗(yàn)。假設(shè)公共衛(wèi)生官員頒布這樣一條聲明,所有的剛生了小孩兒的夫妻都能該把自己的孩子裹在紫色的睡衣里睡覺(jué),因?yàn)檫@有助于刺激大腦的發(fā)
育。20年后,追蹤研究證實(shí),幼年時(shí)期穿紫色睡衣確實(shí)與今后人生中取得成功有一個(gè)特別大的正相關(guān)。比方說(shuō),我們發(fā)現(xiàn),98%考上哈佛大學(xué)的新生孩童時(shí)期都
穿著紫色的睡衣(現(xiàn)在許多人仍然這樣做),相比之下,馬薩諸塞州監(jiān)獄系統(tǒng)里的囚犯只有3%年幼時(shí)穿紫色睡衣。
“紫色睡衣并不重要。”
當(dāng)然,紫色睡衣并不重要,但擁有那種會(huì)讓孩子穿紫色睡衣的父母卻十分重要。就算試圖控制父母教育這樣的因素,研究者
仍然會(huì)面臨那些執(zhí)著于讓孩子穿紫色睡衣和不穿的父母之間不可觀測(cè)的差異。正如《紐約時(shí)報(bào)》健康專欄作家加里?陶布斯(Gary
Taubes)解釋說(shuō),“簡(jiǎn)單地說(shuō),問(wèn)題就是踏踏實(shí)實(shí)做那些對(duì)他們有好處的事情——比如按醫(yī)囑服藥或吃他們認(rèn)為有益健康的食物——的人,跟那些不這樣做的
人有著根本上的不同?!边@種效應(yīng)有可能擾亂任何試圖評(píng)估那些被視為有益健康的活動(dòng)(比如每周運(yùn)動(dòng)或吃羽衣甘藍(lán))真實(shí)效果的研究。研究人員以為他們是在比較
兩種飲食習(xí)慣對(duì)健康的影響:吃羽衣甘藍(lán)和不吃甘藍(lán)。但事實(shí)上,假如治療組和對(duì)照組不是隨機(jī)分配的,那么他們?cè)诒容^兩種不同的人吃兩種不同的飲食,治療組和
對(duì)照組的不同有兩個(gè)方面,而不是僅僅一個(gè)。
如果說(shuō)統(tǒng)計(jì)學(xué)家"數(shù)據(jù)分析師"是偵探,那么數(shù)據(jù)就是線索。我的妻子在新罕布什爾郊區(qū)的高中教了一年書(shū)。她的一個(gè)學(xué)生因?yàn)殛J入一家五
金店盜竊工具而被逮捕歸案,而警察之所以能破案是因?yàn)椋海?)天剛剛下雪,從五金店到學(xué)生的家里的雪上有足跡;(2)在學(xué)生家里找到了被盜的工具。好線索
幫了大忙。
就跟好數(shù)據(jù)一樣。但首先,你得有好的數(shù)據(jù),否則一切都是空。 數(shù)據(jù)分析師
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03