
數(shù)據(jù)分析中6個常規(guī)的錯誤
1. 錯把關(guān)聯(lián)當(dāng)因果
夏天雪糕銷量越好,游泳溺水的事件也越多,是不是雪糕中某種成分對人影響的后果呢?簡單的思考后就會發(fā)現(xiàn),是因?yàn)闅鉁卦礁?,雪糕銷量會越高,同時溫度越高,去河里游泳的孩子就越多,溺水事件也就越多,雪糕銷量和溺水是關(guān)聯(lián)關(guān)系,而并非因果關(guān)系。
上面的例子很簡單,也很容易被識破,但在實(shí)際的數(shù)據(jù)分析中,關(guān)聯(lián)和因果并不是那么容易區(qū)分。再舉一例:
某廣告公司分析人員發(fā)現(xiàn):每月廣告投入越高的用戶,越不容易流失,而廣告投入低的用戶群則很容易流失,從而得出結(jié)論:“高投入會降低客戶流失率,建議銷售引導(dǎo)客戶提高首月廣告投入,從而降低新客流失率”。而實(shí)際情況是,新客戶初期的投入常常都比較少,看廣告有了效果之后,才會逐步擴(kuò)大廣告投放預(yù)算,投入高的客戶流失率低是因?yàn)檎J(rèn)可廣告投放效果,而不是因?yàn)榛ǖ腻X多。
關(guān)聯(lián)性很容易判斷,如何判斷是否是因果關(guān)系呢?因果符合下面的特征:
1.兩個事件是關(guān)聯(lián)的,就是說總是同時出現(xiàn)
2.原因在前,結(jié)果在后
3.原因消除的話,結(jié)果也消除
因果關(guān)系需要設(shè)計(jì)相對嚴(yán)謹(jǐn)?shù)膶φ諄碜C明,更多的時候需要靠經(jīng)驗(yàn)來判斷,這時候更注意要謹(jǐn)慎下結(jié)論。
2. 不匹配的比較
例:美國與西班牙戰(zhàn)爭爆發(fā)后,不少美國人不愿意參軍,坦誠是因?yàn)榕滤?,針對這種情況,美國軍方做了一份統(tǒng)計(jì)報(bào)告來勸說大家參軍:“可靠數(shù)據(jù)統(tǒng)計(jì),美國海軍的死亡率是 0.9%,而同期紐約市民的死亡率是 1.6%”,潛臺詞非常明顯,如果懼怕死亡更應(yīng)該參軍,因?yàn)樵谲姞I中比呆在紐約更安全。
這個例子乍看起來很有道理,如果你仔細(xì)琢磨,就會發(fā)現(xiàn)其中的陰謀:比較的對象不一樣!如果仔細(xì)查閱,就會發(fā)現(xiàn),美國海軍死亡名單基本都是健康的青年小伙,而紐約市民的死亡名單大多是老弱病殘,這兩份數(shù)據(jù)放在一起顯然不合適。
在做數(shù)據(jù)比較的時候,需要選取合適的比較對象,以便更準(zhǔn)確地認(rèn)知和發(fā)現(xiàn)結(jié)論,在數(shù)據(jù)分析中,一般選取的比較對象有以下幾類:
自身歷史
與歷史同期相比,比如去年同期或上個季度。
同行競品
合理預(yù)期
與之前產(chǎn)品發(fā)展的預(yù)期相比,比如:A 產(chǎn)品的研發(fā),比預(yù)期收入提高 10%
同質(zhì)對照組
A/B Test 結(jié)果的對比
3. 基于個案的認(rèn)知
每當(dāng)勸說朋友戒煙時,朋友總會拿出這個段子:
不抽煙不喝酒,63歲--林彪
不抽煙只喝酒,73歲--周恩來
只抽煙不喝酒,83歲--毛澤東
既抽煙又喝酒,93歲--鄧小平
吃喝嫖賭樣樣有,103歲--張學(xué)良
沒有任何壞習(xí)慣,一生做好事--23歲,雷鋒
無論抽不抽煙,一個人都可能在各個年齡下死亡,從宏觀的統(tǒng)計(jì)上分析,抽煙的人的壽命平均比不抽煙的人小 5 歲,而上面舉出的個例,則無法說明問題
4. 精挑細(xì)選的數(shù)據(jù)維度
例:一所藝術(shù)院校,男生校服只有褲子款式,而女生有褲子和裙子兩種款式,經(jīng)統(tǒng)計(jì)得知 75% 的女生選擇裙子,25% 的女生選擇褲子,今天你進(jìn)入校園,遠(yuǎn)遠(yuǎn)看到一個穿褲子的同學(xué),他是男生的概率更高,還是女生的概率更高?
憑感覺得到的答案是男生概率高,因?yàn)樗械哪猩即┭澴涌钍剑挥?25% 的女生選擇褲子款式。這個例子中忽略了一個重要的數(shù)據(jù):男生和女生的人數(shù)。
如果告訴你,該學(xué)校共 1000 人, 900 人是女生,100 人是男生,結(jié)果是什么?
女生選褲子的有 900*25% = 225 人
男生選褲子的有 100 人
很顯然,這種情況下,這個人是女性的概率更高。在普通人看來,往往會有男女各占一半的經(jīng)驗(yàn)誤解。所以,在一些情況下,隱藏了部分?jǐn)?shù)據(jù)就是說謊。
5. 過多腦補(bǔ)的推理
在一個冬日的晚上,產(chǎn)品流量出現(xiàn)下跌,經(jīng)過一番分析,得出原因:天氣太冷,網(wǎng)民因?yàn)槭掷涠辉敢馍暇W(wǎng),提前上床睡覺,所以流量下跌。
在一個冬日的晚上,產(chǎn)品流量出現(xiàn)上漲,經(jīng)過一番分析,得出原因:天氣太冷,網(wǎng)民愿意出門,只好在家窩著上網(wǎng),所以流量上漲。
該案例背后的信息是:一個結(jié)果可能有多個原因可以解釋,“大忽悠”往往引導(dǎo)人們只去相信其中的一個,整個推理過程沒有對應(yīng)的細(xì)節(jié)數(shù)據(jù)輔助。
6. 先入為主的偏見
先別往下看,這幅圖的內(nèi)容是什么?
你可能覺得這幅圖太過模糊和抽象,一時也看不出是什么,如果告訴你說,這是一只斑點(diǎn)狗,很多人就會恍然大悟,覺得確實(shí)是一只斑點(diǎn)狗。這里隱藏了一個重要的心理學(xué)理念:
你腦子里想的是什么,你就會去尋找什么,你將會得到你期盼的結(jié)果 —— 勃朗寧
該理念有個通俗的說法是“人們只會看見他們愿意看見的事情”。
在數(shù)據(jù)分析中,雖然很難不帶任何“先入為主”的觀點(diǎn),但依然要追求追求客觀分析的態(tài)度,也要適時根據(jù)數(shù)據(jù)去觀察和反思,不斷修正自己的觀點(diǎn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04