
大數(shù)據(jù)分析的道與術(shù):數(shù)據(jù)分析常犯的6類錯(cuò)誤
夏天雪糕銷量越好,游泳溺水的事件也越多,是不是雪糕中某種成分對(duì)人影響的后果呢?簡(jiǎn)單的思考后就會(huì)發(fā)現(xiàn),是因?yàn)闅鉁卦礁?,雪糕銷量會(huì)越高,同時(shí)溫度越高,去河里游泳的孩子就越多,溺水事件也就越多,雪糕銷量和溺水是關(guān)聯(lián)關(guān)系,而并非因果關(guān)系。
上面的例子很簡(jiǎn)單,也很容易被識(shí)破,但在實(shí)際的數(shù)據(jù)分析中,關(guān)聯(lián)和因果并不是那么容易區(qū)分。再舉一例:
某廣告公司分析人員發(fā)現(xiàn):每月廣告投入越高的用戶,越不容易流失,而廣告投入低的用戶群則很容易流失,從而得出結(jié)論:“高投入會(huì)降低客戶流失率,建議銷售引導(dǎo)客戶提高首月廣告投入,從而降低新客流失率”。而實(shí)際情況是,新客戶初期的投入常常都比較少,看廣告有了效果之后,才會(huì)逐步擴(kuò)大廣告投放預(yù)算,投入高的客戶流失率低是因?yàn)檎J(rèn)可廣告投放效果,而不是因?yàn)榛ǖ腻X多。
關(guān)聯(lián)性很容易判斷,如何判斷是否是因果關(guān)系呢?因果符合下面的特征:
1.兩個(gè)事件是關(guān)聯(lián)的,就是說(shuō)總是同時(shí)出現(xiàn)
2.原因在前,結(jié)果在后
3.原因消除的話,結(jié)果也消除
因果關(guān)系需要設(shè)計(jì)相對(duì)嚴(yán)謹(jǐn)?shù)膶?duì)照來(lái)證明,更多的時(shí)候需要靠經(jīng)驗(yàn)來(lái)判斷,這時(shí)候更注意要謹(jǐn)慎下結(jié)論。
2. 不匹配的比較例:美國(guó)與西班牙戰(zhàn)爭(zhēng)爆發(fā)后,不少美國(guó)人不愿意參軍,坦誠(chéng)是因?yàn)榕滤?,針?duì)這種情況,美國(guó)軍方做了一份統(tǒng)計(jì)報(bào)告來(lái)勸說(shuō)大家參軍:“可靠數(shù)據(jù)統(tǒng)計(jì),美國(guó)海軍的死亡率是 0.9%,而同期紐約市民的死亡率是 1.6%”,潛臺(tái)詞非常明顯,如果懼怕死亡更應(yīng)該參軍,因?yàn)樵谲姞I(yíng)中比呆在紐約更安全。這個(gè)例子乍看起來(lái)很有道理,如果你仔細(xì)琢磨,就會(huì)發(fā)現(xiàn)其中的陰謀:比較的對(duì)象不一樣!如果仔細(xì)查閱,就會(huì)發(fā)現(xiàn),美國(guó)海軍死亡名單基本都是健康的青年小伙,而紐約市民的死亡名單大多是老弱病殘,這兩份數(shù)據(jù)放在一起顯然不合適。
在做數(shù)據(jù)比較的時(shí)候,需要選取合適的比較對(duì)象,以便更準(zhǔn)確地認(rèn)知和發(fā)現(xiàn)結(jié)論,在數(shù)據(jù)分析中,一般選取的比較對(duì)象有以下幾類:
自身歷史
與歷史同期相比,比如去年同期或上個(gè)季度。
同行競(jìng)品
合理預(yù)期
與之前產(chǎn)品發(fā)展的預(yù)期相比,比如:A 產(chǎn)品的研發(fā),比預(yù)期收入提高 10%
同質(zhì)對(duì)照組
A/B Test 結(jié)果的對(duì)比
3. 基于個(gè)案的認(rèn)知每當(dāng)勸說(shuō)朋友戒煙時(shí),朋友總會(huì)拿出這個(gè)段子:
不抽煙不喝酒,63歲–林彪
不抽煙只喝酒,73歲–周恩來(lái)
只抽煙不喝酒,83歲–毛澤東
既抽煙又喝酒,93歲–鄧小平
吃喝嫖賭樣樣有,103歲–張學(xué)良沒(méi)有任何壞習(xí)慣,一生做好事–23歲,雷鋒
無(wú)論抽不抽煙,一個(gè)人都可能在各個(gè)年齡下死亡,從宏觀的統(tǒng)計(jì)上分析,抽煙的人的壽命平均比不抽煙的人小 5 歲,而上面舉出的個(gè)例,則無(wú)法說(shuō)明問(wèn)題
4. 精挑細(xì)選的數(shù)據(jù)維度例:一所藝術(shù)院校,男生校服只有褲子款式,而女生有褲子和裙子兩種款式,經(jīng)統(tǒng)計(jì)得知 75% 的女生選擇裙子,25% 的女生選擇褲子,今天你進(jìn)入校園,遠(yuǎn)遠(yuǎn)看到一個(gè)穿褲子的同學(xué),他是男生的概率更高,還是女生的概率更高?憑感覺(jué)得到的答案是男生概率高,因?yàn)樗械哪猩即┭澴涌钍剑挥?25% 的女生選擇褲子款式。這個(gè)例子中忽略了一個(gè)重要的數(shù)據(jù):男生和女生的人數(shù)。
如果告訴你,該學(xué)校共 1000 人, 900 人是女生,100 人是男生,結(jié)果是什么?
女生選褲子的有 900*25% = 225 人
男生選褲子的有 100 人
很顯然,這種情況下,這個(gè)人是女性的概率更高。在普通人看來(lái),往往會(huì)有男女各占一半的經(jīng)驗(yàn)誤解。所以,在一些情況下,隱藏了部分?jǐn)?shù)據(jù)就是說(shuō)謊。
5. 過(guò)多腦補(bǔ)的推理在一個(gè)冬日的晚上,產(chǎn)品流量出現(xiàn)下跌,經(jīng)過(guò)一番分析,得出原因:天氣太冷,網(wǎng)民因?yàn)槭掷涠辉敢馍暇W(wǎng),提前上床睡覺(jué),所以流量下跌。在一個(gè)冬日的晚上,產(chǎn)品流量出現(xiàn)上漲,經(jīng)過(guò)一番分析,得出原因:天氣太冷,網(wǎng)民愿意出門,只好在家窩著上網(wǎng),所以流量上漲。該案例背后的信息是:一個(gè)結(jié)果可能有多個(gè)原因可以解釋,“大忽悠”往往引導(dǎo)人們只去相信其中的一個(gè),整個(gè)推理過(guò)程沒(méi)有對(duì)應(yīng)的細(xì)節(jié)數(shù)據(jù)輔助。
6. 先入為主的偏見(jiàn)
先別往下看,這幅圖的內(nèi)容是什么?
你可能覺(jué)得這幅圖太過(guò)模糊和抽象,一時(shí)也看不出是什么,如果告訴你說(shuō),這是一只斑點(diǎn)狗,很多人就會(huì)恍然大悟,覺(jué)得確實(shí)是一只斑點(diǎn)狗。這里隱藏了一個(gè)重要的心理學(xué)理念:
你腦子里想的是什么,你就會(huì)去尋找什么,你將會(huì)得到你期盼的結(jié)果 —— 勃朗寧該理念有個(gè)通俗的說(shuō)法是“人們只會(huì)看見(jiàn)他們?cè)敢饪匆?jiàn)的事情”。
在數(shù)據(jù)分析中,雖然很難不帶任何“先入為主”的觀點(diǎn),但依然要追求追求客觀分析的態(tài)度,也要適時(shí)根據(jù)數(shù)據(jù)去觀察和反思,不斷修正自己的觀點(diǎn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11