
數(shù)據(jù)分析的幾大誤區(qū)
上大學(xué)時,我和另一個姑娘(某理科大神)經(jīng)常搭伙做飯。有天我倆一起去超市買油,站在琳瑯滿目的貨架前,我直接拎起一瓶,沖她叫:“就拿這瓶吧,最便宜!”姑娘白了我一眼,轉(zhuǎn)頭說道:“克單價一點都不便宜好不好!數(shù)學(xué)是體育老師教的吧?”接著眼神刷刷兩下掃完整個貨架,心算完畢,拎起另一瓶說:“這克單價最便宜,拿這個!”我當(dāng)時就囧了,訕訕地拎起油,念叨著:總金額不便宜呢……
大千世界當(dāng)中,我們總是需要“數(shù)據(jù)”去輔助下判斷、做抉擇。生活當(dāng)中,可能僅需要描述性數(shù)據(jù)就足夠了,比如你買油是看克單價還是總金額。但工作當(dāng)中,卻必須深諳各種復(fù)雜的數(shù)據(jù)分析方法,數(shù)據(jù)成為建功立業(yè)、獎懲論責(zé)的重要手段。數(shù)據(jù)本身是客觀的,但如何捯飭數(shù)據(jù),卻是主觀的。數(shù)據(jù)可以“作弊”,可以有“偏見”,也可以用來糊弄別人,麻痹自己。
所以,知道數(shù)據(jù)的把戲,比機械地完成數(shù)據(jù),對工作的實踐意義更大,至少可以保證我們不會被數(shù)據(jù)“玩弄”:
你買油是按照克單價?還是總金額?這個例子比較簡單。實際工作中比這個要復(fù)雜很多,比如銷售人員的績效如何評估——應(yīng)該按照總銷售額,還是可比店的銷售額?是按照所有產(chǎn)品的銷售額?還是新品的銷售額?是按照單店績效?還是單人績效?是按照工作時間內(nèi)的績效?還是不計工作時間、將加班時間也計算在內(nèi)的績效?如果是跨國公司,還涉及到用人民幣、還是美元計算?
計量單位的不同、測算范疇的不同,得出的結(jié)果也就不同——所以,公司開績效評估大會或者任務(wù)指標(biāo)分配大會,一般就是打數(shù)據(jù)仗,然后你會發(fā)現(xiàn),結(jié)局往往不取決于最準(zhǔn)確的數(shù)據(jù),而取決于最大的嗓門……
平均數(shù)是一個非常強大的描述性統(tǒng)計數(shù)據(jù),也被廣泛用于各種判斷當(dāng)中,比如時不時會有新聞?wù)f“房價在漲”、“我國平均收入水平上升XXX”,“某某學(xué)校的升學(xué)率高達90%”……平均數(shù)最大的問題是,忽略了偏離方差的“異常值”——比如馬云的收入就是個異常值。這個時候,就需要再看一看中位數(shù)。
每一次銷售會,我們會看幾個主要數(shù)據(jù),類似“單人產(chǎn)量”“單店產(chǎn)量”“流失率”等等。然而,在對這些數(shù)據(jù)下結(jié)論的時候,我們得萬分謹(jǐn)慎,因為一方面,它取決于計量單位和范疇,另一方面,還得均衡的看平均數(shù)和中位數(shù)。如此才能甄別出來,哪些是由于“異常值”造成的偶然現(xiàn)象,而哪些是一直存在的普遍現(xiàn)象,防止看錯問題冤枉人。當(dāng)然有一種情況是不需要區(qū)分中位數(shù)和平均數(shù)的,比如今年北大古生物專業(yè)的畢業(yè)生就業(yè)率(就一個姑娘)。
每個企業(yè)的績效評估方法可能不一樣,但邏輯應(yīng)該相似,對所有衡量指標(biāo)設(shè)置不同權(quán)重后,進行綜合評估。當(dāng)然,對于那種只有一個指標(biāo)(老板心情指標(biāo))的公司,統(tǒng)計學(xué)表示很無力。
除了績效評估,最常用“權(quán)重”的就是生意預(yù)測。不同要素對生意結(jié)果的影響力不同,且隨時間而變,比如打廣告、公關(guān)活動、或者店內(nèi)促銷,哪個對生意貢獻最大?哪一種具體的廣告形式對生意貢獻最大?是不是贊助《中國好聲音》就一定比投放傳統(tǒng)電視廣告,帶來的銷量更大?只有我們知道不同因素的權(quán)重,才會做成更加科學(xué)的投資決策。
銷售額下降了,怎么辦?相信大多數(shù)銷售都會抓狂,開始馬不停蹄的琢磨問題解決之道了。但去年我聽到了一句特別灑脫的話:“銷量下降,有時候只是個現(xiàn)象,并不一定是問題。你怎么知道這不是我們有意為之的呢?”呃…好吧,這豁達和深刻,不是我等凡夫俗子能理解的。
數(shù)據(jù)往往只表達一種結(jié)果。如果想要知道數(shù)據(jù)背后的動機和原因,還要借助更復(fù)雜的統(tǒng)計學(xué)手段、或者非數(shù)據(jù)手段。主動為之的“壞數(shù)據(jù)”以及被動承受的“壞數(shù)據(jù)”,兩者之間的動機差異,會造成迥然不同的行為結(jié)果。比如有一次銷售會議,某區(qū)域負(fù)責(zé)人指著自己慘淡的員工流失率指標(biāo),輕描淡寫的解釋說:“高流失率是我主動淘汰了一些人,因XXX原因,下個季度新人馬上到崗。”想象一下,如果我們不了解這個動機,可能這位區(qū)域負(fù)責(zé)人就要蹲小黑屋了。
最經(jīng)典的例子就是收入數(shù)據(jù)。經(jīng)常有報道說:公務(wù)員收入其實很低,勸大家不要錯怪公務(wù)員。但問題是,工資收入是低,但非工資收入可能不低。當(dāng)然,這種情況不僅限于公共組織。其實無論任何組織,只要掙的花的不是自己的錢,就都可能出現(xiàn)這種“工資不等于收入”的情況。
在具體業(yè)務(wù)中,“精確不等于準(zhǔn)確”可能出現(xiàn)在兩種情境中——總結(jié)歸納、分析預(yù)測。
比如消費者調(diào)研,一般都會有定性和定量兩種方法。如果沒有定性分析,定量分析就可能陷入“虛假精確”的陷阱。如果你的調(diào)研對象有問題,那么,就算再辛苦的計算和再精確的數(shù)據(jù),其實都沒有意義。又比如廣告測試,精確的測試結(jié)果真的有實際意義嗎?
又比如銷量預(yù)測,每個人心里都明白,這是無法準(zhǔn)確預(yù)測的,你只能無限接近,卻不能完全準(zhǔn)確,因為“預(yù)測未來”本來就是上帝才能搞定的事,所以我們能做的,只能是在保證方向準(zhǔn)確的情況下,盡量精確。但也不必過于花費力氣、苛求預(yù)測數(shù)據(jù)的精確,因為這不會增加多少實際意義,還不如花多點時間研究其他可操作性強的數(shù)據(jù)
總之,盡量避免追求虛假的準(zhǔn)確和錯誤的確定性。
我老板的經(jīng)典口頭禪就是:“你們這些人,總是自說自話、以果推因分析法,錯把相關(guān)性當(dāng)成因果性,把偶然性當(dāng)成必然性。”這句口頭禪可真是太強大了,因為可應(yīng)用范圍頗廣,躺槍幾率也頗高,導(dǎo)致我們現(xiàn)在不得不日省三次:“有沒有自說自話?有沒有以果推因?”
以前還聽過一個段子,一個領(lǐng)導(dǎo)手下的兩個部門同時做生意報告。A部門搞不清楚自己生意為啥漲,B部門搞不清楚自己生意為啥降,結(jié)果最后的生意報告中,兩個部門不約而同,提到了同一個原因——天氣。只不過,A部門說,因為這段時間按天氣冷導(dǎo)致A產(chǎn)品需求增大;B部門說,因為這段時間天氣熱導(dǎo)致B產(chǎn)品需求減少。我現(xiàn)在覺得吧,多虧這領(lǐng)導(dǎo)不是我老板,否則這兩部門可以一起蹲小黑屋了。
這就是統(tǒng)計學(xué)最重要的價值——可以幫助我們排除無關(guān)因素,因為這些無關(guān)因素太容易讓大家混淆了因果性和相關(guān)性的區(qū)別。
有公司做新品上市的消費者調(diào)研時,最后需求是:只要超過45%的人喜歡,就決定上市這個新品。其實這壓根不用調(diào)研了。如果這個新品和對照組的產(chǎn)品本身差距不明顯的話,且樣本量足夠大,肯定會有50%的人喜歡,這就是大數(shù)定律的基本常識。
初三接近中考時,老師突然要調(diào)座位,而且這次不按學(xué)號、不按個子、也不按“好幫差”原則,而是直接按成績調(diào)座位——成績好的人坐左邊兩組,成績不好的坐右邊兩組。當(dāng)時我還很懵懂,不明白為啥非要在復(fù)習(xí)備考的緊張時刻折騰調(diào)座位,因為和我關(guān)系非常好的小伙伴們都被調(diào)到右邊兩組了。
后來我終于懂了。因為接下來的兩周,右邊座位的同學(xué)們,一個接一個的被老師叫走談話,然后,又一個接一個的,退學(xué)了。我想我這輩子都忘不了,那些同學(xué)一聲不吭的低頭收拾完書包,佝僂著腰沉重的走出教室前,回頭望過來的最后一眼。那種悲傷和無奈的眼神,讓我至今想起來都心酸喉梗。然后,當(dāng)年我校的升學(xué)率就非常高。
企業(yè)當(dāng)中數(shù)據(jù)作弊和偏見也不少見,比如通過壓低頭一年的數(shù)據(jù)、使得第二年增長率更高;比如選擇錯誤的樣本數(shù)據(jù)做市場調(diào)研;又比如常見的會計數(shù)據(jù)作弊。
總之,數(shù)據(jù)的把戲大有乾坤。一方面,我們需要數(shù)據(jù)去分析問題、印證結(jié)論,沒有數(shù)據(jù)的虛談是沒有意義的,也是很難有定論的。另一方面,數(shù)據(jù)不是全部,我們不能成為“數(shù)據(jù)教”的人。過于追求數(shù)據(jù)的完美精確,容易讓我們忽略那些無法用數(shù)據(jù)表現(xiàn)的關(guān)鍵要素,比如人的態(tài)度、動機和精神氣;也容易忽略企業(yè)的最終目標(biāo)。其實,在不該使用數(shù)據(jù)的使用數(shù)據(jù),可能比在該用數(shù)據(jù)的時候沒有數(shù)據(jù),結(jié)果更可怕。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10