
揭秘?cái)?shù)據(jù)分析中那些難以解釋的數(shù)據(jù)異常
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)也稱觀測值,是實(shí)驗(yàn)、測量、觀察、調(diào)查等的結(jié)果,常以數(shù)量的形式給出。
在分析數(shù)據(jù)的時(shí)候,總有那些一些數(shù)據(jù)異常無法找到適當(dāng)?shù)睦碛蛇M(jìn)行合理解釋,也許可以換個(gè)角度來看待這些異常。為什么明明數(shù)據(jù)發(fā)生較大的起伏波動(dòng),我們絞盡腦汁還是無法找到合理的原因,這些到底是怎么樣的異常,是不是存在一些共性,或者這些異常是不是我們平常所說的異常,抑或是應(yīng)該歸到其他類別,不妨先叫 它們“難以解釋的異?!薄?/span>
近段時(shí)間在讀《思考,快與慢》這本書,作者卡尼曼的觀點(diǎn)似乎可以給我們一些答案??崧切睦韺W(xué)和決策學(xué)方面的大師,他告訴我們?nèi)绾伪荛_大腦思考的誤區(qū),從而更加理性地進(jìn)行認(rèn)知和決策。這里引述書中提及的與上面“難以解釋的異?!边@個(gè)問題相關(guān)的兩個(gè)觀點(diǎn):
· 回歸均值效應(yīng):事物會(huì)經(jīng)歷好壞的隨機(jī)波動(dòng),但最終會(huì)回歸到平均水平。
· 用因果關(guān)系解釋隨機(jī)事件:人們總是試圖為一些變化尋找可以解釋的原因。
迪馬特奧和貝尼特斯
對(duì)于回歸均值效應(yīng)(Mean reversion),卡尼曼舉了一些與體育相關(guān)的例子,確實(shí)這個(gè)現(xiàn)象在體育競技中較為常見:高爾夫球手為什么第二天無法打出前一天的好成績,球員為什么第二個(gè)賽季無法復(fù)制前一個(gè)賽季的輝煌……這讓我聯(lián)想到了近期切爾西的換帥事件。
其實(shí)迪馬特奧和貝尼特斯之間存在一些有趣的共同點(diǎn):1) 都是歐冠的冠軍教頭,2) 能力都沒有被完全認(rèn)可。如果說迪馬特奧是沒有足夠的時(shí)間來證明自己的執(zhí)教能力情有可原的話,那么貝尼特斯顯然是自己的選擇造成了外界對(duì)其能力的質(zhì)疑。
迪馬特奧在上賽季中后段從助理教練接手切爾西,并以看守主教練的身份一路過關(guān)斬將,最終奪取歐冠冠軍,成功帶回球隊(duì)歷史上第一座大耳朵杯足夠讓其能在賽 季末被扶正,但因?yàn)槿狈?zhí)教經(jīng)驗(yàn)始終無法讓挑剔的老板對(duì)其有足夠的信任,于是當(dāng)球迷和俱樂部還沉浸在上賽季歐冠的榮耀光環(huán)下,而球隊(duì)的表現(xiàn)卻無法延續(xù)“應(yīng) 有”的輝煌時(shí),迪馬特奧下課的命運(yùn)是注定的。在競爭如此激烈的英超聯(lián)賽,切爾西無法擺脫回歸效應(yīng),如果說上個(gè)賽季切爾西在諸多有利因素的共同作用,再加上 一些運(yùn)氣成分的基礎(chǔ)上成功加冕歐冠的話,那么這個(gè)賽季這些有利因素不再集中地作用于他們,而他們的運(yùn)氣也似乎“用完了”,成績回歸之前的平均水平實(shí)屬正常 現(xiàn)象,而在昔日光環(huán)下的球迷和俱樂部顯然認(rèn)為這是“異常事件”,于是迪馬特奧成為了回歸效應(yīng)的受害者。
其實(shí)這類事件在足球界屢見不鮮,世界杯的98法國,02五星巴西,06意大利都難逃回歸效應(yīng),奪冠之后成績下滑,而很多教練也在奪冠之后紛紛辭 職,因?yàn)樗麄円裁靼自倮m(xù)輝煌(擺脫回歸效應(yīng))是如此之難,斯科拉里、里皮等都做出了明智的選擇,而這些冠軍球隊(duì)的替任教練又往往是命運(yùn)最為坎坷的,畢竟能 像博斯克這樣讓西班牙不斷延續(xù)輝煌的教練真的不多,而貝尼特斯恰恰當(dāng)了回悲催的替任者。
2010年貝尼特斯接替穆里尼奧成為三冠王國際米蘭的主教練,三冠王的光環(huán)太過耀眼,而陣容老化加引援不利,注定讓國米走上回歸效應(yīng)的道路,于 是賽季不到半程,貝帥即被解雇。其實(shí)貝尼特斯之前執(zhí)教生涯的戰(zhàn)績并不是太差,成名于瘋狂的“伊斯坦布爾之夜”,但也正是因?yàn)檫@傳奇一戰(zhàn)成了一座無法逾越的 豐碑,即使之后幫助利物浦奪得諸多賽事的冠亞軍,也無法讓俱樂部和球迷真正的滿意,而貝帥的決策失誤在于其沒有在任何一個(gè)輝煌或幾近輝煌(07年雖然被米 蘭復(fù)仇雅典,但至少也是個(gè)歐冠亞軍)的時(shí)刻選擇退出,直到最后利物浦戰(zhàn)績實(shí)在看不下去了才以失敗者的身份離開。貝帥真的應(yīng)該向老辣的銀狐里皮或者狡猾的穆 里尼奧學(xué)習(xí)下什么叫做功成身退。
而這次,貝帥又一次選擇了歐冠冠軍光環(huán)下的切爾西,盡管這個(gè)光環(huán)已漸漸褪去,我們也只能祝他好運(yùn)了。
倒塌的橋梁與突然安靜的教室
共振(Resonance)催 生了宇宙大爆炸,形成了星辰日月和世間萬物,共振現(xiàn)象是自然界最普遍的現(xiàn)象之一。一群士兵騎馬通過法國昂熱市的某座橋時(shí),共振現(xiàn)象導(dǎo)致了橋梁的倒塌,這個(gè) 例子被引入初中物理教科書,從而成為了我們認(rèn)識(shí)共振原理的啟蒙記憶。但是什么原因引發(fā)了共振,進(jìn)而發(fā)生橋梁倒塌這類異常事件,正常情況下同樣一群士兵同樣 行軍通過同樣的橋,可能幾萬次中才會(huì)出現(xiàn)一次橋梁倒塌,士兵是普通的士兵,橋是正常的橋,產(chǎn)生共振完全是一個(gè)隨機(jī)事件,但正是因?yàn)檫@類事件概率太小,所以 人們總是試圖從士兵或者橋的身上找原因(但是有時(shí)候確實(shí)是因?yàn)闃虼嬖趩栴} ;- ) )。
然后是一個(gè)在知乎上看到的問題:為什么原來大家都在討論,聲音嘈雜的教室會(huì)突然安靜下來?這個(gè)也許大家都遇到過,也是一個(gè)類似的小概率事件,教 室里每個(gè)人都在斷斷續(xù)續(xù)地說話,正常情況下聲音的大小總是保持在一個(gè)水平波動(dòng),但可能突然有一個(gè)時(shí)刻同時(shí)說話的人數(shù)減少了,聲音也隨機(jī)地波動(dòng)到了一個(gè)最低 點(diǎn),這個(gè)時(shí)候大家就會(huì)認(rèn)為是不是發(fā)生了什么事情,老師來了?于是紛紛不說話,教室突然鴉雀無聲,一片寂靜。大家都感覺到了教室聲音的“異常”,而試圖為這 個(gè)異常尋找可能的原因。
什么造成了這些“異?!?/span>
首先來看回歸均值效應(yīng),一般表現(xiàn)為事物在某段時(shí)間表現(xiàn)得非常好,之后回歸到正常水平的一個(gè)過程。這個(gè)按理來說是一個(gè)正常的過程,因?yàn)槭挛镌谥T多 因素的共同影響下總有一些隨機(jī)的波動(dòng),關(guān)鍵在于人們總是希望好的狀態(tài)能夠延續(xù),而當(dāng)事物從一個(gè)極好的狀態(tài)出現(xiàn)下滑時(shí),因?yàn)槁洳钶^大,所以很容易把回歸均值 之后的狀態(tài)當(dāng)做一種“異?!?。如下圖:
A段的曲線即使有上下波動(dòng),但一般不會(huì)被認(rèn)為有異常,但C段曲線很容易被誤認(rèn)為是異常,因?yàn)槲覀兒苋菀讓段與B段進(jìn)行比較,而不是A段的均值 水平(綠線所示,C段與A段均值差異并不大)。因?yàn)檫@里給出了完整的曲線變化趨勢,所以犯這種錯(cuò)誤的可能性會(huì)降低,但當(dāng)我們比較短時(shí)間內(nèi)的數(shù)據(jù)變化,或者 簡單看數(shù)據(jù)同環(huán)比的時(shí)候,就很容易誤把回歸均值當(dāng)做一種異常。所以分析數(shù)據(jù)要結(jié)合長期趨勢,當(dāng)事物狀態(tài)未發(fā)生質(zhì)變而數(shù)據(jù)明顯上升一個(gè)臺(tái)階的情況下,不要認(rèn) 為好的數(shù)據(jù)表現(xiàn)總能夠持續(xù),因?yàn)楹玫臄?shù)據(jù)表現(xiàn)也只是一個(gè)正常的隨機(jī)波動(dòng)引起的。
解釋了回歸均值效應(yīng),還需要搞清楚的是雖然事物大部分時(shí)間都有小幅的隨機(jī)波動(dòng),但偶然也會(huì)出現(xiàn)較大的波動(dòng),即極好或者極差的狀態(tài),正如上圖的B段狀態(tài),我們?nèi)绾握J(rèn)定這個(gè)狀態(tài)也是隨機(jī)的,而不是異常呢,不能因?yàn)殡y以解釋而不把過大的數(shù)據(jù)波動(dòng)當(dāng)做一種異常來看?
這個(gè)問題還是可以從物理學(xué)的角度開始解釋,先看下波的疊加原理(Superposition Principle):
左圖的下面2個(gè)波在疊加之后合成了更大的振幅,而右圖的下面2個(gè)波相互干涉,合成后振幅消減為零。引申到數(shù)據(jù)變化的情境下,一般一個(gè)指標(biāo)會(huì)受到 多個(gè)因素的影響,比如網(wǎng)站的訪問量會(huì)受多個(gè)渠道數(shù)據(jù)波動(dòng)的影響,搜索引擎、外部鏈接、社交媒介、付費(fèi)廣告等這些外部渠道帶來的流量總是在變化的,如下圖:
當(dāng)某個(gè)渠道的流量異常的時(shí)候,如A線所示,或者由于外界因素的影響,如春節(jié)或節(jié)假日所有渠道的流量都可能普遍下降,如B線所示,這些都可能導(dǎo)致 總體訪問量的異常,這些異常是可以解釋的。C線中每個(gè)渠道的數(shù)據(jù)都未出現(xiàn)明顯異常,但由于多個(gè)渠道的流量因?yàn)殡S機(jī)波動(dòng)碰巧同時(shí)都到了一個(gè)較低的點(diǎn),這個(gè)時(shí) 候總體訪問量也會(huì)出現(xiàn)明顯低于正常水平的情況,于是就出現(xiàn)了“難以解釋的異常”。
數(shù)據(jù)在某些因素的同時(shí)作用下可能會(huì)出現(xiàn)異常,雖然這個(gè)概率很低,但是確實(shí)又發(fā)生,這是多個(gè)因素疊加效應(yīng)導(dǎo)致的,如果通過細(xì)分指標(biāo)的影響因素沒有發(fā)現(xiàn)明顯的異常,那么不要試圖為這個(gè)“難以解釋的異?!睂ふ铱瓷先タ梢越忉尩脑?。cda數(shù)據(jù)分析培訓(xùn)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10