
如何做好數(shù)據(jù)異常分析
對于用戶端產(chǎn)品經(jīng)理來說,監(jiān)控處理日常的用戶端數(shù)據(jù)是必不可少的工作之一,轉(zhuǎn)化數(shù)據(jù)、用戶數(shù)據(jù)、交易數(shù)據(jù)等等,都應(yīng)該是列入日常監(jiān)控的數(shù)據(jù)指標(biāo)。一般來說,這些數(shù)據(jù)都有固定的波動周期,每個周期內(nèi)的數(shù)據(jù)變化應(yīng)該是趨于穩(wěn)定的,如果某天某周某月的數(shù)據(jù)不再符合預(yù)期的穩(wěn)定變化,也就是我們所說的數(shù)據(jù)異常。這種情況下,我們需要去深挖數(shù)據(jù)異常產(chǎn)生的原因。雖然這種分析有點(diǎn)時候諸葛亮的意味,而且分析的過程往往無趣且極其耗費(fèi)時間,對于那些認(rèn)為產(chǎn)品經(jīng)理的工作理應(yīng)充滿挑戰(zhàn)和創(chuàng)新的人來說,這項(xiàng)工作簡直是最讓人厭惡的了。
但是數(shù)據(jù)異常的分析仍然是必要的,首先,對于產(chǎn)品的各種數(shù)據(jù)知其所以然,這是對產(chǎn)品經(jīng)理的基本要求;其次通過數(shù)據(jù)異常分析往往能夠發(fā)掘未知的機(jī)會或風(fēng)險(xiǎn),尤其難得的是這些機(jī)會和風(fēng)險(xiǎn)往往是我們平時忽略的(要不然我們也不會認(rèn)為是“異?!保?,這對產(chǎn)品的持續(xù)優(yōu)化具有重要意義。(雖然我明白其中的道理,不過說實(shí)話數(shù)據(jù)異常分析仍然是我最討厭的工作,沒有之一%>_<%)
那么如何才能做好數(shù)據(jù)異常分析呢?(或者換個說法:如何完成我們必須要做的煩人分析工作?)首先,當(dāng)然是要求我們能識別和確認(rèn)數(shù)據(jù)異常,其次就是細(xì)致的分析過程,如果想要很好的完成這個過程,我認(rèn)為可以用八個字概括:大膽設(shè)想,小心求證。
既然是數(shù)據(jù)異常分析,那么我們必須能察覺到這些異常,然后還要確認(rèn)數(shù)據(jù)異常是真的存在,否則只會在錯誤的道路上越走越遠(yuǎn)。察覺數(shù)據(jù)異常最難也最簡單,最難是因?yàn)椴煊X的過程往往依靠豐富的經(jīng)驗(yàn)和對產(chǎn)品和業(yè)務(wù)的充分了解,我們稱之為產(chǎn)品經(jīng)理的數(shù)據(jù)敏感。最簡單是因?yàn)槲覀円坏┯辛诉@種敏感性,只要借助基本的數(shù)據(jù)報(bào)表,就能夠風(fēng)吹草動無微不察。數(shù)據(jù)敏感不是一個“硬”技能,也很難說有具體的操作步驟去提高數(shù)據(jù)敏感性,這種敏感一部分真的要靠天賦,有些人可能邏輯性強(qiáng),通過數(shù)據(jù)本身的相對關(guān)系就能夠發(fā)現(xiàn)異常的存在,比如DAU和轉(zhuǎn)化率都有提升而交易額呈下降趨勢(這個異常相對明顯,原諒我一時舉不出需要更嚴(yán)密邏輯分析的例子)。另一部分,它需要產(chǎn)品經(jīng)理對產(chǎn)品和業(yè)務(wù)有足夠的了解,這個是可以通過平時多加關(guān)注各種產(chǎn)品數(shù)據(jù)來逐漸加強(qiáng)的,比如養(yǎng)成仔細(xì)閱讀產(chǎn)品數(shù)據(jù)報(bào)告的習(xí)慣,然后對一些無法理解的數(shù)據(jù)進(jìn)行詳細(xì)分析,經(jīng)過長期的主動訓(xùn)練,是一定可以提高數(shù)據(jù)敏感度的,這也是為什么Leader們(有經(jīng)驗(yàn)的產(chǎn)品經(jīng)理)更容易發(fā)現(xiàn)異常的原因。
如果你已經(jīng)具備了察覺或明顯或隱蔽的數(shù)據(jù)異常的能力,你或許有發(fā)現(xiàn)寶藏的興奮,迫不及待的想要去搞清楚所以然。但是我建議你在行動前最好確認(rèn)一下這個異常是真的存在,簡單的說,就是確認(rèn)下數(shù)據(jù)有沒有問題。這種事情很常見:我們經(jīng)常會遇到數(shù)據(jù)服務(wù)、數(shù)據(jù)上報(bào)、數(shù)據(jù)統(tǒng)計(jì)上的BUG,然后數(shù)據(jù)報(bào)表中的數(shù)據(jù)就變得難以理解。所以,找數(shù)據(jù)報(bào)表的產(chǎn)品和技術(shù)同事確認(rèn)一下是不是真的異常吧。
如果數(shù)據(jù)異常經(jīng)確認(rèn)確實(shí)存在,那么你就要去找原因了。這個找原因的過程總結(jié)起來就是前面所說的“大膽設(shè)想,小心求證”,大膽設(shè)想就是對異常產(chǎn)生的原因做出合理的猜測,因?yàn)楫惓V詾楫惓?,是因?yàn)槲覀冎暗暮鲆暎栽诓聹y的過程中需要腦洞大開,聯(lián)系所有你能夠想到的所有可能,回顧所有產(chǎn)品相關(guān)的信息,然后猜測一個可能造成數(shù)據(jù)異常的原因。小心求證是說在做出猜測之后,我們需要對自己的猜測負(fù)責(zé),找到能夠支持(或者否定)這種猜測的數(shù)據(jù)。
那么,我們?nèi)绾尾拍茏龅侥X洞大開大膽設(shè)想呢?對新手產(chǎn)品經(jīng)理(好吧,數(shù)據(jù)異常分析好像大多由新手來分析處理)來說,你可能會覺得兩眼一抹黑不知如何下手,下面有一個簡單的表格,可供參考。
* 如果你看到這個表格已經(jīng)知道我要說些什么,那后面的內(nèi)容你可以不用看了。
對于大部分已經(jīng)產(chǎn)生的數(shù)據(jù)異常,大概可以從兩個維度來分類(個人經(jīng)驗(yàn)總結(jié),可能不同產(chǎn)品有不同的分類方式,但是我堅(jiān)持推薦這種通過分類來確定分析方向的方式):
我將已經(jīng)遇到過的情況和一些覺得可能以后會遇到的情況填充到這個表格中,通過這些例子對這種分析(猜測)方法做出解釋。
產(chǎn)品層面,A1和B1兩種情況是指當(dāng)自身的產(chǎn)品或者競對的產(chǎn)品因?yàn)楣δ茏兏斐傻臄?shù)據(jù)變化,比如自己產(chǎn)品因?yàn)樵黾恿烁邇r排序功能造成客單價升高,而競對將某些品類商品入口提前而造成自己App上這類商品的交易額降低;C1指大環(huán)境發(fā)生了變化,而造成自己的產(chǎn)品數(shù)據(jù)變化,比如我們可以猜想當(dāng)微博興起時,人人網(wǎng)的產(chǎn)品經(jīng)理會發(fā)現(xiàn)DAU持續(xù)下降。
因?yàn)榇蠖鄶?shù)產(chǎn)品經(jīng)理并非技術(shù)出身,所以技術(shù)上的問題往往是產(chǎn)品經(jīng)理在分析數(shù)據(jù)時忽視的內(nèi)容。比如A2,當(dāng)我們的列表展示接口不夠穩(wěn)定時,會造成列表頁點(diǎn)擊率降低,進(jìn)而交易額等等都接連降低。比如B2,當(dāng)2015.5.28,攜程因?yàn)橄到y(tǒng)故障而無法訪問時,其他OTA網(wǎng)站的交易量可預(yù)見是提升的。C2情況相對少見,比如2014.1.21,國內(nèi)所有通用頂級域的根服務(wù)器出現(xiàn)異常,而當(dāng)日國內(nèi)大部分網(wǎng)站的數(shù)據(jù)毫無疑問應(yīng)該是異常的。
用戶層面,當(dāng)用戶整體特征逐漸變化時,產(chǎn)品數(shù)據(jù)也會逐漸變化。對于A3和B3情況,我們假設(shè)有一類產(chǎn)品,最初培養(yǎng)的一群用戶是學(xué)生,消費(fèi)能力有限。如果這個產(chǎn)品黏性夠強(qiáng),當(dāng)這批學(xué)生逐漸步入社會,客單價可能會持續(xù)增長。C3情況,每年到11月,各OTA網(wǎng)站的DAU和交易額整體就會降低,而三亞地區(qū)的交易額逆勢上升,這就是大環(huán)境下旅游淡旺季的原因造成的。
對于需要支付的產(chǎn)品來說,所有運(yùn)營活動都能影響市場的大小以及市場份額的分布,比如滴滴和快的在培育市場階段,任何一方的大額促銷都會提升自己的市場份額并侵占競對的市場份額(A4和B4),而當(dāng)?shù)蔚慰斓魏喜⒅蠹t包額度的減少,必然會造成App叫車用戶數(shù)量的降低(C4)。
前面講了大膽設(shè)想的方法,如果只是停留個這個層面,那這個分析是沒有說服力的,下面還有一個重要的步驟是小心求證。小心求證是找到直接或間接的證據(jù)來證明你的猜想。對于大環(huán)境維度的數(shù)據(jù)異常原因猜測,一般可以獲取一些能夠反映大市場的數(shù)據(jù)來證明,比如OTA網(wǎng)站DAU在某月降低幅度很大,我們猜測是因?yàn)槁糜蔚鹃_始,這時候可以去百度指數(shù)看看“酒店”或“酒店預(yù)訂”搜索熱度的變化,或者查查往年此時的旅游消費(fèi)數(shù)據(jù),就可以驗(yàn)證我們的猜測是否準(zhǔn)確。
而對于自身產(chǎn)品和競對產(chǎn)品維度的求證,不二法寶就是細(xì)分,下面介紹一些常見的細(xì)分維度及其案例。
關(guān)于如何做細(xì)分分析,這里沒有辦法窮舉,可以細(xì)分分析的維度實(shí)在太多了,但是我們需要記住這種分析方式,當(dāng)猜測是某種原因造成數(shù)據(jù)異常時,只要找到該原因所代表的細(xì)分對立面做對比,就可以證明或證偽我們的猜測。當(dāng)然,在分析的過程中,我們需要了解一些基本的統(tǒng)計(jì)學(xué)知識,這個將會在下周的推送中詳細(xì)介紹,敬請期待。
當(dāng)發(fā)現(xiàn)數(shù)據(jù)異常時或者接到數(shù)據(jù)異常分析任務(wù)時,我們可以聯(lián)系產(chǎn)品相關(guān)的信息,在范圍維度(自身、競對、大環(huán)境)和內(nèi)容維度(產(chǎn)品、技術(shù)、用戶、運(yùn)營)結(jié)合給出合理的猜測,然后通過查看一些大環(huán)境變化數(shù)據(jù)或者細(xì)分的產(chǎn)品數(shù)據(jù)來驗(yàn)證我們的猜測。遵照這個流程,一般能夠找到數(shù)據(jù)異常的深層原因,當(dāng)然,著需要花費(fèi)大量的時間和足夠的耐心,但它能夠讓我們更深更全面的了解自己負(fù)責(zé)的產(chǎn)品的相關(guān)信息,并為未來的產(chǎn)品決策提供指導(dǎo)。對我們自己,這也能加強(qiáng)數(shù)據(jù)敏感度,讓我們能夠發(fā)現(xiàn)更多機(jī)會和問題,形成一個良性循環(huán),成為一個能玩轉(zhuǎn)數(shù)據(jù)的產(chǎn)品經(jīng)理。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11