
數(shù)據(jù)分析這點事:如何看懂數(shù)據(jù) 用好數(shù)據(jù)
先聲明一下,按照傳統(tǒng)的定義,我還真不是數(shù)據(jù)分析高手,各種關(guān)聯(lián)算法,只會最簡單的一種(話說不少場合還算管用);各種挖掘技術(shù),基本上一竅不通;各種牛逼的數(shù)據(jù)分析工具,除了最簡單的幾個免費統(tǒng)計平臺之外,基本上一個都不會用。所以,各種高手高高手請隨意BS,或自行忽略。這里說點高手不說的。
從微博段子說起,微博上關(guān)于數(shù)據(jù)分析有兩個段子,我經(jīng)常當作案例講:
第一個段子,說某投資商對某企業(yè)所屬行業(yè)有興趣,要做背景調(diào)查,甲是技術(shù)流,一周分析各種網(wǎng)上數(shù)據(jù),四處尋找行業(yè)材料,天天熬夜,終于寫出一份報告;乙是人脈流,和對方高管喝了次酒,請對方核心人員吃了頓飯,所有內(nèi)幕數(shù)據(jù)全搞定,問誰的方法是對的;
第二個段子,某電商發(fā)現(xiàn)競爭對手淘寶店,周收入突然下降了30%,但是隔周后又自然恢復,中間毫無其他異常現(xiàn)象,于是老板讓分析師分析,苦逼的分析師辛苦數(shù)日,做各種數(shù)學模型,總算找到勉強的理由自圓其說,老板讀畢,雖說不能讓人信服,卻也沒有更合理的解釋,某日,見對手老板,閑聊此事,“你們某段時間怎么突然收入下降?”“嗨,別提了,丈母娘去世了,回家奔喪,公司放羊了?!崩习寤腥淮笪颉?/span>
兩個段子,第一個段子,微博上一邊倒的說,苦逼分析沒有人脈有用;第二個段子類似,一邊倒的認為,人脈的消息比苦逼分析管用多了。但是我想說的是,這個解讀絕對是錯的!
先說第一個段子,其實網(wǎng)絡不乏這種“人脈達人”,特別是媒體圈,一些所謂的“IT名記”或者“著名評論家、分析師”和各種互聯(lián)網(wǎng)大佬稱兄道弟,天天秘聞不斷,但是呢?他們從不研究產(chǎn)品,不分析用戶,所以,他們知道了數(shù)據(jù),卻不懂數(shù)據(jù)背后是什么,更不知道什么是重要的,什么是次要的,我有時會批評身邊這樣的朋友,別天天覺得自己知道幾個互聯(lián)網(wǎng)大佬的花邊新聞,就當自己是資深業(yè)內(nèi)人士了,正因為掌握這些東西又覺得炫耀,才反而忽視了真正有價值的信息和有價值的數(shù)據(jù)。這就是為什么混網(wǎng)絡媒體的,見過市面的各種達人,在互聯(lián)網(wǎng)創(chuàng)業(yè)浪潮里,幾乎沒有成功幾率的真實原因,自以為人脈廣泛,無所不知,其實正因為缺乏最基本的數(shù)據(jù)背景分析,所以才是看上去什么都懂,細究下其實什么都不懂。請記住一點,除非你是富二代,官二代,銜著金鑰匙出生,那不在我的討論范圍里,否則,沒有苦逼的經(jīng)歷,就沒有牛逼的成就。
我常訂閱一些著名分析師的微博,他們透露的數(shù)據(jù)往往是很有價值的(這是我訂閱的原因),但是他們的解讀通常是慘不忍睹的,這就是只看表象的惡果,而且隨便翻看一下他們的數(shù)據(jù)解讀,可以說他們的數(shù)據(jù)感和數(shù)據(jù)認知貧乏到可笑,甚至缺乏最基本的數(shù)據(jù)校核和考證的能力,他們拿到了某公司核心數(shù)據(jù)又怎樣?沒經(jīng)歷過苦逼的分析,他們其實什么都看不到。
第二個段子同理,如果不是持續(xù)有效的數(shù)據(jù)跟蹤,怎么能得出下降30%的結(jié)論,這一數(shù)據(jù)結(jié)論與人脈得到的消息相互驗證,才會得到完整真實的結(jié)果,否則僅僅是閑聊,你怎能知道對方企業(yè)管理對業(yè)績影響的范疇,苦逼的分析也許一時沒有人脈的消息管用,但是你所得到的對數(shù)據(jù)的認知和積累,是人脈永遠不會給你的。
所以,再次強調(diào),基本的數(shù)據(jù)跟蹤和日常的數(shù)據(jù)感養(yǎng)成,絕不是可以忽略和無視的。人脈情報可以成為數(shù)據(jù)解讀重要的信息來源,但是絕不能喧賓奪主,替代基本的數(shù)據(jù)分析工作。
下面說一下數(shù)據(jù)感,什么是數(shù)據(jù)感?就是別人說一個數(shù)據(jù)出來,你會琢磨一下這個是否符合常理,與你日常的數(shù)據(jù)觀測經(jīng)驗是否一致,如果不一致,那么可能的理由是哪些? 比如12306號稱一天幾十億次點擊,如果你有數(shù)據(jù)感,第一眼就會質(zhì)疑這個“點擊”定義的合理性;比如曾經(jīng)有人說某國內(nèi)圖片分享網(wǎng)站一天多少億訪問量,第一眼就知道這個“訪問量”定義是有歧義的,(事后官方解釋是圖片加載量,這個和訪問量差異幾十倍。) 數(shù)據(jù)感需要不斷的培養(yǎng),和基本的邏輯(比如你應該知道中國有多少網(wǎng)民,每天有多少人上網(wǎng),一個大概什么類型,什么排名的網(wǎng)站會覆蓋網(wǎng)民的比例是多少),以及善于利用各種工具,我以前在巨頭公司,得益于公司巨大的數(shù)據(jù)資源,可以看到很多互聯(lián)網(wǎng)的核心數(shù)據(jù);但是離開后,才發(fā)現(xiàn),其實互聯(lián)網(wǎng)上公開可獲取的數(shù)據(jù)途徑是非常多的,而且善于利用的話非常有效。每天去查詢一些感興趣的數(shù)據(jù),經(jīng)過一段時間積累,想沒有數(shù)據(jù)感都難。
作為公司或團隊負責人,怎么培養(yǎng)員工的數(shù)據(jù)感,我其實也有一個建議,平時可以搞一些小的競猜,比如團隊集體競猜新產(chǎn)品或產(chǎn)品改版上線后的日活躍用戶,或者pv數(shù)字,或者收入數(shù)據(jù),等等;然后看誰的最準,一種是懲罰制,最不準的請最準的喝奶茶,吃冰淇淋;另一種不懲罰,最準的累計積分后公司可以發(fā)一些獎品鼓勵,這樣下去大家的數(shù)據(jù)感就會在日常培養(yǎng)起來,而且對團隊的氣氛培養(yǎng)也有幫助。
數(shù)據(jù)感之后,談數(shù)據(jù)分析的方法,我的建議是,不炫技,不苛求技術(shù)復雜度,最簡單的數(shù)據(jù),所包含的信息往往是最有價值的,而很多人恰恰這一步都沒做好,就總想著弄一堆挖掘算法;數(shù)據(jù)的價值在于正確的解讀,而不是處理算法的復雜度,切不可喧賓奪主。 大公司的kpi制度,往往會產(chǎn)生偏差,比如技術(shù)工程師的評定,要講究“技術(shù)復雜度”、“技術(shù)領先性”,直接導致簡單的事情沒人肯做,最基本的工作不認真做!所以往往是大公司的分析工程師,為了評高級工程師,非要簡單問題復雜化,四則運算就搞定的事情一定要弄一套詭異的算法,最終非但浪費了資源,消耗了時間,而且往往由于工程師對業(yè)務理解的漠視,對應的產(chǎn)品人員又對算法的陌生,導致了嚴重的理解歧義,從而出現(xiàn)各種誤讀。
下面說關(guān)鍵,數(shù)據(jù)解讀,正確的數(shù)據(jù)解讀,是所有數(shù)據(jù)分析工作最關(guān)鍵的一步,這一步錯了,前面的所有努力都是白搭,然后,往往很多人簡單的以為“數(shù)據(jù)會說話”,他們認為把數(shù)據(jù)處理完一擺就ok了,所以我看到很多知名分析師拿著正確的數(shù)據(jù)信口胡謅;而更有甚者,顯然是故意的行為,一個非常非常著名的、口碑極佳的跨國企業(yè),曾經(jīng)就同一份很酷的數(shù)據(jù),在不同的場合下,為了市場公關(guān)的需求,做出不同的解讀;這簡直就是道德問題了。
數(shù)據(jù)解讀,不能是為了迎合誰,要遵循數(shù)據(jù)的本質(zhì),要遵循科學的邏輯,要有想象力(配合求證),可能有時候也需要依賴人脈關(guān)系所獲得的情報,(這個也有很多典型范例),這個具體再怎么說可能我也說不清楚,說幾個反面例子也許更容易理解。
1、因果關(guān)聯(lián)錯誤,或忽略關(guān)鍵因素,A和B的數(shù)據(jù)高度相關(guān),有人就片面認為A影響了B,或者B影響了A;但是,有時候真實原因是C同時影響了A和B,有時候C被忽略掉了。
2、忽略沉默的大多數(shù),特別是網(wǎng)上投票,調(diào)查,極易產(chǎn)生這種偏差,參與者往往有一定的共同訴求,而未參與者往往才是主流用戶。
3、數(shù)據(jù)定義錯誤,或理解歧義,在技術(shù)與市場、產(chǎn)品人員溝通中產(chǎn)生信息歧義,直接導致所處理的數(shù)據(jù)和所需求的數(shù)據(jù)有偏差,結(jié)果顯著不正確。
4、強行匹配;不同公司,不同領域的數(shù)據(jù)定義可能不一致,在同一個公司內(nèi)或領域內(nèi)做對比,往往沒有問題,大家對此都很習慣,卻有評論家不懂裝懂,強行將不同定義的數(shù)據(jù)放在一起對比做結(jié)論,顯著失真;海外著名金融機構(gòu)在分析中國頁游和端游市場就連續(xù)犯這類錯誤。
5、忽略前提;有些數(shù)據(jù)結(jié)論是基于某種前提,符合某種特定場景下得出的,但是解讀者有意或無意忽略前提,將結(jié)論擴大化,顯著誤讀。
6、忽略交互;在商業(yè)模式改造和產(chǎn)品改進,往往都會出這類問題,最簡單說,你游戲中的道具降價,對收入的影響是增還是減?如果忽略交互,僅僅依賴于數(shù)據(jù)推算,當然是減,但是實際呢?做運營的都知道。
7、缺乏常識;如果對一些重要的紀念日,節(jié)日,或者網(wǎng)購節(jié)不了解,那去處理有關(guān)數(shù)據(jù)顯然就不知所云了。做行業(yè)報告更是如此,很難想像對行業(yè)不了解的人能做出怎樣的報告。
8、無視樣本偏差;我們通常做數(shù)據(jù)調(diào)研,是基于樣本數(shù)據(jù),而采樣過程本身很難做到完全的公平和分散,樣本偏差要控制在合理范疇內(nèi),即便無法控制,在結(jié)論中也需要標注;這才是嚴謹?shù)臄?shù)據(jù)解讀,對樣本偏差視而不見,甚至為了某種宣傳目的刻意尋找偏差的樣本,都不可能做出好的數(shù)據(jù)結(jié)論。
那么, 數(shù)據(jù)處理也多說一點,雖說是個技術(shù)活,但是有些不那么技術(shù)的事情,也必須做到位才行;很多時候,我看到一個數(shù)據(jù),不符合我的預期,我第一反應,是了解數(shù)據(jù)來源和處理邏輯,我們通常面對的數(shù)據(jù),包括大量的干擾,噪音數(shù)據(jù),以及一些識別上容易產(chǎn)生歧義甚至誤判的數(shù)據(jù),這都是需要處理的,很多時候工程師只關(guān)心算法層面、效率層面,不愿意也不關(guān)心這些東西,所得出的數(shù)據(jù)結(jié)論失真度就非常高,越是大公司,這種情況越普遍;在我效力的巨頭公司時,這樣的范例非常多,處理方法其實很簡單,多看看源數(shù)據(jù),對中間的噪音和干擾數(shù)據(jù)正確識別標注,對容易誤判的數(shù)據(jù)進行二次判定,全是苦力活,沒啥技術(shù)含量,但是這是必須的。
最后,很多人想知道我怎么看數(shù)據(jù),或者想問我,他們每天看很多數(shù)據(jù),不知道怎么去看,我其實有很簡單的三板斧,一學就會,一用就靈,對常見的數(shù)據(jù)場景,可解決絕大部分日常需求。 簡單說就是“對比,細分,溯源” 六字真言,沒了。
對比,數(shù)據(jù)放在那里,是沒意義的,你說你游戲周流失率80%,啥情況?不知道,你問我我也不知道。對比起來才知道。
一是橫比,你拿出50款游戲來比,別人平均流失率90%,你80%,你游戲還不錯勒,別人要平均流失65%,你80%,這就有問題了。
二是縱比,和自己時間軸比,你兩個月前1.0版本流失率90%,你現(xiàn)在80%,有進步么,你要是兩個月前是50%,現(xiàn)在80%,好好反思嘍。
所以,我特別強調(diào),在通常企業(yè)數(shù)據(jù)監(jiān)控,顯示一大屏數(shù)據(jù)的界面上,對比特征要最大體現(xiàn),比如所有同比下降超過多少比例的一概紅色體現(xiàn),所有上升多少比例的一概綠色體現(xiàn),公司運營狀況一目了然。
細分,數(shù)據(jù)出現(xiàn)對比異常,你當然想知道原因,那就需要細分了。
細分先分緯度,再分粒度,什么是緯度?你按照時間去分,就是時間緯度,按照地區(qū)去分,就是地區(qū)緯度,按照來路去分,就是來路緯度,按照受訪去分,就是受訪緯度;你說今天網(wǎng)站訪問量漲了5%,咋回事不知道,你細分一看,大部分網(wǎng)頁都沒漲,某個頻道某個活動頁漲了300%,這就清楚了,這就是細分最簡單的范例,其實很多領域都通用。 粒度是什么,你時間緯度,是按照天,還是按照小時?這就是粒度差異,你來路緯度,是來路的網(wǎng)站,還是來路的url,這就是粒度的差異;這樣可以將對比的差異值逐級鎖定,尋找原因。
溯源,有時候我對比,細分鎖定到具體緯度,具體粒度了,依然沒有結(jié)論,怎么辦,溯源,依據(jù)鎖定的這個緯度和粒度作為搜索條件,查詢所涉及的源日志,源記錄,然后基于此分析和反思用戶的行為,往往會有驚人的發(fā)現(xiàn),我們正是基于這一邏輯發(fā)現(xiàn)過產(chǎn)品的一些缺陷,而且你不斷通過這個方式分析數(shù)據(jù),對用戶行為的理解也會逐步加深。
其實,這個話題還有很多延伸,比如,如何看一個年輕人有沒有數(shù)據(jù)分析潛質(zhì);以及如何培養(yǎng)數(shù)據(jù)分析和產(chǎn)品分析人才,等等,不過,就這樣吧。今天說的不少了,我水平有限,吃飯的就這幾招,而且又老又笨,大家都會了我離下崗也不遠了,您就湊活看吧。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11