
淺談數(shù)據(jù)分析中的“暗物質(zhì)”
我們分析數(shù)據(jù),更重要的是看到數(shù)據(jù)中所隱藏的暗物質(zhì),即數(shù)據(jù)圖中你看不見的數(shù)據(jù)\邏輯\知識(shí)。
開門見山,以下是某新聞媒體WAP\APP\PC三端的分周中和周末的PV曲線,下面嘗試分析其中是否存在某種規(guī)律。
圖一:newsAPP某周一庫(kù)存
圖二:newsAPP某周日庫(kù)存
1.數(shù)據(jù)的準(zhǔn)確性和代表性
在分析數(shù)據(jù)之前,有一個(gè)非常重要的事情,大家往往會(huì)忽略,那就是數(shù)據(jù)的置信度是多少。
如果數(shù)據(jù)的準(zhǔn)確性本身存在問題,那能產(chǎn)出正確結(jié)果的概率與買彩票中獎(jiǎng)的概率大概相差無(wú)幾。即便數(shù)據(jù)是準(zhǔn)確地,那還得證明數(shù)據(jù)具有代表性,你是不是只抽取了一天的數(shù)據(jù),你是不是只抽取了一端的數(shù)據(jù)。
自然,很多時(shí)候,你必須要進(jìn)行抽樣,那你更要謹(jǐn)慎了,因素那么多,你要保證自己在數(shù)據(jù)采樣過程中,考慮了應(yīng)該考慮的因素。當(dāng)然,這些數(shù)據(jù)對(duì)于這個(gè)結(jié)論很具有代表性,對(duì)于另一個(gè)分析目的卻有可能完全沒有代表性,這些都不能一概而論。
總之,數(shù)據(jù)準(zhǔn)確性這個(gè)問題基本上要在分析之前給出確定的答案。而數(shù)據(jù)是否具有代表性這個(gè)問題由于比較復(fù)雜,盡可能的在分析之前考慮清楚的同時(shí),在分析過程中,一定要隨時(shí)保持著質(zhì)疑精神,每向前一步,都要重新考慮數(shù)據(jù)樣本是否還具有代表性。
圖三:newsWAP某周一庫(kù)存
圖四:newsWAP某周末庫(kù)存
2.看圖說話
以下圖中數(shù)據(jù)經(jīng)受過了我們多方位的考驗(yàn),所以數(shù)據(jù)基本準(zhǔn)確,代表性具體要看你的分析目的。
基本確定了準(zhǔn)確性和代表性后,懷著高度質(zhì)疑的精神,讓我們開始我們的分析之旅。
首先,單獨(dú)來看每一個(gè)圖,大家可以很清晰的理解,這六條PV曲線都是與用戶的行為息息相關(guān)的。從各條PV曲線的變化來看,用戶7:00-8:00起床的比較多,22:00是一個(gè)大家進(jìn)入休息比較集中的時(shí)間點(diǎn)。凌晨的2:00-5:00是用戶活動(dòng)的低谷,而波峰在時(shí)間上一般是20:00-22:00。
圖五:newsPC某周一庫(kù)存
圖六:newsPC某周日庫(kù)存
3.多項(xiàng)對(duì)比
說到這里,細(xì)心的大家可能對(duì)圖五\圖六中的數(shù)據(jù)表示質(zhì)疑。因?yàn)樗环衔覀儎偛磐瞥鰜淼囊?guī)律。
比如說,PC端一天中的波峰時(shí)間是每天的9:00-10:00,而且周一和周日的PV曲線變化非常大。 周一的數(shù)據(jù)量大周日一兩倍的樣子,而且周日白天的波動(dòng)比較緩和,而周一的波動(dòng)非常大,存在多個(gè)波峰波谷。相反,APP\WAP在周日和周一的PV總量并未出現(xiàn)明顯變化,而且曲線變化規(guī)律也大抵相同。
4.挖掘暗物質(zhì)
所謂暗物質(zhì),就是數(shù)據(jù)圖中你看不見的數(shù)據(jù)\邏輯\知識(shí)。
所謂的數(shù)據(jù)分析或者挖掘就是挖掘各個(gè)數(shù)據(jù)之前的關(guān)聯(lián),數(shù)據(jù)與暗物質(zhì)之間的關(guān)聯(lián)。
仔細(xì)想來,我在“看圖說話”中的推理其實(shí)利用了先驗(yàn)知識(shí),也就是說大家有起床后看新聞和睡覺前看新聞的習(xí)慣,事實(shí)真的是這樣嗎?事實(shí)大概確實(shí)如此,但是在分端上可就不同了。
APP\WAP都是移動(dòng)設(shè)備上可以觸及的渠道,所以基本可以與用戶的起居習(xí)慣相吻合。但是PC端并非觸手所及,并不能完全和用戶的起居相吻合,畢竟你零碎時(shí)間里可以打開手機(jī),卻不太可能去打開電腦。
上面我說到PC端并不能很好的反映用戶的起居,那他能反映用戶的什么呢。想想我們平時(shí)使用PC的場(chǎng)景,PC端數(shù)據(jù)是否能反映用戶的上班時(shí)間特性?這點(diǎn)確實(shí)能給出數(shù)據(jù)支持。
一是周一比周日PV量大,說明周末使用PC的用戶少,周中上班時(shí)間就身不由己了,所以PV量比較大。周日和周一的曲線波動(dòng)也完全能理解了,周一的PV的上漲時(shí)間落后于起居時(shí)間是因?yàn)槟鞘巧习鄷r(shí)間,延遲的一小時(shí)左右要吃飯\要擠地鐵啊,9:00左右(上班的集中時(shí)間點(diǎn))大家都坐定了,刷一下新聞,PV量也就達(dá)到最大。
9:00-11:00期間的PV量幾乎沒有太大變化,但11:00開始就開始慢慢下跌了,一直持續(xù)到12:00,這個(gè)可能與大家要逐漸去吃午飯相關(guān),經(jīng)過了12:00-14:00的午休階段,PV量存在一定上漲。
等到下午17:00,又開始下降了,到了18:00基本降得差不多了。大家基本都已經(jīng)下班了。所以,我們可以說周日創(chuàng)造PV的這些用戶,周中也會(huì)同樣創(chuàng)造PV,而周一多出來的這些PV,其用戶特征完全符合上班特性,或者說其特性完全符合朝九晚五的上班族。
5.反復(fù)求證
你的數(shù)據(jù)真的對(duì)了嗎? 那我們可以說創(chuàng)造PC端PV波動(dòng)的這些朝九晚五的用戶是國(guó)企員工嗎?我們可以說國(guó)企員工上班就是看看新聞,聊聊天嗎?那我們是否可以說互聯(lián)網(wǎng)員工上班就不看新聞。
我們?nèi)〉镁褪莵砜葱侣劦腢V產(chǎn)生的PV數(shù)據(jù),得出來的數(shù)據(jù)當(dāng)然是這樣了。互聯(lián)網(wǎng)員工的行為是否被湮沒在其他原因中了?這是我上面提到的,始終要保持質(zhì)疑精神。你的數(shù)據(jù)對(duì)于之前的分析是有代表性的,可是分析以上問題,可以說是一點(diǎn)代表性都沒有。
有些人數(shù)據(jù)分析時(shí)已經(jīng)早有結(jié)論,往往數(shù)據(jù)選擇和分析時(shí)便會(huì)不自覺的有所傾向,難免會(huì)得出與自己假設(shè)相同的結(jié)論。所以我們?cè)诘贸鼋Y(jié)論時(shí),其實(shí)還要從其他很多方面進(jìn)行求證,包括去掉某因素后,現(xiàn)象是否會(huì)消失等等。
6.你的結(jié)論真的對(duì)了嗎?
之前朋友圈流傳著這樣一個(gè)消息:有權(quán)威分析機(jī)構(gòu)經(jīng)過數(shù)據(jù)分析發(fā)現(xiàn),戰(zhàn)狼2和瘋狂動(dòng)物城的票房都很高,但兩者用戶重合度并不高。戰(zhàn)狼2的觀看用戶更喜歡喝冷飲,而瘋狂動(dòng)物城的用戶卻更喜歡奶茶。但其實(shí)瘋狂動(dòng)物城上映在冬季,而戰(zhàn)狼2上映在夏季。即便經(jīng)過反復(fù)求證,我們也只能說是結(jié)論的置信度越來越高了,并不能證明這是對(duì)的。所以,除了盡可能的反復(fù)求證,剩下的方法是就是進(jìn)行數(shù)據(jù)驅(qū)動(dòng)策略的驗(yàn)證了。驗(yàn)證可以分為對(duì)照組等等,此處不再贅述。
7.猜猜他的用戶
如果你細(xì)心一點(diǎn),便會(huì)發(fā)現(xiàn)newsAPP\WAP兩端在周日的變動(dòng)相比周一稍稍延后,這估計(jì)和大家的周末作息習(xí)慣延后有關(guān),至于為什么延后并不多,那說明主流用戶肯定不是那些“上班睡不醒,周末睡不著的”年輕人啊。
8.寫在最后
就是這幾張平時(shí)用來做實(shí)時(shí)監(jiān)控的曲線還能扯出這么多東西來?來張照片給大家。
【以下內(nèi)容來自百度】中國(guó)最著名“照片泄密案”,是由1964年《中國(guó)畫報(bào)》封面刊出的一張照片引起的。在這張照片中,大慶油田的“鐵人”王進(jìn)喜頭戴大狗皮帽,身穿厚棉襖,頂著鵝毛大雪,握著鉆機(jī)手柄眺望遠(yuǎn)方,在他身后散布著星星點(diǎn)點(diǎn)的高大井架。日本情報(bào)專家據(jù)此解開了中國(guó)當(dāng)時(shí)最大的石油基地–大慶油田的秘密。
1、他們根據(jù)照片上王進(jìn)喜的衣著判斷,只有在北緯46度至48度的區(qū)域內(nèi),冬季才有可能穿這樣的衣服,因此推斷大慶油田位于齊齊哈爾與哈爾濱之間。
2、通過照片中王進(jìn)喜所握手柄的架式,推斷出油井的直徑;
3、從王進(jìn)喜所站的鉆井與背后油田間的距離和井架密度,推斷出油田的大致儲(chǔ)量和產(chǎn)量。有了如此多的準(zhǔn)確情報(bào),日本人迅速設(shè)計(jì)出適合大慶油田開采用的石油設(shè)備。當(dāng)中國(guó)政府向世界各國(guó)征求開采大慶油田的設(shè)備方案時(shí),日本人一舉中標(biāo)。
慶幸的是,日本當(dāng)時(shí)是出于經(jīng)濟(jì)危機(jī),根據(jù)情報(bào)分析結(jié)果,向我國(guó)高價(jià)推銷煉油設(shè)施,而不是用于軍事戰(zhàn)略意圖。
所以數(shù)據(jù)分析中最重要的是什么?暗物質(zhì)?。?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10