
數(shù)據(jù)處理流程和數(shù)據(jù)分析方法
大數(shù)據(jù)分析這件事用一種非技術(shù)的角度來看的話,就可以分成金字塔,自底向上的是三個(gè)部分,第一個(gè)部分是數(shù)據(jù)采集,第二個(gè)部分是數(shù)據(jù)建模,第三個(gè)部分是數(shù)據(jù)分析,我們來分別看一下。
【數(shù)據(jù)采集】
首先來說一下數(shù)據(jù)采集,我在百度干了有七年是數(shù)據(jù)相關(guān)的事情。我最大的心得——數(shù)據(jù)這個(gè)事情如果想要更好,最重要的就是數(shù)據(jù)源,數(shù)據(jù)源這個(gè)整好了之后,后面的事情都很輕松。
用一個(gè)好的查詢引擎、一個(gè)慢的查詢引擎無非是時(shí)間上可能消耗不大一樣,但是數(shù)據(jù)源如果是差的話,后面用再?gòu)?fù)雜的算法可能都解決不了這個(gè)問題,可能都是很難得到正確的結(jié)論。
我覺得好的數(shù)據(jù)處理流程有兩個(gè)基本的原則,一個(gè)是全,一個(gè)是細(xì)。
● 全:就是說我們要拿多種數(shù)據(jù)源,不能說只拿一個(gè)客戶端的數(shù)據(jù)源,服務(wù)端的數(shù)據(jù)源沒有拿,數(shù)據(jù)庫(kù)的數(shù)據(jù)源沒有拿,做分析的時(shí)候沒有這些數(shù)據(jù)你可能是搞歪了。另外,大數(shù)據(jù)里面講的是全量,而不是抽樣。不能說只抽了某些省的數(shù)據(jù),然后就開始說全國(guó)是怎么樣??赡苡行┦》浅L厥?,比如新疆、西藏這些地方它客戶端跟內(nèi)地可能有很大差異的。
● 細(xì):其實(shí)就是強(qiáng)調(diào)多維度,在采集數(shù)據(jù)的時(shí)候盡量把每一個(gè)的維度、屬性、字段都給它采集過來。比如:像 where、who、how 這些東西給它替補(bǔ)下來,后面分析的時(shí)候就跳不出這些能夠所選的這個(gè)維度,而不是說開始的時(shí)候也圍著需求。根據(jù)這個(gè)需求確定了產(chǎn)生某些數(shù)據(jù),到了后面真正有一個(gè)新的需求來的時(shí)候,又要采集新的數(shù)據(jù),這個(gè)時(shí)候整個(gè)迭代周期就會(huì)慢很多,效率就會(huì)差很多,盡量從源頭抓的數(shù)據(jù)去做好采集。
有了數(shù)據(jù)之后,就要對(duì)數(shù)據(jù)進(jìn)行加工,不能把原始的數(shù)據(jù)直接報(bào)告給上面的業(yè)務(wù)分析人員,它可能本身是雜亂的,沒有經(jīng)過很好的邏輯的。
這里就牽扯到數(shù)據(jù)建框,首先,提一個(gè)概念就是數(shù)據(jù)模型。許多人可能對(duì)數(shù)據(jù)模型這個(gè)詞產(chǎn)生一種畏懼感,覺得模型這個(gè)東西是什么高深的東西,很復(fù)雜,但其實(shí)這個(gè)事情非常簡(jiǎn)單。
我春節(jié)期間在家干過一件事情,我自己家里面家譜在文革的時(shí)候被燒教了,后來家里的長(zhǎng)輩說一定要把家譜這些東西給存檔一下,因?yàn)槲視?huì)電腦,就幫著用電腦去理了一下這些家族的數(shù)據(jù)這些關(guān)系,整個(gè)族譜這個(gè)信息。
我們現(xiàn)實(shí)是一個(gè)個(gè)的人,家譜里面的人,通過一個(gè)樹型的結(jié)構(gòu),還有它們之間數(shù)據(jù)關(guān)系,就能把現(xiàn)實(shí)實(shí)體的東西用幾個(gè)簡(jiǎn)單圖給表示出來,這里就是一個(gè)數(shù)據(jù)模型。
數(shù)據(jù)模型就是對(duì)現(xiàn)實(shí)世界的一個(gè)抽象化的數(shù)據(jù)的表示。我們這些創(chuàng)業(yè)公司經(jīng)常是這么一個(gè)情況,我們現(xiàn)在這種業(yè)務(wù),一般前端做一個(gè)請(qǐng)求,然后對(duì)請(qǐng)求經(jīng)過處理,再更新到數(shù)據(jù)庫(kù)里面去,數(shù)據(jù)庫(kù)里面建了一系列的數(shù)據(jù)表,數(shù)據(jù)表之間都是很多的依賴關(guān)系。
比如,就像我圖片里面展示的這樣,這些表一個(gè)業(yè)務(wù)項(xiàng)發(fā)展差不多一年以上它可能就牽扯到幾十張甚至上百?gòu)垟?shù)據(jù)表,然后把這個(gè)表直接提供給業(yè)務(wù)分析人員去使用,理解起來難度是非常大的。
這個(gè)數(shù)據(jù)模型是用于滿足你正常的業(yè)務(wù)運(yùn)轉(zhuǎn),為產(chǎn)品正常的運(yùn)行而建的一個(gè)數(shù)據(jù)模型。但是,它并不是一個(gè)針對(duì)分析人員使用的模型。如果,非要把它用于數(shù)據(jù)分析那就帶來了很多問題。比如:它理解起來非常麻煩。
另外,數(shù)據(jù)分析很依賴表之間的這種格子,比如:某一天我們?yōu)榱颂嵘阅?,?duì)某一表進(jìn)行了拆分,或者加了字段、刪了某個(gè)字短,這個(gè)調(diào)整都會(huì)影響到你分析的邏輯。
這里,最好要針對(duì)分析的需求對(duì)數(shù)據(jù)重新進(jìn)行解碼,它內(nèi)容可能是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數(shù)據(jù)來說,就可以對(duì)它進(jìn)行一個(gè)抽象,然后重新把它作為一個(gè)判斷表。
用戶在產(chǎn)品上進(jìn)行的一系列的操作,比如瀏覽一個(gè)商品,然后誰瀏覽的,什么時(shí)間瀏覽的,他用的什么操作系統(tǒng),用的什么瀏覽器版本,還有他這個(gè)操作看了什么商品,這個(gè)商品的一些屬性是什么,這個(gè)東西都給它進(jìn)行了一個(gè)很好的抽象。這種抽樣的很大的好處很容易理解,看過去一眼就知道這表是什么,對(duì)分析來說也更加方便。
在數(shù)據(jù)分析方,特別是針對(duì)用戶行為分析方面,目前比較有效的一個(gè)模型就是多維數(shù)據(jù)模型,在線分析處理這個(gè)模型,它里面有這個(gè)關(guān)鍵的概念,一個(gè)是維度,一個(gè)是指標(biāo)。
維度比如城市,然后北京、上海這些一個(gè)維度,維度西面一些屬性,然后操作系統(tǒng),還有 IOS、安卓這些就是一些維度,然后維度里面的屬性。
通過維度交叉,就可以看一些指標(biāo)問題,比如用戶量、銷售額,這些就是指標(biāo)。比如,通過這個(gè)模型就可以看來自北京,使用 IOS 的,他們的整體銷售額是怎么樣的。
這里只是舉了兩個(gè)維度,可能還有很多個(gè)維度。總之,通過維度組合就可以看一些指標(biāo)的數(shù),大家可以回憶一下,大家常用的這些業(yè)務(wù)的數(shù)據(jù)分析需求是不是許多都能通過這種簡(jiǎn)單的模式給抽樣出來。
四、數(shù)據(jù)分析方法
接下來看一下互聯(lián)網(wǎng)產(chǎn)品采用的數(shù)據(jù)分析方法。
對(duì)于互聯(lián)網(wǎng)產(chǎn)品常用的用戶消費(fèi)分析來說,有四種:
(1) 第一種是多維事件的分析,分析維度之間的組合、關(guān)系。
(2)第二種是漏斗分析,對(duì)于電商、訂單相關(guān)的這種行為的產(chǎn)品來說非常重要,要看不同的渠道轉(zhuǎn)化這些東西。
(3)第三種留存分析,用戶來了之后我們希望他不斷的來,不斷的進(jìn)行購(gòu)買,這就是留存。
(4)第四種回訪,回訪是留存的一種特別的形式,可以看他一段時(shí)間內(nèi)訪問的頻次,或者訪問的時(shí)間段的情況
【方法 1:多維事件分析法】
首先來看多維事件的分析,這塊常見的運(yùn)營(yíng)、產(chǎn)品改進(jìn)這種效果分析。其實(shí),大部分情況都是能用多維事件分析,然后對(duì)它進(jìn)行一個(gè)數(shù)據(jù)上的統(tǒng)計(jì)。
1. 【三個(gè)關(guān)鍵概念】
這里面其實(shí)就是由三個(gè)關(guān)鍵的概念,一個(gè)就是事件,一個(gè)是維度,一個(gè)是指標(biāo)組成。
l 事件就是說任何一個(gè)互聯(lián)網(wǎng)產(chǎn)品,都可以把它抽象成一系列事件,比如針對(duì)電商產(chǎn)品來說,可抽象到提交、訂單、注冊(cè)、收到商品一系列事件用戶行為。
l 每一個(gè)事件里面都包括一系列屬性。比如,他用操作系統(tǒng)版本是否連 wifi;比如,訂單相關(guān)的運(yùn)費(fèi),訂單總價(jià)這些東西,或者用戶的一些職能屬性,這些就是一系列維度。
l 基于這些維度看一些指標(biāo)的情況。比如,對(duì)于提交訂單來說,可能是他總提交訂單的次數(shù)做成一個(gè)指標(biāo),提交訂單的人數(shù)是一個(gè)指標(biāo),平均的人均次數(shù)這也是一個(gè)指標(biāo);訂單的總和、總價(jià)這些也是一個(gè)指標(biāo),運(yùn)費(fèi)這也是一個(gè)指標(biāo),統(tǒng)計(jì)一個(gè)數(shù)后就能把它抽樣成一個(gè)指標(biāo)。
2. 【多維分析的價(jià)值】
來看一個(gè)例子,看看多維分析它的價(jià)值。
比如,對(duì)于訂單支付這個(gè)事件來說,針對(duì)整個(gè)總的成交額這條曲線,按照時(shí)間的曲線會(huì)發(fā)現(xiàn)它一路在下跌。但下跌的時(shí)候,不能眼睜睜的看著它,一定要分析原因。
怎么分析這個(gè)原因呢?常用的方式就是對(duì)維度進(jìn)行一個(gè)拆解,可以按照某些維度進(jìn)行拆分,比如我們按照地域,或者按照渠道,或者按照其他一些方式去拆開,按照年齡段、按照性別去拆開,看這些數(shù)據(jù)到底是不是整體在下跌,還是說某一類數(shù)據(jù)在下跌。
這是一個(gè)假想的例子——按照支付方式進(jìn)行拆開之后,支付方式有三種,有用支付寶、阿里 PAY,或者用微信支付,或者用銀行看內(nèi)的支付這三種方式。
通過數(shù)據(jù)可以看到支付寶、銀行支付基本上是一個(gè)沉穩(wěn)的一個(gè)狀態(tài)。但是,如果看微信支付,會(huì)發(fā)現(xiàn)從最開始最多,一路下跌到非常少,通過這個(gè)分析就知道微信這種支付方式,肯定存在某些問題。
比如:是不是升級(jí)了這個(gè)接口或者微信本身出了什么問題,導(dǎo)致了它量下降下去了?
【方法 2:漏斗分析】
漏斗分析會(huì)看,因?yàn)閿?shù)據(jù),一個(gè)用戶從做第一步操作到后面每一步操作,可能是一個(gè)雜的過程。
通過這個(gè)漏斗,就能分析一步步的轉(zhuǎn)化情況,然后每一步都有流失,可以分析不同的渠道其轉(zhuǎn)化情況如何。比如,打廣告的時(shí)候發(fā)現(xiàn)來自百度的用戶漏斗轉(zhuǎn)化效果好,就可能在廣告投放上就在百度上多投一些。
【方法 3:留存分析】
比如,搞一個(gè)地推活動(dòng),然后來了一批注冊(cè)用戶,接下來看它的關(guān)鍵行為上面操作的特征,比如當(dāng)天它有操作,第二天有多少人會(huì)關(guān)鍵操作,第 N 天有多少操作,這就是看它留下來這個(gè)情況。
【方法 4:回訪分析】
回訪就是看進(jìn)行某個(gè)行為的一些中度特征,如對(duì)于購(gòu)買黃金這個(gè)行為來說,在一周之內(nèi)至少有一天購(gòu)買黃金的人有多少人,至少有兩天的有多少人,至少有 7 天的有多少人,或者說購(gòu)買多少次數(shù)這么一個(gè)分布,就是回訪回購(gòu)這方面的分析。
上面說的四種分析結(jié)合起來去使用,對(duì)一個(gè)產(chǎn)品的數(shù)據(jù)支撐、數(shù)據(jù)驅(qū)動(dòng)的這種深度就要比只是看一個(gè)宏觀的訪問量或者活躍用戶數(shù)就要深入很多。
五、運(yùn)營(yíng)分析實(shí)踐
下面結(jié)合個(gè)人在運(yùn)營(yíng)和分析方面的實(shí)踐,給大家分享一下。
【案例 1:UGC 產(chǎn)品】
首先,來看 UGC 產(chǎn)品的數(shù)據(jù)分析的例子??赡軙?huì)分析它的訪問量是多少,新增用戶數(shù)是多少,獲得用戶數(shù)多少,發(fā)帖量、減少量。
諸如貼吧、百度知道,還有知乎都屬于這一類的產(chǎn)品。對(duì)于這樣一個(gè)產(chǎn)品,會(huì)有很多數(shù)據(jù)指標(biāo),可以從某一個(gè)角度去觀察這個(gè)產(chǎn)品的情況。那么,問題就來了——這么多的指標(biāo),到底要關(guān)注什么?不同的階段應(yīng)該關(guān)注什么指標(biāo)?這里,就牽扯到一個(gè)本身指標(biāo)的處理,還有關(guān)鍵指標(biāo)的問題。
【案例 2:流失用戶召回】
這種形式可能對(duì)其他產(chǎn)品就很有效,但是對(duì)我們這個(gè)產(chǎn)品來說,因?yàn)槲覀冞@是一個(gè)相對(duì)來說目標(biāo)比較明確并且比較小眾一點(diǎn)的差別,所以這個(gè)投放的效果可能就沒那么明顯。
在今年元旦的時(shí)候,因?yàn)橹吧暾?qǐng)?jiān)囉梦覀兡莻€(gè)產(chǎn)品已經(jīng)有很多人,但是這里面有一萬人我們給他發(fā)了帳號(hào)他也并沒有回來,我們過年給大家拜拜年,然后去匯報(bào)一下進(jìn)展看能不能把他們撈過來一部分。
這是元旦的時(shí)候我們產(chǎn)品的整體用戶情況,到了元旦為止,9月25號(hào)發(fā)布差不多兩三個(gè)月時(shí)間,那個(gè)時(shí)候差不多有 1490 個(gè)人申請(qǐng)?jiān)囉昧宋覀冞@個(gè)產(chǎn)品。但是,真正試用的有 724 個(gè),差不多有一半,另外一半就跑了,就流失了。
我們就想把這部分人抽出來給他們進(jìn)行一個(gè)招回活動(dòng),這里面流失用戶我們就可以把列表導(dǎo)出來,這是我們自己的產(chǎn)品就有這樣的功能。有人可能疑惑我們?cè)趺茨玫接脩舻倪@些信息呢?
這些不至于添加,因?yàn)槲覀兩暾?qǐng)?jiān)囉玫臅r(shí)候就讓他填一下姓名、聯(lián)系方式,還有他的公司這些信息。對(duì)于填郵箱的我們就給發(fā)郵件的,對(duì)于發(fā)手機(jī)號(hào)的我們就給他發(fā)短信,我們分析這兩種渠道帶來的效果。
先說總體,總體我們發(fā)了 716 個(gè)人,這里面比前面少了一點(diǎn),我把一些不靠譜的這些信息人工給它干掉了。接下來,看看真正有 35 個(gè)人去體驗(yàn)了這個(gè)產(chǎn)品,然后 35 個(gè)人里面有 4 個(gè)人申請(qǐng)接入數(shù)據(jù)。
因?yàn)槲覀冊(cè)诋a(chǎn)品上面做了一個(gè)小的改進(jìn),在測(cè)試環(huán)境上面,對(duì)于那些測(cè)試環(huán)境本身是一些數(shù)據(jù)他玩一玩,玩了可能感興趣之后就會(huì)試一下自己的真實(shí)數(shù)據(jù)。這個(gè)時(shí)候,我們上來有一個(gè)鏈接引導(dǎo)他們?nèi)ド暾?qǐng)接入自己的數(shù)據(jù),走到這一步之后就更可能轉(zhuǎn)化成我們的正式客戶。
這兩種方式轉(zhuǎn)化效果我們其實(shí)也很關(guān)心,招回的效果怎么樣,我們看下面用紅框表示出來,郵件發(fā)了 394 封。最終有 32 個(gè)人真正過來試用了,電話手機(jī)號(hào)322 封,跟郵件差不多,但只有 3 個(gè)過來,也就是說兩種效果差了 8 倍。
這其實(shí)也提醒大家,短信這種方式可能許多人看短信的比較少。當(dāng)然,另一方面跟我們自己產(chǎn)品特征有關(guān)系,我們這個(gè)產(chǎn)品是一個(gè) PC 上用起來更方便的一個(gè)產(chǎn)品。許多人可能在手機(jī)上看到這個(gè)鏈接也不方便點(diǎn)開,點(diǎn)開之后輸入帳號(hào)也麻煩一點(diǎn)。所以,導(dǎo)致這個(gè)效果比較差。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03