
別落后了,開始你的第一方數(shù)據(jù)分析
一、有哪些第一方數(shù)據(jù)?
我們常說數(shù)據(jù)驅(qū)動(dòng)決策,首要的就是選擇利用什么數(shù)據(jù),今天這里主要探討的就是用“第一方數(shù)據(jù)”來驅(qū)動(dòng)決策。第一方數(shù)據(jù)簡(jiǎn)單來理解就是自有數(shù)據(jù),大多數(shù)公司的自有數(shù)據(jù)就是數(shù)據(jù)庫(kù)里面的用戶產(chǎn)生的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)分析意識(shí)高一點(diǎn)的公司在此之外,可能會(huì)嘗試通過日志收集一些用戶的行為數(shù)據(jù)。所謂行為數(shù)據(jù)就是包括進(jìn)入產(chǎn)品,瀏覽等一系列的使用行為。
所以對(duì)于一個(gè)產(chǎn)品而言,第一方數(shù)據(jù)一般就是用戶從各種來源(包含來源渠道版本等)來到產(chǎn)品開始,接下來在持續(xù)使用產(chǎn)品過程中產(chǎn)生的所有數(shù)據(jù),包括用戶業(yè)務(wù)數(shù)據(jù)和用戶的行為數(shù)據(jù)。
二、流量時(shí)代的第一方數(shù)據(jù)分析
小公司的做法
對(duì)于大多數(shù)非數(shù)據(jù)驅(qū)動(dòng)型小公司而言,都沒有自己的數(shù)據(jù)分析平臺(tái),所以大多數(shù)時(shí)候的第一方數(shù)據(jù)分析,是依賴于工程寫腳本,根據(jù)需求查數(shù)據(jù)庫(kù)去計(jì)算。
很多時(shí)候時(shí)間都浪費(fèi)在了溝通,確認(rèn)需求,寫腳本,等待結(jié)果運(yùn)算上,我相信很多公司一定有共鳴。
中大公司的做法
對(duì)于很多中大型互聯(lián)網(wǎng)公司,公司內(nèi)部也開始構(gòu)建自己的數(shù)據(jù)分析平臺(tái),并且已經(jīng)開始收集用戶的行為數(shù)據(jù)進(jìn)行分析,但是大多數(shù)對(duì)于行為的數(shù)據(jù)利用還是限制于兩種:
第一種做法還是基于Hadoop的統(tǒng)計(jì)分析,只是去統(tǒng)計(jì)一些關(guān)鍵行為的發(fā)生次數(shù),常見的就是計(jì)算頁面訪問量,獨(dú)立用戶數(shù),留存率等指標(biāo)。
第二種做法就是利用行為數(shù)據(jù)進(jìn)行個(gè)性化的數(shù)據(jù)推薦。
在過去的十幾年,流量時(shí)代,得益于人口紅利,人群較為單一,業(yè)務(wù)沒有現(xiàn)在那么垂直細(xì)分多樣化,所以大家的關(guān)注點(diǎn)都在于怎么拉新(拉取新用戶),上面這一些指標(biāo)可以比較概括的了解到產(chǎn)品的發(fā)展?fàn)顩r,并且結(jié)合渠道的維度篩選,也能滿足比較拉新流量的需求。
綜合兩類公司的做法來看,其實(shí)用戶的產(chǎn)品互動(dòng)行為數(shù)據(jù)基本上始終被當(dāng)做一個(gè)黑盒子來看,推薦算法雖然對(duì)這些數(shù)據(jù)利用的比較好但是只是一個(gè)對(duì)單用戶縱深的分析做法,而橫向的用戶分析最終止于高度匯總的報(bào)表,并不能探索和驗(yàn)證用戶在產(chǎn)品上的行為如何影響了公司的業(yè)務(wù)指標(biāo)。一個(gè)典型的現(xiàn)象就是很多產(chǎn)品的迭代決策靠的是猜測(cè)或者直覺。
三、現(xiàn)有數(shù)據(jù)分析存在的問題
但最近幾年的創(chuàng)業(yè)浪潮興起,業(yè)務(wù)越來越多樣化,人群越來越多樣化,不同于過往流量時(shí)代時(shí)人口紅利,單靠根據(jù)DAU,PV這些泛指標(biāo)指示發(fā)展?fàn)顩r,然后逼著眼睛找流量帶來新客戶,現(xiàn)在更多的是對(duì)提供用戶的留存和客戶忠誠(chéng)度的需求,所以分析這些指標(biāo)高低趨勢(shì)變化背后的原因也愈加重要了。所以如何去尋找分析背后的價(jià)值呢?
數(shù)據(jù)分析場(chǎng)景化
大多的數(shù)據(jù)分析工具,包括很多中大公司的數(shù)據(jù)分析平臺(tái),搭建的出發(fā)點(diǎn)就有一些問題,不是從解決問題的場(chǎng)景出發(fā),而是要支持多牛逼的數(shù)據(jù)交叉查詢,然后就成了純粹的基礎(chǔ)分析平臺(tái)工具,這樣越抽象,對(duì)于解決問題就會(huì)越遠(yuǎn),需要人參與解讀的就越多。對(duì)于大多數(shù)公司而言沒有專業(yè)的數(shù)據(jù)分析師,自然用市面上的通用工具就很難發(fā)揮出價(jià)值。同樣,大公司數(shù)據(jù)部門飽受詬病,也有很多原因因?yàn)楦鱾€(gè)業(yè)務(wù)線對(duì)于分析的需求不一致,要不然統(tǒng)一平臺(tái)開發(fā)迭代慢,要不然就是定制化的分析需求太多,內(nèi)耗也就很大。到最后花費(fèi)大力氣兼容的分析需求其實(shí)最后也不會(huì)用的太多,metrics太多不一定是好事,有價(jià)值才是最好的。
所以分析必須從場(chǎng)景化出發(fā),才能更快速解決問題。那么有哪些場(chǎng)景呢?一般來講,也就是公司的各個(gè)職能分析需求,例如產(chǎn)品,銷售,運(yùn)營(yíng),ERP,CRM,客服,財(cái)務(wù)等等,分析需求也就需要應(yīng)用到這些場(chǎng)景中去了。每一個(gè)場(chǎng)景都有自己關(guān)注的指標(biāo)類型,比如產(chǎn)品就是用戶持續(xù)使用情況,訪問路徑等等,銷售就是客戶轉(zhuǎn)化周期和轉(zhuǎn)化漏斗,運(yùn)營(yíng)是活動(dòng)效果監(jiān)測(cè),來源對(duì)比等等,所以需要將分析從這些場(chǎng)景所需要關(guān)注的指標(biāo)去抽離工具,能滿足這些場(chǎng)景分析的思路或者關(guān)注指標(biāo)進(jìn)行設(shè)計(jì)。
數(shù)據(jù)分析難點(diǎn)
通常數(shù)據(jù)分析難的問題在于以下幾點(diǎn):沒有分析目標(biāo)
沒有分析目標(biāo)帶來最大的兩個(gè)問題是:
第一,會(huì)收集所有的數(shù)據(jù),總覺得可能用得上,會(huì)分析。
第二,收集了很多維度的數(shù)據(jù),無從下手,不知道哪些維度可以找到問題。
不懂基本的分析方法
基本上會(huì)看整體的變化趨勢(shì)或指標(biāo),但是不太會(huì)篩選業(yè)務(wù)相關(guān)的指標(biāo)數(shù)據(jù)進(jìn)行查看,所以忽視了很多指標(biāo)是虛榮指標(biāo):
一來可能是某些指標(biāo)單調(diào)變化,無法反映真實(shí)情況。
二是沒有同期群的對(duì)比,影響數(shù)據(jù)剝離對(duì)比。
三是只注重結(jié)果,但是不會(huì)用漏斗去分析路徑,或者用自定義留存去觀察滿足某一條件用戶的實(shí)際使用情況。
不能驗(yàn)證跟蹤
在推薦系統(tǒng)中用戶的反饋很重要,同樣在數(shù)據(jù)分析過程中,我們也需要去驗(yàn)證一些分析結(jié)果,也要跟蹤改進(jìn)后的用戶效果。
四、場(chǎng)景時(shí)代的第一方數(shù)據(jù)分析
指標(biāo)會(huì)轉(zhuǎn)向跟更多業(yè)務(wù)相關(guān),并且數(shù)據(jù)不再是高度匯總的報(bào)表,而是我們能循蹈到這些報(bào)表背后的元數(shù)據(jù)關(guān)系,過去數(shù)據(jù)分析大多都是根據(jù)預(yù)想分析展開維度,基于這些維度統(tǒng)計(jì)發(fā)生次數(shù),丟失的用戶的行為路徑,所以也就很難找到背后數(shù)據(jù)組織的邏輯,打開產(chǎn)品黑盒子,利用起第一方數(shù)據(jù)分析,很重要的一點(diǎn)就是需要基于用戶維度進(jìn)行分析,例如諸葛io分析平臺(tái)就是基于用戶的。
另外一方面產(chǎn)品的業(yè)務(wù)數(shù)據(jù)大多也是從用戶的行為數(shù)據(jù)轉(zhuǎn)化過來的,所以類似諸葛io分析會(huì)記錄用戶的行為用業(yè)務(wù)維度描述,這樣了解不是一個(gè)個(gè)粗粒度的頁面訪問,而是功能模塊的流向,當(dāng)以用戶維度記錄這些流向之后,自然也就能從最后業(yè)務(wù)指標(biāo)的變化,找到流失人群或者價(jià)值人群了,那么對(duì)于提供用戶的留存度和客戶忠誠(chéng)度也就有了方向,找到價(jià)值人群的價(jià)值共性,或者彌補(bǔ)流失人群的缺陷共性。
五、第一方數(shù)據(jù)分析如何落地
對(duì)于簡(jiǎn)單的分析,可以用后臺(tái)工程師利用ELK(Elasticsearch+Logstash+Kibana)這一類的技術(shù)組件進(jìn)行搭建分析平臺(tái),但是對(duì)于更復(fù)雜的,還是不要自己搭建平臺(tái),內(nèi)耗太大,我相信隨著諸葛io,GrowingIO,AppAdhoc等這一類的平臺(tái)興起,對(duì)于大多數(shù)公司而言分析也會(huì)變得越來越簡(jiǎn)單,并且不同過去大多數(shù)據(jù)分析平臺(tái)多為第三方數(shù)據(jù)分析,雖為免費(fèi)使用,實(shí)際數(shù)據(jù)會(huì)被交換給其他平臺(tái),而這些第一方的數(shù)據(jù)分析平臺(tái)也會(huì)更加保障數(shù)據(jù)的安全性。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10