
小白學(xué)數(shù)據(jù)分析--日活躍人數(shù)分析
在數(shù)據(jù)分析的道路上走的崎嶇坎坷,同時(shí)數(shù)據(jù)分析本身是一個(gè)多面和復(fù)雜的工作,要懂得理論(統(tǒng)計(jì)、概率、數(shù)據(jù)挖掘、算法、模型)更要懂得業(yè)務(wù),懂得行業(yè)理論,還要有靈活多變的思維,想想還是很復(fù)雜和麻煩的,所講內(nèi)容不但是理論,不僅是數(shù)據(jù),盡量把這些東西綜合起來(lái),立體的來(lái)看,鄙人水平有限,很多的內(nèi)容是嘗試和改進(jìn),參考了很多的材料,在木有高人指點(diǎn)和牛人幫助的情況下,我只能借助浩瀚的網(wǎng)絡(luò)知識(shí)和自己的悟性,今天決心拿出來(lái)給各位主要是幫助大家和我一起進(jìn)步。
第一天就從一份數(shù)據(jù)的分析開(kāi)始,這里面涉及了很多的內(nèi)容,大家需要慢慢理解。
案例:
某位網(wǎng)友提供了一份游戲的日活躍賬號(hào)數(shù)的數(shù)據(jù)信息,游戲是從2011年9月份開(kāi)始了測(cè)試,到2012年2月,但是產(chǎn)品究竟表現(xiàn)如何,從PLC(產(chǎn)品生命周期----《營(yíng)銷(xiāo)管理》)來(lái)看,產(chǎn)品目前處于一個(gè)什么時(shí)期,下一步怎么來(lái)做營(yíng)銷(xiāo)和運(yùn)營(yíng)工作,這是一個(gè)需要關(guān)注的問(wèn)題。今天就從日活躍這個(gè)數(shù)據(jù)指標(biāo)的解析上簡(jiǎn)單看看PLC的解讀。
設(shè)計(jì)分析的數(shù)據(jù)指標(biāo)有很多方面,總體來(lái)說(shuō)就兩塊,收入+人氣,我們就從對(duì)人氣的分析上下手,考慮文章篇幅關(guān)系,今天單列每日活躍的分析過(guò)程,其他指標(biāo)的把握和分析基本和此相同,大家可以自己嘗試完成。
術(shù)語(yǔ)解釋?zhuān)?/span>
每日活躍用戶(DAU):每日登錄過(guò)游戲的玩家數(shù)量(重復(fù)登錄者不累加)
IB:Item-Billing,游戲中通過(guò)游戲幣交易流通的道具
APA:活躍付費(fèi)賬號(hào)數(shù)
PLC:產(chǎn)品生命周期-----《營(yíng)銷(xiāo)管理》
ARPU:平均每名玩家盈利能力
新登用戶:每日注冊(cè)成為游戲玩家的數(shù)量
每日有效活躍玩家:達(dá)到某一個(gè)指標(biāo)(一般是在線時(shí)長(zhǎng))的日活躍玩家數(shù)量
每日有效新登用戶:達(dá)到注冊(cè)并成功登錄進(jìn)行過(guò)游戲的玩家數(shù)量
為什么要看每日活躍用戶?
拋開(kāi)游戲上線初期的推廣營(yíng)銷(xiāo)因素影響后,版本隨后會(huì)進(jìn)入真正意義上的成長(zhǎng)和發(fā)展階段,這個(gè)階段也是對(duì)于游戲品質(zhì)和開(kāi)始階段投放影響的評(píng)估(當(dāng)然這種靠推廣的影響會(huì)存在一定的時(shí)效性,在對(duì)于DAU分析時(shí),要拋開(kāi)這個(gè)階段)。每日活躍用戶的變化說(shuō)明以下的原因:
人氣波動(dòng):建立每日活躍人數(shù)的彈性數(shù)值區(qū)間(閾值),當(dāng)然這點(diǎn)的預(yù)警要按照每個(gè)月的具體情況來(lái)看,比如每個(gè)月的節(jié)日,假期,學(xué)生開(kāi)學(xué)等其他因素的影響情況,建立一套因素影響指數(shù),并作用于人氣波動(dòng)的預(yù)警。
趨勢(shì)走向:綜合一個(gè)階段的日活躍變化情況,對(duì)于重大拐點(diǎn)和趨勢(shì)進(jìn)行分析,并預(yù)測(cè)下一個(gè)周期的變化形式。
產(chǎn)品質(zhì)量:從日活躍的趨勢(shì)變化和人氣波動(dòng)等其他因素綜合看產(chǎn)品版本更新,活動(dòng)設(shè)置等對(duì)于產(chǎn)品的PLC的影響,以及產(chǎn)品質(zhì)量是否符合玩家的預(yù)期(質(zhì)量的定義很廣泛,這里比如IB設(shè)計(jì),系統(tǒng)設(shè)計(jì),交互體驗(yàn)等等)。
影響因素:正如剛才所言,我們綜合一個(gè)周期的日活躍數(shù)據(jù) 和其他數(shù)據(jù)制定影響因素指數(shù),便于宏觀把控?cái)?shù)據(jù)的變化,比如進(jìn)入預(yù)警范圍的數(shù)據(jù)究竟因?yàn)檫@些影響因素的影響有多大。做到心中有數(shù)。
當(dāng)然,以上是簡(jiǎn)單的列舉了一下日活躍用戶參與的數(shù)據(jù)分析的幾個(gè)方面和作用,對(duì)于數(shù)據(jù)分析千萬(wàn)不能局限在一個(gè)指標(biāo)而進(jìn)行所謂的分析,要全面的結(jié)合其他指標(biāo)進(jìn)行衡量和分析。比如新登用戶,收入數(shù)據(jù)(充值,ARPU,APA等等)。
怎么來(lái)分析DAU?
如之前文章所說(shuō),我們主要運(yùn)用曲線圖和箱線圖來(lái)分析DAU數(shù)據(jù),如下圖,使用IBM SPSS 19進(jìn)行箱線圖的分析(其詳細(xì)過(guò)程以后在敘述)。
再次箱線圖中涉及幾個(gè)術(shù)語(yǔ)指標(biāo),先給各位再解釋一下:
方差:度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度,測(cè)度數(shù)據(jù)變異(離散)程度的最重要的指標(biāo),方差是各個(gè)數(shù)據(jù)與其算術(shù)平均數(shù)的離差平方和的平均數(shù),通常以σ2表示。方差的計(jì)量單位和量綱不便于從經(jīng)濟(jì)意義上進(jìn)行解釋?zhuān)詫?shí)際統(tǒng)計(jì)工作中多用方差的算術(shù)平方根——標(biāo)準(zhǔn)差來(lái)測(cè)度統(tǒng)計(jì)數(shù)據(jù)的差異程度。
方差和標(biāo)準(zhǔn)差也是根據(jù)全部數(shù)據(jù)計(jì)算的,它反映了每個(gè)數(shù)據(jù)與其均值相比平均相差的數(shù)值,因此它能準(zhǔn)確地反映出數(shù)據(jù)的離散程度。比如,平均日活躍為A,通過(guò)方差判定整個(gè)這個(gè)月的DAU波動(dòng)情況,以及距離A的離散程度。
期望:廣義的來(lái)說(shuō),是指人們對(duì)每樣?xùn)|西的提前勾畫(huà)出的一種標(biāo)準(zhǔn),達(dá)到了這個(gè)標(biāo)準(zhǔn)就是達(dá)到了期望值。從概率論和統(tǒng)計(jì)學(xué)中,離散型隨機(jī)變量的一切可能的取值xi與對(duì)應(yīng)的概率Pi(=xi)之積的和稱(chēng)為該離散型隨機(jī)變量的數(shù)學(xué)期望(設(shè)級(jí)數(shù)絕對(duì)收斂),記為E(x)),我們多數(shù)情況下只討論離散型期望。
中位數(shù):中位數(shù)是指將數(shù)據(jù)按大小順序排列起來(lái),形成一個(gè)數(shù)列,居于數(shù)列中間位置的那個(gè)數(shù)據(jù)。中位數(shù)用Me表示。
從中位數(shù)的定義可知,所研究的數(shù)據(jù)中有一半小于中位數(shù),一半大于中位數(shù)。中位數(shù)的作用與算術(shù)平均數(shù)相近,也是作為所研究數(shù)據(jù)的代表值。在一個(gè)等差數(shù)列或一個(gè)正態(tài)分布數(shù)列中,中位數(shù)就等于算術(shù)平均數(shù)。
在數(shù)列中出現(xiàn)了極端變量值的情況下,用中位數(shù)作為代表值要比用算術(shù)平均數(shù)更好,因?yàn)橹形粩?shù)不受極端變量值的影響;如果研究目的就是為了反映中間水平,當(dāng)然也應(yīng)該用中位數(shù)。在統(tǒng)計(jì)數(shù)據(jù)的處理和分析時(shí),可結(jié)合使用中位數(shù)。
四分位數(shù):將數(shù)據(jù)劃分為4個(gè)部分,每一個(gè)部分大約包含有1/4即25%的數(shù)據(jù)項(xiàng)。這種劃分的臨界點(diǎn)即為四分位數(shù)。它們定義如下:
Q1=第1四分位數(shù),即第25百分位數(shù);
Q2=第2四分位數(shù),即第50百分位數(shù);
Q3=第3四分位數(shù),即第75百分位數(shù)。
四分位差:四分位差又稱(chēng)內(nèi)距、也稱(chēng)四分間距(inter-quartile range),是指將各個(gè)變量值按大小順序排列,然后將此數(shù)列分成四等份,所得第三個(gè)四分位上的值與第一個(gè)四分位上的值的差。四分位差用公式表示:
Q = Q3 ? Q1
其中:Q1的位置=(n+1)/4
Q3的位置=3(n+1)/4
四分位差反映了中間50%數(shù)據(jù)的離散程度。其數(shù)值越小,說(shuō)明中間的數(shù)據(jù)越集中;數(shù)值越大,說(shuō)明中間的數(shù)據(jù)越分散。與極差(最大值與最小值之差)相比,四分位差不受極值的影響。此外,由于中位數(shù)處于數(shù)據(jù)的中間位置,因此四分位差的大小在一定程度上也說(shuō)明了中位數(shù)對(duì)一組數(shù)據(jù)的代表程度。主要用于測(cè)度順序數(shù)據(jù)的離散程度。當(dāng)然,對(duì)于數(shù)值型數(shù)據(jù)也可以計(jì)算四分位差,但不適合于分類(lèi)數(shù)據(jù)。
其以上的幾個(gè)信息的示意圖如下所示
下面我們從這個(gè)箱線圖來(lái)分析一下DAU的近期變化情況
除了2012-Jan以外,都沒(méi)有離群點(diǎn)或者極限值,相對(duì)而言,每個(gè)月游戲人數(shù)整體比較穩(wěn)定,沒(méi)有發(fā)生巨大的變化。而在2012-Jan出現(xiàn)了兩個(gè)離群值,調(diào)查發(fā)現(xiàn),是1月4日和1月5日出現(xiàn)的問(wèn)題。經(jīng)過(guò)CCU曲線分析,發(fā)現(xiàn)關(guān)鍵節(jié)點(diǎn)數(shù)據(jù)變化很小,但是24小時(shí)總體出現(xiàn)微下降,說(shuō)明玩家4日和5日的活躍數(shù)據(jù)被稀釋了,此外,通過(guò)對(duì)競(jìng)品的分析發(fā)現(xiàn)4日和5日有線上領(lǐng)取活動(dòng),再者,節(jié)后兩天學(xué)生基本需要返校和白領(lǐng)休假歸來(lái),造成數(shù)據(jù)暫時(shí)下滑。
此外,我們拿到分析數(shù)據(jù)和上圖來(lái)看,12年二月份和11年9月份的中位數(shù)較高,說(shuō)明這段時(shí)間內(nèi)的平均日活躍相對(duì)于本月來(lái)說(shuō)較高,這可以看出這段時(shí)間內(nèi),游戲內(nèi)的用戶上線較為頻繁(當(dāng)然此處要結(jié)合PCU,在線時(shí)長(zhǎng)來(lái)看更加準(zhǔn)確)。
9月份為開(kāi)始測(cè)試的月份,而2月份為假期階段,因此玩家上線的意愿相對(duì)來(lái)說(shuō)會(huì)比較高一些。這也是在意料之中的情況。
然而11年的11月份和12月份,中位數(shù)偏低,玩家上線意愿不夠強(qiáng)烈,11月份已經(jīng)非常低了,主要原因在于這一時(shí)期玩家進(jìn)入考試周期,四六級(jí),中期考試等等,屬于淡季階段。
11年10月份國(guó)慶節(jié)期間,玩家上線意愿還算不錯(cuò),但是沒(méi)有達(dá)到理想的效果,中位數(shù)低于平均水平,因此國(guó)慶假期的活動(dòng)或者推廣效果不是非常理想,間接也導(dǎo)致了下個(gè)月下滑的非常迅速,因此下次節(jié)日活動(dòng)需要進(jìn)行重新評(píng)估和調(diào)整。數(shù)據(jù)如下:
對(duì)于12年一月份的表現(xiàn)算是情理中,今年由于1月份過(guò)年,然而過(guò)年7天玩家的游戲時(shí)間其實(shí)是縮水的,沒(méi)有太多精力投入游戲,但是從箱線圖來(lái)看,表現(xiàn)還算正常。高于平均水平,活動(dòng)效果應(yīng)該比較不錯(cuò),一月份雖然出現(xiàn)了兩個(gè)離群值,但是一月份的標(biāo)準(zhǔn)差是最小的,也就是說(shuō)一月份整體的活躍趨勢(shì)穩(wěn)定,沒(méi)有大的波動(dòng)。
總體來(lái)看,如果要考察PLC,需要結(jié)合收益數(shù)據(jù),以及其他的諸如ACU,PCU,新登等數(shù)據(jù)來(lái)綜合看待PLC,但是從DAU來(lái)看(狹義來(lái)說(shuō)),人氣在幾個(gè)月來(lái)保持相對(duì)的穩(wěn)定,但是整體上經(jīng)歷了小幅的下滑,換個(gè)角度說(shuō),這款產(chǎn)品存在一些問(wèn)題,人氣持續(xù)穩(wěn)中有降,可以說(shuō)玩家度過(guò)初級(jí)的新手期后,中間的成長(zhǎng)、競(jìng)爭(zhēng)、追求階段出現(xiàn)了問(wèn)題,訴求不能滿足,導(dǎo)致人氣下滑。更加詳細(xì)具體的原因需要更多的數(shù)據(jù)綜合分析。
注:以上分析皆建立在與數(shù)據(jù)的對(duì)比之上和其他輔助的數(shù)據(jù)綜合分析上,當(dāng)分析者單純觀察一段數(shù)據(jù)時(shí),不能通過(guò)中位數(shù)高低輕易下定論認(rèn)為用戶上線頻繁與否。需要考慮很多的客觀因素。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10