
小白學數(shù)據(jù)分析--利用SPSS對DAU/MAU進行比率分析
最近在看幾個數(shù)據(jù)分析平臺的數(shù)據(jù),基本上都有DAU/MAU這個指標,這個指標很早之前就在社交游戲平臺得以廣泛使用,對于這個指標的一些解析,以前有寫過,今天換個角度,通過比率分析來具體的分析一下這個DAU/MAU。或許從中你會得到一些其他的信息。
DAU/MAU的傳統(tǒng)分析與局限性
首先,我們來看一下這個圖:
此圖總結的是2011年12月25日到2012年9月19日的DAU/MAU的比值曲線圖,可以看到初期的的變化比較劇烈,這點是因為剛剛開始測試,初期的DAU導入速度比MAU導入速度更快一些,因此此時比值相對較高,因為初期的DAU貢獻主要來自于新登用戶,DAU的快速擴張能力很強。
但是我們去除初期的幾個上線版本時期的數(shù)據(jù),得到新的曲線時,就會發(fā)現(xiàn)其實這個比值存在一些差異的情況,比如圖中的2月份,每日產生的DAU/MAU彼此之間的差異很顯著。也就是全距很大,這樣算數(shù)平均計算出來的每月DAU/MAU就會出現(xiàn)問題,不夠準確反映該月的粘性情況(其實在這里我們計算的平均月DAU/MAU是一個加權均值)。
關于剛才提到的算數(shù)平均值有時候不穩(wěn)定的原因,我這里拿出來一張8個月的箱線圖,可以看到1,4,7這三個月的每日比值是存在一些離群點的,DAU/MAU是從宏觀上來看用戶粘性和登錄情況的(一般我們都是平均一個月的DAU/MAU),如果我們看到以上的情況,那么我們DAU/MAU的這種平均計算式有問題的,這樣計算平均值(算數(shù)),就會屏蔽了真實情況,在此箱線圖為解釋該問題的說明。有關箱線圖的認識請參考我以前的文章。
下面是DAU和MAU的趨勢圖,能夠看到盡管數(shù)量級不同,但是整體曲線的走勢是一致的,這點直接反饋在DAU/MAU這個比值上,因此這個比值的參考意義就很大了。但是如剛才所言,我們是參考每個月的平均比值水平,這種做法其實如果我們要做幾個月之間的活躍和粘性分析時是不夠準確的。因此我們還要采用一些其他的辦法。
DAU
MAU
DAU/MAU的分析探討
針對這個指標我做了兩個方面的探討,第一個就是引入幾何平均數(shù)來處理這個指標,針對該方法的詳細探討這里不去詳說,主要就是對于加權均值的處理發(fā)生了變化。該方法的核心就是幾何平均數(shù)的使用,這部分知識請參見幾何平均數(shù)的概念和使用。
第二個探討就是天的主角,引入比率分析法。
比率分析主要用于對兩個變量間變量值的比率變化進行描述分析,適用于定距型變量。
比率分析能夠提供中位數(shù)、均值等基本的統(tǒng)計指標,當然了也提供離差系數(shù)(COD),價格相關微分(PRD)等等,進而刻畫出比率變量的集中趨勢和離散程度。這種比率分析實際上應用范圍和形式很廣泛。SPSS提供了比率分析的功能,此處我就用SPSS來分析一下DAU/MAU。
首先打開該模塊,如下圖所示:
打開以后我們看到如下的對話框
在此對話框中,分子我們選擇DAU,分母就是MAU,組變量就是比率分析中的分組變量,一般為名義或者序數(shù)度量。
接下來,我們打開統(tǒng)計量按鈕,彈出如下的對話框
這里面分成了集中趨勢部分、離散部分、集中指數(shù)部分、中位數(shù)百分比之內部分。
集中趨勢提供了一些基本統(tǒng)計指標,具體含義如下:
中位數(shù):小于該值的比率數(shù)與大于該值的比率數(shù)相等;
均值:比率的總和除以比率的總數(shù)所得的結果;
權重均值:分子的均值除以分母的均值所得到的結果;
置信區(qū)間:顯示均值、中位數(shù)和加權均值的置信區(qū)間,取值范圍0-100.
離散提供了測量觀察值中的變量差或分散量,具體含義如下:
AAD(Average Absolute Deviation):平均絕對偏差,計算公式為
COD(Coefficient of Dispersion):離差系數(shù)
PRD(Price-related Differential):價格相關微分,回歸系數(shù),即均值除以加權均值所得到的值;
中位數(shù)居中COV(Median Centered COV):中位數(shù)居中的方差系數(shù)
均值居中COV(Mean Centered COV):均值居中的方差系數(shù)
標準差:比率與比率均值間的偏差的平方和,再除以比率總數(shù)減一,取正的平方根所得到的值;
范圍:最大比率減去最小比率;
最大值:最大比率;
最小值:最小比率。
集中指數(shù)主要是用于度量落在某個區(qū)間的比率百分比主要有三部分:
低比例:最低比率小于1;
高比例:最高比例大于1;
中位數(shù)百分比之內:通過指定中位數(shù)的百分比而隱式定義區(qū)間大小,輸入范圍在0-100,計算區(qū)間下界(1-0.01*值)*中位數(shù),上屆(1+0.01*值)*中位數(shù)
結果分析
我們選擇,均值、中位數(shù)、均值居中COV、COD、高低比例在0.05-0.8之間。確定后看輸出結果如下:
首先看到的是摘要部分,這里看到我們選擇了8個月的數(shù)據(jù),進行分析。
隨后就是我們要看到的分析部分
首先能看到均值(mean),隨后是中位數(shù)(median)這兩列能夠大概比較一下均值與中位數(shù)之間的偏離程度。比較明顯的能夠看到在1月份和2月份的差距比較大,這種差距可以參考離散系數(shù)這一列的數(shù)值,從離散系數(shù)的大小能夠分析出該月的DAU/MAU比值的離散程度??梢钥闯鰜恚瑥囊辉路葜箅x散程度逐漸下降。
方差系數(shù)部分我們選擇了均值居中cov,1月、2月、4月的方差系數(shù)較大,因此這三個月的變化比較大。
集中系數(shù)部分我們選擇的百分比例在0.05-0.8之間,可以看到除了2月份以外,集中程度較高的是1月份、3月份、但是4月份的集中程度很低。此處,單獨看集中程度不能說明數(shù)據(jù)的穩(wěn)定,還要參考比如離散系數(shù),均值集中情況綜合分析。最后我們來看一下DAU/MAU的曲線,來驗證我們剛才所得到的結論。
從我們的比率分析以及曲線趨勢來看,從5月份以后我們的DAU/MAU比值趨于穩(wěn)定,用戶的游戲粘性和活躍情況相對開始穩(wěn)定,但是之前的1月份到4月份的情況變化比較大,需采用其他輔助的形式予以判斷。從DAU/MAU的這個分析上我們大致也知道了產品的震蕩浮動期是4-5個月,隨后進入相對穩(wěn)定的時期。這點是從產品的生命周期角度來看的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11