
小白學數據分析--回歸分析在游戲人氣分析的應用探索
昨天簡單說了一下相關分析在充值購買失衡方面的應用,今天就接著昨天的話題,說一下回歸分析(Regression Analysis),回歸分析是研究一個變量(因變量)和另一個變量(自變量)關系的統計方法,用最小二乘方法擬合因變量和自變量的回歸模型,把一種不確定的關系的若干變量轉化為有確定關系的方程模型近似分析,并且通過自變量的變化來預測因變來預測因變量的變化趨勢,在回歸分析中兩個變量的地位是不平等的,考察某一個變量的變化是依存于其他變量的變化程度,就是存在因果關系。
今天將利用回歸分析對游戲數據分析的某些指標進行分析探討,有關于回歸分析的一些理論這里不再講解,百度即可。今天針對DAU、PCU、ACU、新登等指標進行回歸分析。一般而言我們可以使用Excel就能做一元回歸分析,Excel做回歸分析有兩種方式:散點圖和回歸分析工具。散點圖通過添加趨勢線可以直觀的顯示自變量和因變量的關系,如果不存在明顯的線性或者曲線關系,就放棄建立回歸模型,趨勢線能夠輸出方程和擬合有度(R-square,該值越接近1,方程擬合越好)。第二種方法采用回歸分析工具,能夠更加詳細的輸出回歸分析指標相關信息,便于更加仔細的進行分析和預測。
回歸分析分為線性回歸分析和非線性回歸分析,首先來看一下線性回歸分析。
如果我們使用線性回歸分析其實有些前提要考慮:
1) 自變量與因變量的關系,是否是呈直線,是否是一個變量依存于另個變量的變化程度,如剛才所言,變量之間的地位是不平等的。
2) 因變量是否符合正態(tài)分布。
3) 因變量數值之間是否獨立。
4) 方差是否齊性。
一般來說,按照回歸分析工具得出的結果來看,應著重看看殘差(residual)是否是正態(tài)、獨立以及方差齊性,殘差就是因變量的實際值與估計值的差值。其實實際應用中,這些理論的條框我們有時候搞不懂,那么我們可以通過其他辦法來看,這就是通過散點圖就能把以上條框搞定。
是否呈現直線關系,通過散點圖就能看出來,如下圖所示,大致呈現直線關系。
對于正態(tài)分布可以考察殘差的正態(tài)概率圖,如果正態(tài)概率圖呈現一條直線表示符合正態(tài)分布,當然了也可以通過正態(tài)性檢驗方法來檢驗一下是否符合正態(tài)分布。
是否方差齊,可以用殘差的分布來看,即以因變量的預測值為x軸,以殘差為y軸作圖,如果殘差無明顯的分布,表明方差齊性。如果有一定的趨勢,可能存在方差不齊的情況,如下圖隨著x軸的增加殘差的范圍逐漸增大,明顯的方差不齊的情形。
對于是否獨立,也可以通過圖形來看, 隨著時間的變化,因變量應該沒有任何趨勢,否則可能表明因變量之間有一定的相關性。還可通過Durbin-Watson法檢驗是否獨立。
今天我們將探討DAU與PCU、PCU與ACU、DAU與首登三組的回歸分析。
首先來看DAU與PCU的回歸分析。我們選取一個月的數據,作為分析數據,首先我們來繪制散點圖(這里不具體講解散點圖繪制方法)
DAU與PCU
我們繪制散點圖,并選擇線性趨勢線,得到如下的散點圖:
之后我們通過回歸分析工具進行回歸分析結果的匯總來具體解析一下,操作如下:
點擊數據|數據分析,如下所示:
找到回歸分析
之后確定,并要把進行分析的數據引用單元格選好,殘差和正態(tài)分布相關選項全部勾選,如下所示。
最后會在新的工作表組生成結果,形式如下所示:
表格術語解釋一下:
df=degree of freedom 自由度
SS Stdev square 方差
MS Mean square 均方差
F聯合檢驗F值
coefficient回歸系數
standard error標準差
T-stat T檢驗值=回歸系數/標準差
P-value P值,T檢驗值查表對應的P概率值
Lower 95%和upper 95%置信度為95%的下限和上限區(qū)間
其實對于建立的回歸模型,我們還要進行方程的統計檢驗,檢驗的原假設回歸系數=0,如果拒絕原假設(p小于置信系數),則回歸系數不為0,回歸系數或者回歸方程顯著。
回歸工具為我們提供了三張圖,分別是殘差圖、線性擬合圖和正態(tài)概率圖。
如下圖為通過回歸分析工具得出的回歸分析匯總結果:
可以看到R-square為0.68,也就說68%的數據符合這個方程,擬合方程的觀測量為31個,計算下來就是有21個數據項是符合該方程的,F統計量在原假設成立前提下概率為2.55944e-06遠遠小于顯著水平0.05,所以方程顯著。但是除了做回歸方程和回歸系數的顯著性檢驗以外,還需要對回歸殘差做檢驗,因為回歸方程必須滿足均值為0,獨立,正態(tài)分布,否則最小二乘估計對參數做估計就失效。如下為殘差圖,基本上是零散的分布。基本上可以說殘差獨立分布,方程參數估計有效。
此外關于正態(tài)分布,可以參考以下的正態(tài)概率圖來分析:
通過以上的回歸分析,我們看到每日的DAU確實對于PCU的拉動起到顯著作用和影響,但由于擬合方程系數僅為0.68,說明在DAU這個顯著影響因素之外還有其他的影響因素,剛才我們計算了31個觀測值,有21個符合該方程,10個觀測值不符合該方程,其實這個觀測值可能周末效應作用,影響了系數的高低。
剩下的PCU與ACU、DAU與新登的回歸分析大家自己參照這個過程可以進行,分析需要警惕一點的是不同的游戲,反映出的結論不一樣,就如同有的游戲有周末化學反應,而有的游戲就沒有,鄙人接觸過這種游戲,因此在做回歸分析時,要注意這些理論之外的事項,對于分析會有很大的幫助。
p.s.其實SPSS也可以做回歸分析,效果比Excel還好一些,不過還是建議大家先把簡單的搞好,搞明白,對于DAU、PCU、ACU、新登的回歸分析,也可以幫助預測未來數據,回歸分析是很復雜的一類分析,雖然在使用操作很簡單,不過在其背后有很多值得學習的地方值得思考的地方,還需要多多練習和思考,做數據分析在某個角度和搞科研是一樣的,要有嚴謹的態(tài)度和研究分析要求,比如線性回歸的使用必須要遵循幾個條件,這是非常重要的,也是必須的,如果不確立好這些,做出來的東西也是錯誤的,就像本來數據是三角形的,你非要用一個圓形的理論和模型來作為分析方法,根本就是錯誤的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統計模型的核心目的:從數據解讀到決策支撐的價值導向 統計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10