
小白學(xué)數(shù)據(jù)分析--回歸分析在游戲人氣分析的應(yīng)用探索
昨天簡(jiǎn)單說(shuō)了一下相關(guān)分析在充值購(gòu)買失衡方面的應(yīng)用,今天就接著昨天的話題,說(shuō)一下回歸分析(Regression Analysis),回歸分析是研究一個(gè)變量(因變量)和另一個(gè)變量(自變量)關(guān)系的統(tǒng)計(jì)方法,用最小二乘方法擬合因變量和自變量的回歸模型,把一種不確定的關(guān)系的若干變量轉(zhuǎn)化為有確定關(guān)系的方程模型近似分析,并且通過(guò)自變量的變化來(lái)預(yù)測(cè)因變來(lái)預(yù)測(cè)因變量的變化趨勢(shì),在回歸分析中兩個(gè)變量的地位是不平等的,考察某一個(gè)變量的變化是依存于其他變量的變化程度,就是存在因果關(guān)系。
今天將利用回歸分析對(duì)游戲數(shù)據(jù)分析的某些指標(biāo)進(jìn)行分析探討,有關(guān)于回歸分析的一些理論這里不再講解,百度即可。今天針對(duì)DAU、PCU、ACU、新登等指標(biāo)進(jìn)行回歸分析。一般而言我們可以使用Excel就能做一元回歸分析,Excel做回歸分析有兩種方式:散點(diǎn)圖和回歸分析工具。散點(diǎn)圖通過(guò)添加趨勢(shì)線可以直觀的顯示自變量和因變量的關(guān)系,如果不存在明顯的線性或者曲線關(guān)系,就放棄建立回歸模型,趨勢(shì)線能夠輸出方程和擬合有度(R-square,該值越接近1,方程擬合越好)。第二種方法采用回歸分析工具,能夠更加詳細(xì)的輸出回歸分析指標(biāo)相關(guān)信息,便于更加仔細(xì)的進(jìn)行分析和預(yù)測(cè)。
回歸分析分為線性回歸分析和非線性回歸分析,首先來(lái)看一下線性回歸分析。
如果我們使用線性回歸分析其實(shí)有些前提要考慮:
1) 自變量與因變量的關(guān)系,是否是呈直線,是否是一個(gè)變量依存于另個(gè)變量的變化程度,如剛才所言,變量之間的地位是不平等的。
2) 因變量是否符合正態(tài)分布。
3) 因變量數(shù)值之間是否獨(dú)立。
4) 方差是否齊性。
一般來(lái)說(shuō),按照回歸分析工具得出的結(jié)果來(lái)看,應(yīng)著重看看殘差(residual)是否是正態(tài)、獨(dú)立以及方差齊性,殘差就是因變量的實(shí)際值與估計(jì)值的差值。其實(shí)實(shí)際應(yīng)用中,這些理論的條框我們有時(shí)候搞不懂,那么我們可以通過(guò)其他辦法來(lái)看,這就是通過(guò)散點(diǎn)圖就能把以上條框搞定。
是否呈現(xiàn)直線關(guān)系,通過(guò)散點(diǎn)圖就能看出來(lái),如下圖所示,大致呈現(xiàn)直線關(guān)系。
對(duì)于正態(tài)分布可以考察殘差的正態(tài)概率圖,如果正態(tài)概率圖呈現(xiàn)一條直線表示符合正態(tài)分布,當(dāng)然了也可以通過(guò)正態(tài)性檢驗(yàn)方法來(lái)檢驗(yàn)一下是否符合正態(tài)分布。
是否方差齊,可以用殘差的分布來(lái)看,即以因變量的預(yù)測(cè)值為x軸,以殘差為y軸作圖,如果殘差無(wú)明顯的分布,表明方差齊性。如果有一定的趨勢(shì),可能存在方差不齊的情況,如下圖隨著x軸的增加殘差的范圍逐漸增大,明顯的方差不齊的情形。
對(duì)于是否獨(dú)立,也可以通過(guò)圖形來(lái)看, 隨著時(shí)間的變化,因變量應(yīng)該沒有任何趨勢(shì),否則可能表明因變量之間有一定的相關(guān)性。還可通過(guò)Durbin-Watson法檢驗(yàn)是否獨(dú)立。
今天我們將探討DAU與PCU、PCU與ACU、DAU與首登三組的回歸分析。
首先來(lái)看DAU與PCU的回歸分析。我們選取一個(gè)月的數(shù)據(jù),作為分析數(shù)據(jù),首先我們來(lái)繪制散點(diǎn)圖(這里不具體講解散點(diǎn)圖繪制方法)
DAU與PCU
我們繪制散點(diǎn)圖,并選擇線性趨勢(shì)線,得到如下的散點(diǎn)圖:
之后我們通過(guò)回歸分析工具進(jìn)行回歸分析結(jié)果的匯總來(lái)具體解析一下,操作如下:
點(diǎn)擊數(shù)據(jù)|數(shù)據(jù)分析,如下所示:
找到回歸分析
之后確定,并要把進(jìn)行分析的數(shù)據(jù)引用單元格選好,殘差和正態(tài)分布相關(guān)選項(xiàng)全部勾選,如下所示。
最后會(huì)在新的工作表組生成結(jié)果,形式如下所示:
表格術(shù)語(yǔ)解釋一下:
df=degree of freedom 自由度
SS Stdev square 方差
MS Mean square 均方差
F聯(lián)合檢驗(yàn)F值
coefficient回歸系數(shù)
standard error標(biāo)準(zhǔn)差
T-stat T檢驗(yàn)值=回歸系數(shù)/標(biāo)準(zhǔn)差
P-value P值,T檢驗(yàn)值查表對(duì)應(yīng)的P概率值
Lower 95%和upper 95%置信度為95%的下限和上限區(qū)間
其實(shí)對(duì)于建立的回歸模型,我們還要進(jìn)行方程的統(tǒng)計(jì)檢驗(yàn),檢驗(yàn)的原假設(shè)回歸系數(shù)=0,如果拒絕原假設(shè)(p小于置信系數(shù)),則回歸系數(shù)不為0,回歸系數(shù)或者回歸方程顯著。
回歸工具為我們提供了三張圖,分別是殘差圖、線性擬合圖和正態(tài)概率圖。
如下圖為通過(guò)回歸分析工具得出的回歸分析匯總結(jié)果:
可以看到R-square為0.68,也就說(shuō)68%的數(shù)據(jù)符合這個(gè)方程,擬合方程的觀測(cè)量為31個(gè),計(jì)算下來(lái)就是有21個(gè)數(shù)據(jù)項(xiàng)是符合該方程的,F(xiàn)統(tǒng)計(jì)量在原假設(shè)成立前提下概率為2.55944e-06遠(yuǎn)遠(yuǎn)小于顯著水平0.05,所以方程顯著。但是除了做回歸方程和回歸系數(shù)的顯著性檢驗(yàn)以外,還需要對(duì)回歸殘差做檢驗(yàn),因?yàn)榛貧w方程必須滿足均值為0,獨(dú)立,正態(tài)分布,否則最小二乘估計(jì)對(duì)參數(shù)做估計(jì)就失效。如下為殘差圖,基本上是零散的分布。基本上可以說(shuō)殘差獨(dú)立分布,方程參數(shù)估計(jì)有效。
此外關(guān)于正態(tài)分布,可以參考以下的正態(tài)概率圖來(lái)分析:
通過(guò)以上的回歸分析,我們看到每日的DAU確實(shí)對(duì)于PCU的拉動(dòng)起到顯著作用和影響,但由于擬合方程系數(shù)僅為0.68,說(shuō)明在DAU這個(gè)顯著影響因素之外還有其他的影響因素,剛才我們計(jì)算了31個(gè)觀測(cè)值,有21個(gè)符合該方程,10個(gè)觀測(cè)值不符合該方程,其實(shí)這個(gè)觀測(cè)值可能周末效應(yīng)作用,影響了系數(shù)的高低。
剩下的PCU與ACU、DAU與新登的回歸分析大家自己參照這個(gè)過(guò)程可以進(jìn)行,分析需要警惕一點(diǎn)的是不同的游戲,反映出的結(jié)論不一樣,就如同有的游戲有周末化學(xué)反應(yīng),而有的游戲就沒有,鄙人接觸過(guò)這種游戲,因此在做回歸分析時(shí),要注意這些理論之外的事項(xiàng),對(duì)于分析會(huì)有很大的幫助。
p.s.其實(shí)SPSS也可以做回歸分析,效果比Excel還好一些,不過(guò)還是建議大家先把簡(jiǎn)單的搞好,搞明白,對(duì)于DAU、PCU、ACU、新登的回歸分析,也可以幫助預(yù)測(cè)未來(lái)數(shù)據(jù),回歸分析是很復(fù)雜的一類分析,雖然在使用操作很簡(jiǎn)單,不過(guò)在其背后有很多值得學(xué)習(xí)的地方值得思考的地方,還需要多多練習(xí)和思考,做數(shù)據(jù)分析在某個(gè)角度和搞科研是一樣的,要有嚴(yán)謹(jǐn)?shù)膽B(tài)度和研究分析要求,比如線性回歸的使用必須要遵循幾個(gè)條件,這是非常重要的,也是必須的,如果不確立好這些,做出來(lái)的東西也是錯(cuò)誤的,就像本來(lái)數(shù)據(jù)是三角形的,你非要用一個(gè)圓形的理論和模型來(lái)作為分析方法,根本就是錯(cuò)誤的。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03