
利用R語言對游戲用戶進行深度挖掘
隨著游戲市場競爭的日趨激烈,在如何獲得更大收益延長游戲周期的問題上,越來越多的手機游戲開發(fā)公司開始選擇借助大數(shù)據(jù),以便挖掘更多更細的用戶群、了解用戶習(xí)慣來進行精細化、個性化的運營。游戲行業(yè)對用戶的深度挖掘一般從兩方面著手:
一方面是用戶游戲行為的深度分析,如玩家在游戲中的點擊事件行為挖掘,譬如說新手教程中的點擊事件,我們一般選擇最關(guān)心的點擊事件(即關(guān)鍵路徑)進行轉(zhuǎn)化率的分析(統(tǒng)計每個關(guān)鍵路徑的點擊人數(shù)或次數(shù)),通過漏斗圖的展現(xiàn)形式就可以直接看出每個關(guān)鍵路徑的流失和轉(zhuǎn)化情況。漏斗圖適合于單路徑轉(zhuǎn)化問題,如果涉及到多路徑(點擊完一個按鈕后有多個按鈕同時提供選擇)情況時,可以使用路徑分析的方法,路徑分析更加基礎(chǔ)、更加全面、更加豐富、更能真實再現(xiàn)玩家在游戲中的行為軌跡。
另一方面是對用戶付費行為的深度挖掘。付費用戶是直接給公司創(chuàng)造價值的核心用戶群,通過研究這批用戶的付費數(shù)據(jù),把脈其付費特征,可以實現(xiàn)精準推送,有效付費轉(zhuǎn)化率。
總體來說,路徑分析有以下一些典型的應(yīng)用場景:
可以根據(jù)不同的應(yīng)用場景選擇不同的算法實現(xiàn),比如利用sunburst事件路徑圖對玩家典型的、頻繁的模式識別,利用基于時序的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)前后路徑的關(guān)系。
最樸素遍歷法是直接對主要路徑的流向分析,因此最直觀和最容易讓人理解。
1)當用戶行為路徑比較復(fù)雜的時候,我們可以借助當前最流行的數(shù)據(jù)可視化D3.js庫中的Sunburst Partition來刻畫用戶群體的事件路徑點擊狀況。從該圖的圓心出發(fā),層層向外推進,代表了用戶從開始使用產(chǎn)品到離開的整個行為統(tǒng)計;sunburst事件路徑圖可以快速定位用戶的主流使用路徑。靈活使用sunburst路徑統(tǒng)計圖,是我們在路徑分析中的一大法寶。
在R中,我們可以利用sunburstR包中的sunburst函數(shù)實現(xiàn)sunburst事件路徑圖,通過 install.packages("sunburstR")命令完成安裝。我們以sunburstR包中自帶的visit-sequences.csv數(shù)據(jù)集為例進行演示,用sunburst函數(shù)繪制sunburst事件路徑圖。
可見,當我們選中某條路徑時,其他路徑顏色變暗,圓圈中的數(shù)字表示選中路徑的人數(shù)(或次數(shù))在總?cè)藬?shù)(或次數(shù))的占比。右上角是圖例,不同顏色代表不同的點擊事件。左上角是我們選中的事件路徑流向。
2)我們可以利用基于時序的關(guān)聯(lián)規(guī)則來研究玩家的點擊情況。目的是想找出玩家點擊玩牌前一部分的點擊情況。在R中,可以使用arulesSequences包中的核心函數(shù)cspade實現(xiàn)。此分析的關(guān)鍵是如何將普通數(shù)據(jù)集轉(zhuǎn)換成模型能識別的事務(wù)型數(shù)據(jù)集。
棋牌游戲玩家從進入游戲到玩牌的點擊路徑是:歡迎界面操作,大廳界面點擊操作,進入房間玩牌
現(xiàn)在統(tǒng)計某個周期內(nèi)該款棋牌游戲的玩家點擊事件數(shù)據(jù),先查看前六行情況:
第一列是玩家id,第二列是玩家點擊按鈕的順序,第三列是點擊事件ID(其中11034表示點擊開始玩牌按鈕,其他ID表示點擊“個人信息”、“房間列表”、“好友列表”、“halltool”四大板塊的按鈕)。
接下來,我們可以利用as函數(shù)將數(shù)據(jù)類型轉(zhuǎn)換成事務(wù)型數(shù)據(jù),結(jié)果如下所示:
利用arulesSequences包中的cspade函數(shù)實現(xiàn)cSPADE算法。由于要找出所有到達開始打牌的路徑,所以將支持度閾值support設(shè)置為0,且欲返回點擊開始打牌和前一次的點擊事件,即返回序列的數(shù)據(jù)項數(shù)最大為2,所以maxlen被設(shè)置為2。
然后使用sort函數(shù)將myrules按照支持度的數(shù)值進行降序排序,并設(shè)置規(guī)則表達式,篩選出序列中最后一個數(shù)據(jù)項為{click=11034}的序列。
序列2中的<{click=11008},{click=11034}>表示點擊行為順序是從11008(從新手場進入玩牌房間)到11034(開始玩牌),支持度為0.679。
最后,篩選關(guān)鍵點擊按鈕,衡量其對11034的貢獻度。首先計算各點擊事件支持度的百分比,并使用cumsum()函數(shù)計算支持度support的累計百分比,并把累計百分比達到75%以上的點擊事件作為引導(dǎo)用戶點擊玩牌11034的重要事件觸發(fā)點。并利用recharts包的echartr函數(shù)繪制垂直的金字塔圖。
主要結(jié)論:11008是為按鈕11034的點擊貢獻最大的引流按鈕,support占比為19.5%,接近全部引流按鈕的五分之一。
針對游戲付費用戶常用的深度挖掘手段如下圖所示:
LTV預(yù)測法是根據(jù)玩家的前期付費能力預(yù)測未來一段時間的用戶生命周期價值,這在市場做廣告投放時候有很大的參考意義。玩家物品購買的關(guān)聯(lián)分析和社群發(fā)現(xiàn),可以發(fā)現(xiàn)不同物品間的關(guān)系,從而可以進行物品捆綁銷售策略的建議?;谕婕椅锲返闹悄芡扑]是利用物品的協(xié)同過濾方法對每一個玩家的購物可能進行推薦,從而實現(xiàn)個性化推薦,這個在現(xiàn)在的電商、互聯(lián)網(wǎng)是非常流行的做法。
從數(shù)據(jù)庫中導(dǎo)出一份關(guān)于玩家物品購買數(shù)據(jù),包括用戶id、商品名稱和購買數(shù)量三個變量。前六行如下:
1)現(xiàn)在,希望利用arules包中的apriori算法對上面的數(shù)據(jù)進行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。此時,需要把數(shù)據(jù)轉(zhuǎn)化成事務(wù)型數(shù)據(jù)。代碼如下:
現(xiàn)在,可以利用aurles進行關(guān)聯(lián)規(guī)則分析和利用aurlesViz包進行規(guī)則可視化。
由圖可知,{超值大禮包} & {新手禮包}說明這兩條規(guī)則的提升度最大;{解鎖滑板} & {限量版角色}圓圈最大,說明這兩條規(guī)則的支持度最大。
2)最后,讓我們用recommenderlab對玩家購買道具進行智能推薦。在構(gòu)建模型之前,我們需要將數(shù)據(jù)轉(zhuǎn)換為評分矩陣。
選擇IBCF建立推薦模型,對玩家進行top3推薦。
從上面的分享可知,我們在做數(shù)據(jù)分析建模之前,數(shù)據(jù)轉(zhuǎn)化處于非常重要的地位。如何把原始數(shù)據(jù)轉(zhuǎn)化成模型可以識別的數(shù)據(jù),需要大家平時的經(jīng)驗積累。以上內(nèi)容是在第九屆中國R語言會議的分享內(nèi)容。也是明年初將要出版的《R語言游戲數(shù)據(jù)分析》一書關(guān)于用戶分析的部分內(nèi)容。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10