
小白學(xué)數(shù)據(jù)分析--關(guān)聯(lián)分析理論篇
在說(shuō)關(guān)聯(lián)分析之前,先說(shuō)說(shuō)自己這段時(shí)間的一些感受吧,這段時(shí)間相對(duì)輕松一些,有一些時(shí)間自己自己來(lái)學(xué)習(xí)一些新東西和知識(shí),然而卻發(fā)現(xiàn)捧著一本數(shù)據(jù)挖掘理論的書(shū)籍在一點(diǎn)一點(diǎn)的研讀實(shí)在是很漫長(zhǎng),而且看過(guò)了沒(méi)有什么感覺(jué)。數(shù)據(jù)這一行理論很多,算法很多,模型很多,自己現(xiàn)在一直是結(jié)合業(yè)務(wù)來(lái)做的數(shù)據(jù)分析與挖掘,相比電商而言,游戲業(yè)做的數(shù)據(jù)大多很糙,但是僅僅結(jié)合業(yè)務(wù)和運(yùn)營(yíng),更加注重我們客戶的質(zhì)量和維護(hù),當(dāng)然這不是說(shuō)電商沒(méi)做,實(shí)際上電商一直在做,然而最近一次經(jīng)歷發(fā)現(xiàn),我們過(guò)多的時(shí)候去討論了算法,模型,新理論,新算法研究,比如爬蟲(chóng),JS,寫(xiě)個(gè)腳本測(cè)試一下,驗(yàn)證一下,可我一直在考慮,為什么我們要這么做?意義究竟是什么?你費(fèi)了九牛二虎之力做好的研究,能夠以后一直使用,形成規(guī)范嗎?或者一直是想到一個(gè)就研究一下,用畢,放下了,再有新的在研究。
以前看了蘇杰的產(chǎn)品經(jīng)理那本書(shū),其中有一個(gè)例子很好,為什么停車位游戲里面就只有四個(gè)停車位,而不是八個(gè)?回答這個(gè)問(wèn)題,我覺(jué)得你即使數(shù)據(jù)理論、算法在NB你也很難搞得明白,你還是要僅僅結(jié)合業(yè)務(wù)搞明白內(nèi)在的一些疑問(wèn),你才能防守研究。技術(shù)流派的數(shù)據(jù)分析必須要,但是完全的主導(dǎo),缺少了人性和上層的構(gòu)建,厲害的技術(shù),NB的算法也無(wú)濟(jì)于事。
然而理論,算法,模型我們還要學(xué)習(xí),核心在于我們?nèi)绾卫斫夂褪褂?,這些東西都是經(jīng)歷了實(shí)踐的檢驗(yàn),所以才有存在和學(xué)習(xí)的意義。但請(qǐng)不要為技術(shù)論,過(guò)度理性的思維往往就走到死胡同,我們也需要喬爺一般的嗅覺(jué)和敏感。
廢話太多,開(kāi)始吧。
關(guān)聯(lián)分析是啥?
關(guān)聯(lián)分析是數(shù)據(jù)挖掘中很重要的一類技術(shù),其實(shí)就是挖掘事物之間的聯(lián)系。
關(guān)聯(lián)分析都研究什么關(guān)系?
關(guān)聯(lián)分析研究的關(guān)系有兩種:簡(jiǎn)單關(guān)聯(lián)關(guān)系和序列關(guān)聯(lián)關(guān)系。
簡(jiǎn)單關(guān)聯(lián)關(guān)系
比如在FPS游戲中,購(gòu)買M4A1的玩家中80%會(huì)購(gòu)買MP5沖鋒槍,這就是一種簡(jiǎn)單的關(guān)聯(lián)關(guān)系,經(jīng)典的購(gòu)物籃分析中有個(gè)例子說(shuō),購(gòu)買面包的顧客中80%會(huì)購(gòu)買牛奶。面包和牛奶作為一種早餐的搭配是大家所接受的,二者沒(méi)有共同屬性,但是二者搭配后就是一頓美味早餐。商場(chǎng)購(gòu)買時(shí),如果你把這兩樣擺在一起時(shí),就會(huì)刺激顧客的潛意識(shí)(這是定位理論的內(nèi)容,以后再說(shuō),文章題目‘從定位理論來(lái)看關(guān)聯(lián)購(gòu)買應(yīng)用實(shí)施’),聯(lián)系了二者的關(guān)系,并刺激購(gòu)買。這是一種簡(jiǎn)單的關(guān)聯(lián)關(guān)系。
序列關(guān)聯(lián)關(guān)系
在FPS中,購(gòu)買雷包的玩家中80%會(huì)購(gòu)買閃光雷和高爆雷,這屬于序列關(guān)系,也就是說(shuō)具有先后順序。再比如買了iphone手機(jī)的顧客中80%會(huì)選擇購(gòu)買iphone手機(jī)保護(hù)殼,這就是序列關(guān)聯(lián)關(guān)系,一般沒(méi)人先去買個(gè)保護(hù)殼再去買手機(jī)。這是存在先后的時(shí)間上的順序的。這里就再說(shuō)一個(gè)例子,比如裝備強(qiáng)化系統(tǒng),我們可以衡量一下得到寶石然后去打孔鑲嵌寶石的關(guān)系或者先去打孔后去直接購(gòu)買寶石的關(guān)系分析,一般游戲?yàn)榱舜碳ね婕以趶?qiáng)化方面的消費(fèi)能力,會(huì)選擇贈(zèng)送部分寶石,引導(dǎo)玩家強(qiáng)化,那么我們是否可以做一個(gè)分析?
怎么定量的分析這種關(guān)聯(lián)關(guān)系?
說(shuō)到定量分析這種關(guān)系,分析就得有個(gè)算法或者公式,這就是我們約定一個(gè)規(guī)則,我們要按照規(guī)則來(lái)做分析,學(xué)名叫做關(guān)聯(lián)規(guī)則。早期是在研究超市顧客購(gòu)買商品的規(guī)律方面得到廣泛應(yīng)用,也就是購(gòu)物籃分析。
游戲的數(shù)據(jù)分析需要做不?
關(guān)聯(lián)分析在電商、零售、保險(xiǎn)等諸多領(lǐng)域廣泛應(yīng)用。對(duì)于游戲數(shù)據(jù)分析來(lái)說(shuō),關(guān)聯(lián)分析的確是我們要非常重視的一塊,尤其是道具收費(fèi)模式占據(jù)主導(dǎo)的網(wǎng)游市場(chǎng),當(dāng)然時(shí)間收費(fèi)游戲也需要這樣來(lái)做,我們的運(yùn)營(yíng)活動(dòng)效果評(píng)估,玩家的充值購(gòu)買習(xí)慣,游戲行為跟蹤,精準(zhǔn)推送都是和關(guān)聯(lián)分析有很大的關(guān)系。其實(shí)游戲中道具的消費(fèi)除了玩家自身與系統(tǒng)的高度融合和自主消費(fèi)以外,其實(shí)還有一部分隱形的消費(fèi),或者說(shuō)是延伸消費(fèi),打個(gè)比方,比如我們?nèi)ヒ粋€(gè)超市目標(biāo)很明確就是要去買一瓶可樂(lè),然而往往我們結(jié)賬時(shí)手里不是單純就有一罐可樂(lè),可能還有口香糖,可能還有其他的商品,為什么?人是視覺(jué)動(dòng)物,純粹理性消費(fèi)存在,但是受到外界刺激和影響,往往刺激再生消費(fèi),也就是很多的沖動(dòng)型消費(fèi),而在游戲中來(lái)看,就是打開(kāi)這些消費(fèi),關(guān)聯(lián)分析就是尋找這些刺激因素,進(jìn)而延伸玩家的消費(fèi)。
關(guān)聯(lián)規(guī)則是什么?
規(guī)則這里就是一種衡量事物的標(biāo)準(zhǔn),再說(shuō)白了就是一個(gè)算法。關(guān)聯(lián)規(guī)則主要有兩種。今天就先說(shuō)說(shuō)簡(jiǎn)單規(guī)則的理論部分。
簡(jiǎn)單關(guān)聯(lián)規(guī)則
簡(jiǎn)單關(guān)聯(lián)規(guī)則屬于無(wú)指導(dǎo)的學(xué)習(xí)方法,著重探索內(nèi)部結(jié)構(gòu)。簡(jiǎn)單關(guān)聯(lián)規(guī)則也是我們使用最多的一類技術(shù)。算法有Apriori、GRI、Carma,其中Apriori和Carma主要是如何提高關(guān)聯(lián)規(guī)則的分析效率,而GRI注重如何將單一概念層次的關(guān)聯(lián)推廣到更多概念層次的關(guān)聯(lián),進(jìn)而揭示事物內(nèi)在結(jié)構(gòu)。
在網(wǎng)游方面的應(yīng)用目前我想到了幾個(gè):
1、基于玩家的購(gòu)買行為進(jìn)行玩家區(qū)分;
2、付費(fèi)用戶流失分析,比如是否是因?yàn)槟承┑谰叩南录軐?dǎo)致玩家付費(fèi)流失;
3、道具商城道具的位置擺放,玩家購(gòu)買后的推薦購(gòu)買,交叉銷售。
簡(jiǎn)單關(guān)聯(lián)規(guī)則的數(shù)據(jù)存儲(chǔ)形式
數(shù)據(jù)存儲(chǔ)形式主要有兩種,一種是交易數(shù)據(jù)格式,另一種是表格數(shù)據(jù)格式,詳見(jiàn)早期一篇文章所述內(nèi)容。
判斷標(biāo)準(zhǔn)
說(shuō)到判斷標(biāo)準(zhǔn),其實(shí)就是對(duì)于簡(jiǎn)單關(guān)聯(lián)規(guī)則有效性實(shí)用性的檢驗(yàn),因?yàn)椴皇撬?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關(guān)聯(lián)規(guī)則都有效,某些規(guī)則適用范圍有限,進(jìn)而這些規(guī)則不具有有效性,所以我們要有一些判斷的標(biāo)準(zhǔn)。
規(guī)則支持度(Support)
支持度,就是支持某一事件發(fā)生的概率,可以這么理解,所謂規(guī)則支持度就是表示商品A和商品B同時(shí)出現(xiàn)的概率(A和B同時(shí)出現(xiàn)這一事件的概率),即S A->B=N(A&B)/N ,N代表總的個(gè)數(shù),N(A&B)代表同時(shí)出現(xiàn)A和B的次數(shù),如果S值很低,那么規(guī)則普遍性一般,應(yīng)用層次太低。
規(guī)則置信度(confidence)
置信度,就是特定個(gè)體對(duì)待特定命題真實(shí)性相信的程度,也就是令人信服的水平,具體來(lái)說(shuō)比如在商品A購(gòu)買的顧客中,購(gòu)買商品B的概率,或者說(shuō)購(gòu)買水平。這其實(shí)是一個(gè)條件概率的問(wèn)題,即在A出現(xiàn)情況下B出現(xiàn)的可能性,即C A->B=N(A&B)/N(A),如果置信水平高,那么這種特定條件出現(xiàn)可能性就很高。
前項(xiàng)支持度 S A = N(A)/N
后項(xiàng)支持度 S B=N(B)/N
由此這里我們可以推斷出 C和S是存在關(guān)系的,即:
C A->B = S A->B/ S A
在關(guān)聯(lián)分析,我們希望得到的規(guī)則是具有很高的C和S的??墒侨绻鸖高,但是C低,那么整個(gè)的這個(gè)規(guī)則令人信服的程度就會(huì)下降,如果反過(guò)來(lái),那么意味著這個(gè)規(guī)則產(chǎn)生的普遍性不高,就是應(yīng)用層有問(wèn)題,但是置信水平還可以。
所以說(shuō)我們雖然可以通過(guò)簡(jiǎn)單關(guān)聯(lián)規(guī)則分析生成很多的關(guān)聯(lián)規(guī)則,然而我們必須得有一個(gè)臨界值(閾值),來(lái)控制C和S的水平,因?yàn)槲覀兡苌珊芏嗟囊?guī)則,通過(guò)閾值控制掃除一些我們不需要的或者無(wú)用的規(guī)則。
當(dāng)然了,通過(guò)我們?cè)O(shè)定的閾值的置信度和支持度就是一條有效的規(guī)則,但有效就一定意味著可以使用嗎?事實(shí)上,還不行,因?yàn)橛行У囊?guī)則下不一定有實(shí)際的指導(dǎo)意義。因?yàn)榻沂境龅年P(guān)系有可能只是一種隨機(jī)關(guān)聯(lián)的關(guān)系。說(shuō)白了就是巧合。舉一個(gè)例子,通過(guò)關(guān)聯(lián)規(guī)則我們發(fā)現(xiàn)購(gòu)買道具A的玩家40%為男性角色,S=40%,C=40%。此時(shí)閾值為20%,看來(lái)符合以上我們所說(shuō)的情況,但是我們經(jīng)過(guò)分析發(fā)現(xiàn)玩家中那行角色比例也是40%,而這就是一種隨機(jī)關(guān)聯(lián),不具備實(shí)用性。
因此我們需要一些指標(biāo)來(lái)輔助監(jiān)測(cè)規(guī)則實(shí)用性。
規(guī)則提升度(lift)
L A->B=C A->B/ S B
實(shí)際就是置信度與后項(xiàng)的比值。提升度反映了商品A出現(xiàn)對(duì)于商品B的影響程度。大于1才有意義,也就是A對(duì)于B的促進(jìn)作用,越大越好。
置信差(Confidence Difference)
置信度與后項(xiàng)支持度的絕對(duì)值差。
CD=|C A->B-S B|
置信差進(jìn)一步提高關(guān)聯(lián)規(guī)則結(jié)果的可用性,其差代表了獲得關(guān)聯(lián)規(guī)則所提供信息的多少。
置信率(Confidence Ratio)
CR=1-|min(lift,1/lift)|
置信率當(dāng)然也是越高越好,有的時(shí)候我們置信差很低,那么也可以參考CR值,與剛才提到的lift相似,lift越大越好,進(jìn)而這里來(lái)看,lift越大,那么CR也就越大。
當(dāng)然了衡量的標(biāo)準(zhǔn)還有正態(tài)卡方、信息差,這里不再講述,感興趣自己可以看看。
下面我們說(shuō)說(shuō)序列關(guān)聯(lián)規(guī)則。
序列關(guān)聯(lián)規(guī)則
核心在于怎么找到事物發(fā)展的前后關(guān)聯(lián)性,比如用戶訪問(wèn)web站點(diǎn),具體的頁(yè)面點(diǎn)擊習(xí)慣,購(gòu)買商品過(guò)程關(guān)聯(lián)性,較為著名的比如超市商品貨架的布局。研究序列關(guān)聯(lián)性可以幫助我們推斷后續(xù)發(fā)生的可能性,并調(diào)整好順序,擴(kuò)大份額。這在游戲中的道具推送,玩家與系統(tǒng)的交互,任務(wù)接取,道具購(gòu)買有直接的關(guān)系。
如下圖所示,為玩家的購(gòu)買道具時(shí)序數(shù)據(jù),每一行為一個(gè)事務(wù)序列數(shù),代表一個(gè)玩家。
比如1號(hào)玩家首先購(gòu)買A和B,之后購(gòu)買C,再次購(gòu)買D,這就是一個(gè)購(gòu)買序列,而這個(gè)序列對(duì)于我們分析購(gòu)買流失,具有很大的意義。1號(hào)顧客的購(gòu)買序列可以表示出來(lái),此外,購(gòu)買序列還可以進(jìn)行分解,分列出子序列。如下圖。
定量分析序列指標(biāo)
序列長(zhǎng)度
表示序列拆分出來(lái)的子序列,以玩家1為例有3個(gè)子序列,因此序列長(zhǎng)度為3。
序列大小
表示序列中擁有的項(xiàng)目數(shù)量,玩家1有四個(gè)項(xiàng)目,A、B、C、D。
序列支持度
序列普遍性的衡量標(biāo)準(zhǔn),包含某個(gè)序列的序列的事事務(wù)序列數(shù)占總事務(wù)序列數(shù)的比例。比如C{D}>C{A}的支持度為2/4=0.5。
序列規(guī)則支持度
包含某序列的規(guī)則的事務(wù)占總事務(wù)的比例。
序列規(guī)則置信度
同時(shí)包含前項(xiàng)和后項(xiàng)事務(wù)數(shù)與僅包含前項(xiàng)事務(wù)數(shù)的比值,即支持度與前項(xiàng)支持度的比值。
好了,理論第一部分就到這里,以后說(shuō)說(shuō)兩類關(guān)聯(lián)分析的算法 Apriori、GRI、Carma、Sequence。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03