99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀小白學(xué)數(shù)據(jù)分析--關(guān)聯(lián)分析理論篇
小白學(xué)數(shù)據(jù)分析--關(guān)聯(lián)分析理論篇
2016-06-13
收藏

小白學(xué)數(shù)據(jù)分析--關(guān)聯(lián)分析理論篇

在說(shuō)關(guān)聯(lián)分析之前,先說(shuō)說(shuō)自己這段時(shí)間的一些感受吧,這段時(shí)間相對(duì)輕松一些,有一些時(shí)間自己自己來(lái)學(xué)習(xí)一些新東西和知識(shí),然而卻發(fā)現(xiàn)捧著一本數(shù)據(jù)挖掘理論的書(shū)籍在一點(diǎn)一點(diǎn)的研讀實(shí)在是很漫長(zhǎng),而且看過(guò)了沒(méi)有什么感覺(jué)。數(shù)據(jù)這一行理論很多,算法很多,模型很多,自己現(xiàn)在一直是結(jié)合業(yè)務(wù)來(lái)做的數(shù)據(jù)分析與挖掘,相比電商而言,游戲業(yè)做的數(shù)據(jù)大多很糙,但是僅僅結(jié)合業(yè)務(wù)和運(yùn)營(yíng),更加注重我們客戶的質(zhì)量和維護(hù),當(dāng)然這不是說(shuō)電商沒(méi)做,實(shí)際上電商一直在做,然而最近一次經(jīng)歷發(fā)現(xiàn),我們過(guò)多的時(shí)候去討論了算法,模型,新理論,新算法研究,比如爬蟲(chóng),JS,寫(xiě)個(gè)腳本測(cè)試一下,驗(yàn)證一下,可我一直在考慮,為什么我們要這么做?意義究竟是什么?你費(fèi)了九牛二虎之力做好的研究,能夠以后一直使用,形成規(guī)范嗎?或者一直是想到一個(gè)就研究一下,用畢,放下了,再有新的在研究。
  以前看了蘇杰的產(chǎn)品經(jīng)理那本書(shū),其中有一個(gè)例子很好,為什么停車位游戲里面就只有四個(gè)停車位,而不是八個(gè)?回答這個(gè)問(wèn)題,我覺(jué)得你即使數(shù)據(jù)理論、算法在NB你也很難搞得明白,你還是要僅僅結(jié)合業(yè)務(wù)搞明白內(nèi)在的一些疑問(wèn),你才能防守研究。技術(shù)流派的數(shù)據(jù)分析必須要,但是完全的主導(dǎo),缺少了人性和上層的構(gòu)建,厲害的技術(shù),NB的算法也無(wú)濟(jì)于事。
  然而理論,算法,模型我們還要學(xué)習(xí),核心在于我們?nèi)绾卫斫夂褪褂?,這些東西都是經(jīng)歷了實(shí)踐的檢驗(yàn),所以才有存在和學(xué)習(xí)的意義。但請(qǐng)不要為技術(shù)論,過(guò)度理性的思維往往就走到死胡同,我們也需要喬爺一般的嗅覺(jué)和敏感。
  廢話太多,開(kāi)始吧。
  關(guān)聯(lián)分析是啥?
  關(guān)聯(lián)分析是數(shù)據(jù)挖掘中很重要的一類技術(shù),其實(shí)就是挖掘事物之間的聯(lián)系。
  關(guān)聯(lián)分析都研究什么關(guān)系?
  關(guān)聯(lián)分析研究的關(guān)系有兩種:簡(jiǎn)單關(guān)聯(lián)關(guān)系和序列關(guān)聯(lián)關(guān)系。
簡(jiǎn)單關(guān)聯(lián)關(guān)系
  比如在FPS游戲中,購(gòu)買M4A1的玩家中80%會(huì)購(gòu)買MP5沖鋒槍,這就是一種簡(jiǎn)單的關(guān)聯(lián)關(guān)系,經(jīng)典的購(gòu)物籃分析中有個(gè)例子說(shuō),購(gòu)買面包的顧客中80%會(huì)購(gòu)買牛奶。面包和牛奶作為一種早餐的搭配是大家所接受的,二者沒(méi)有共同屬性,但是二者搭配后就是一頓美味早餐。商場(chǎng)購(gòu)買時(shí),如果你把這兩樣擺在一起時(shí),就會(huì)刺激顧客的潛意識(shí)(這是定位理論的內(nèi)容,以后再說(shuō),文章題目‘從定位理論來(lái)看關(guān)聯(lián)購(gòu)買應(yīng)用實(shí)施’),聯(lián)系了二者的關(guān)系,并刺激購(gòu)買。這是一種簡(jiǎn)單的關(guān)聯(lián)關(guān)系。
序列關(guān)聯(lián)關(guān)系
  在FPS中,購(gòu)買雷包的玩家中80%會(huì)購(gòu)買閃光雷和高爆雷,這屬于序列關(guān)系,也就是說(shuō)具有先后順序。再比如買了iphone手機(jī)的顧客中80%會(huì)選擇購(gòu)買iphone手機(jī)保護(hù)殼,這就是序列關(guān)聯(lián)關(guān)系,一般沒(méi)人先去買個(gè)保護(hù)殼再去買手機(jī)。這是存在先后的時(shí)間上的順序的。這里就再說(shuō)一個(gè)例子,比如裝備強(qiáng)化系統(tǒng),我們可以衡量一下得到寶石然后去打孔鑲嵌寶石的關(guān)系或者先去打孔后去直接購(gòu)買寶石的關(guān)系分析,一般游戲?yàn)榱舜碳ね婕以趶?qiáng)化方面的消費(fèi)能力,會(huì)選擇贈(zèng)送部分寶石,引導(dǎo)玩家強(qiáng)化,那么我們是否可以做一個(gè)分析?
  怎么定量的分析這種關(guān)聯(lián)關(guān)系?
  說(shuō)到定量分析這種關(guān)系,分析就得有個(gè)算法或者公式,這就是我們約定一個(gè)規(guī)則,我們要按照規(guī)則來(lái)做分析,學(xué)名叫做關(guān)聯(lián)規(guī)則。早期是在研究超市顧客購(gòu)買商品的規(guī)律方面得到廣泛應(yīng)用,也就是購(gòu)物籃分析。
  游戲的數(shù)據(jù)分析需要做不?
  關(guān)聯(lián)分析在電商、零售、保險(xiǎn)等諸多領(lǐng)域廣泛應(yīng)用。對(duì)于游戲數(shù)據(jù)分析來(lái)說(shuō),關(guān)聯(lián)分析的確是我們要非常重視的一塊,尤其是道具收費(fèi)模式占據(jù)主導(dǎo)的網(wǎng)游市場(chǎng),當(dāng)然時(shí)間收費(fèi)游戲也需要這樣來(lái)做,我們的運(yùn)營(yíng)活動(dòng)效果評(píng)估,玩家的充值購(gòu)買習(xí)慣,游戲行為跟蹤,精準(zhǔn)推送都是和關(guān)聯(lián)分析有很大的關(guān)系。其實(shí)游戲中道具的消費(fèi)除了玩家自身與系統(tǒng)的高度融合和自主消費(fèi)以外,其實(shí)還有一部分隱形的消費(fèi),或者說(shuō)是延伸消費(fèi),打個(gè)比方,比如我們?nèi)ヒ粋€(gè)超市目標(biāo)很明確就是要去買一瓶可樂(lè),然而往往我們結(jié)賬時(shí)手里不是單純就有一罐可樂(lè),可能還有口香糖,可能還有其他的商品,為什么?人是視覺(jué)動(dòng)物,純粹理性消費(fèi)存在,但是受到外界刺激和影響,往往刺激再生消費(fèi),也就是很多的沖動(dòng)型消費(fèi),而在游戲中來(lái)看,就是打開(kāi)這些消費(fèi),關(guān)聯(lián)分析就是尋找這些刺激因素,進(jìn)而延伸玩家的消費(fèi)。
  關(guān)聯(lián)規(guī)則是什么?
  規(guī)則這里就是一種衡量事物的標(biāo)準(zhǔn),再說(shuō)白了就是一個(gè)算法。關(guān)聯(lián)規(guī)則主要有兩種。今天就先說(shuō)說(shuō)簡(jiǎn)單規(guī)則的理論部分。
簡(jiǎn)單關(guān)聯(lián)規(guī)則
  簡(jiǎn)單關(guān)聯(lián)規(guī)則屬于無(wú)指導(dǎo)的學(xué)習(xí)方法,著重探索內(nèi)部結(jié)構(gòu)。簡(jiǎn)單關(guān)聯(lián)規(guī)則也是我們使用最多的一類技術(shù)。算法有Apriori、GRI、Carma,其中Apriori和Carma主要是如何提高關(guān)聯(lián)規(guī)則的分析效率,而GRI注重如何將單一概念層次的關(guān)聯(lián)推廣到更多概念層次的關(guān)聯(lián),進(jìn)而揭示事物內(nèi)在結(jié)構(gòu)。
  在網(wǎng)游方面的應(yīng)用目前我想到了幾個(gè):
  1、基于玩家的購(gòu)買行為進(jìn)行玩家區(qū)分;
  2、付費(fèi)用戶流失分析,比如是否是因?yàn)槟承┑谰叩南录軐?dǎo)致玩家付費(fèi)流失;
  3、道具商城道具的位置擺放,玩家購(gòu)買后的推薦購(gòu)買,交叉銷售。
簡(jiǎn)單關(guān)聯(lián)規(guī)則的數(shù)據(jù)存儲(chǔ)形式
  數(shù)據(jù)存儲(chǔ)形式主要有兩種,一種是交易數(shù)據(jù)格式,另一種是表格數(shù)據(jù)格式,詳見(jiàn)早期一篇文章所述內(nèi)容。
判斷標(biāo)準(zhǔn)
  說(shuō)到判斷標(biāo)準(zhǔn),其實(shí)就是對(duì)于簡(jiǎn)單關(guān)聯(lián)規(guī)則有效性實(shí)用性的檢驗(yàn),因?yàn)椴皇撬?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關(guān)聯(lián)規(guī)則都有效,某些規(guī)則適用范圍有限,進(jìn)而這些規(guī)則不具有有效性,所以我們要有一些判斷的標(biāo)準(zhǔn)。
  規(guī)則支持度(Support)
  支持度,就是支持某一事件發(fā)生的概率,可以這么理解,所謂規(guī)則支持度就是表示商品A和商品B同時(shí)出現(xiàn)的概率(A和B同時(shí)出現(xiàn)這一事件的概率),即S A->B=N(A&B)/N ,N代表總的個(gè)數(shù),N(A&B)代表同時(shí)出現(xiàn)A和B的次數(shù),如果S值很低,那么規(guī)則普遍性一般,應(yīng)用層次太低。
  規(guī)則置信度(confidence)
  置信度,就是特定個(gè)體對(duì)待特定命題真實(shí)性相信的程度,也就是令人信服的水平,具體來(lái)說(shuō)比如在商品A購(gòu)買的顧客中,購(gòu)買商品B的概率,或者說(shuō)購(gòu)買水平。這其實(shí)是一個(gè)條件概率的問(wèn)題,即在A出現(xiàn)情況下B出現(xiàn)的可能性,即C A->B=N(A&B)/N(A),如果置信水平高,那么這種特定條件出現(xiàn)可能性就很高。
    前項(xiàng)支持度 S A = N(A)/N
    后項(xiàng)支持度 S B=N(B)/N
  由此這里我們可以推斷出 C和S是存在關(guān)系的,即:
    C A->B = S A->B/ S A
  在關(guān)聯(lián)分析,我們希望得到的規(guī)則是具有很高的C和S的??墒侨绻鸖高,但是C低,那么整個(gè)的這個(gè)規(guī)則令人信服的程度就會(huì)下降,如果反過(guò)來(lái),那么意味著這個(gè)規(guī)則產(chǎn)生的普遍性不高,就是應(yīng)用層有問(wèn)題,但是置信水平還可以。
  所以說(shuō)我們雖然可以通過(guò)簡(jiǎn)單關(guān)聯(lián)規(guī)則分析生成很多的關(guān)聯(lián)規(guī)則,然而我們必須得有一個(gè)臨界值(閾值),來(lái)控制C和S的水平,因?yàn)槲覀兡苌珊芏嗟囊?guī)則,通過(guò)閾值控制掃除一些我們不需要的或者無(wú)用的規(guī)則。
  當(dāng)然了,通過(guò)我們?cè)O(shè)定的閾值的置信度和支持度就是一條有效的規(guī)則,但有效就一定意味著可以使用嗎?事實(shí)上,還不行,因?yàn)橛行У囊?guī)則下不一定有實(shí)際的指導(dǎo)意義。因?yàn)榻沂境龅年P(guān)系有可能只是一種隨機(jī)關(guān)聯(lián)的關(guān)系。說(shuō)白了就是巧合。舉一個(gè)例子,通過(guò)關(guān)聯(lián)規(guī)則我們發(fā)現(xiàn)購(gòu)買道具A的玩家40%為男性角色,S=40%,C=40%。此時(shí)閾值為20%,看來(lái)符合以上我們所說(shuō)的情況,但是我們經(jīng)過(guò)分析發(fā)現(xiàn)玩家中那行角色比例也是40%,而這就是一種隨機(jī)關(guān)聯(lián),不具備實(shí)用性。
  因此我們需要一些指標(biāo)來(lái)輔助監(jiān)測(cè)規(guī)則實(shí)用性。
  規(guī)則提升度(lift)
    L A->B=C A->B/ S B
  實(shí)際就是置信度與后項(xiàng)的比值。提升度反映了商品A出現(xiàn)對(duì)于商品B的影響程度。大于1才有意義,也就是A對(duì)于B的促進(jìn)作用,越大越好。
  置信差(Confidence Difference)
  置信度與后項(xiàng)支持度的絕對(duì)值差。
    CD=|C A->B-S B|
  置信差進(jìn)一步提高關(guān)聯(lián)規(guī)則結(jié)果的可用性,其差代表了獲得關(guān)聯(lián)規(guī)則所提供信息的多少。
  置信率(Confidence Ratio)
    CR=1-|min(lift,1/lift)|
  置信率當(dāng)然也是越高越好,有的時(shí)候我們置信差很低,那么也可以參考CR值,與剛才提到的lift相似,lift越大越好,進(jìn)而這里來(lái)看,lift越大,那么CR也就越大。
  當(dāng)然了衡量的標(biāo)準(zhǔn)還有正態(tài)卡方、信息差,這里不再講述,感興趣自己可以看看。
  下面我們說(shuō)說(shuō)序列關(guān)聯(lián)規(guī)則。
序列關(guān)聯(lián)規(guī)則
  核心在于怎么找到事物發(fā)展的前后關(guān)聯(lián)性,比如用戶訪問(wèn)web站點(diǎn),具體的頁(yè)面點(diǎn)擊習(xí)慣,購(gòu)買商品過(guò)程關(guān)聯(lián)性,較為著名的比如超市商品貨架的布局。研究序列關(guān)聯(lián)性可以幫助我們推斷后續(xù)發(fā)生的可能性,并調(diào)整好順序,擴(kuò)大份額。這在游戲中的道具推送,玩家與系統(tǒng)的交互,任務(wù)接取,道具購(gòu)買有直接的關(guān)系。
  如下圖所示,為玩家的購(gòu)買道具時(shí)序數(shù)據(jù),每一行為一個(gè)事務(wù)序列數(shù),代表一個(gè)玩家。

  比如1號(hào)玩家首先購(gòu)買A和B,之后購(gòu)買C,再次購(gòu)買D,這就是一個(gè)購(gòu)買序列,而這個(gè)序列對(duì)于我們分析購(gòu)買流失,具有很大的意義。1號(hào)顧客的購(gòu)買序列可以表示出來(lái),此外,購(gòu)買序列還可以進(jìn)行分解,分列出子序列。如下圖。

定量分析序列指標(biāo)
  序列長(zhǎng)度
  表示序列拆分出來(lái)的子序列,以玩家1為例有3個(gè)子序列,因此序列長(zhǎng)度為3。
  序列大小
  表示序列中擁有的項(xiàng)目數(shù)量,玩家1有四個(gè)項(xiàng)目,A、B、C、D。
  序列支持度
  序列普遍性的衡量標(biāo)準(zhǔn),包含某個(gè)序列的序列的事事務(wù)序列數(shù)占總事務(wù)序列數(shù)的比例。比如C{D}>C{A}的支持度為2/4=0.5。
  序列規(guī)則支持度
  包含某序列的規(guī)則的事務(wù)占總事務(wù)的比例。
序列規(guī)則置信度
  同時(shí)包含前項(xiàng)和后項(xiàng)事務(wù)數(shù)與僅包含前項(xiàng)事務(wù)數(shù)的比值,即支持度與前項(xiàng)支持度的比值。
  好了,理論第一部分就到這里,以后說(shuō)說(shuō)兩類關(guān)聯(lián)分析的算法 Apriori、GRI、Carma、Sequence。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }