99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀數(shù)據(jù)挖掘系列關(guān)聯(lián)規(guī)則評(píng)價(jià)
數(shù)據(jù)挖掘系列關(guān)聯(lián)規(guī)則評(píng)價(jià)
2016-08-15
收藏

數(shù)據(jù)挖掘系列關(guān)聯(lián)規(guī)則評(píng)價(jià)

前面我們討論的關(guān)聯(lián)規(guī)則都是用支持度和自信度來(lái)評(píng)價(jià)的,如果一個(gè)規(guī)則的自信度高,我們就說(shuō)它是一條強(qiáng)規(guī)則,但是自信度和支持度有時(shí)候并不能度量規(guī)則的實(shí)際意義和業(yè)務(wù)關(guān)注的興趣點(diǎn)。

一個(gè)誤導(dǎo)我們的強(qiáng)規(guī)則

看這樣一個(gè)例子,我們分析一個(gè)購(gòu)物籃數(shù)據(jù)中購(gòu)買游戲光碟和購(gòu)買影片光碟之間的關(guān)聯(lián)關(guān)系。交易數(shù)據(jù)集共有10,000條記錄,其中購(gòu)買6000條包含游戲光碟,7500條包含影片光碟,4000條既包含游戲光碟又包含影片光碟。數(shù)據(jù)集如下表所示:

  買游戲 不買游戲 行總計(jì)
買影片 4000 3500 7500
不買影片 2000 500 2500
列總計(jì) 6000 4000 10000

假設(shè)我們?cè)O(shè)置得最小支持度為30%,最小自信度為60%。從上面的表中,可以得到:support(買游戲光碟—>買影片光碟)=4000/10000=40%,confidence(買游戲光碟—>買影片光碟)=4000/7500*100%=66%(寫錯(cuò)了,應(yīng)該是4000/6000)。這條規(guī)則的支持度和自信度都滿足要求,因此我們很興奮,我們找到了一條強(qiáng)規(guī)則,于是我們建議超市把影片光碟和游戲光碟放在一起,可以提高銷量。

可是我們想想,一個(gè)喜歡的玩游戲的人會(huì)有時(shí)間看影片么,這個(gè)規(guī)則是不是有問(wèn)題,事實(shí)上這條規(guī)則誤導(dǎo)了我們。在整個(gè)數(shù)據(jù)集中買影片光碟的概率p(買影片)=7500/10000=75%,而買游戲的人也買影片的概率只有66%,66%<75%恰恰說(shuō)明了買游戲光碟抑制了影片光碟的購(gòu)買,也就是說(shuō)買了游戲光碟的人更傾向于不買影片光碟,這才是符合現(xiàn)實(shí)的。

從上面的例子我們看到,支持度和自信度并不能過(guò)成功濾掉那些我們不感興趣的規(guī)則,因此我們需要一些新的評(píng)價(jià)標(biāo)準(zhǔn),下面介紹六中評(píng)價(jià)標(biāo)準(zhǔn):相關(guān)性系數(shù),卡方指數(shù),全自信度、最大自信度、Kulc、cosine距離。

相關(guān)性系數(shù)lift

從上面游戲和影片的例子中,我們可以看到游戲和影片不是正相關(guān)的,因此用相關(guān)性度量關(guān)聯(lián)規(guī)則可以過(guò)濾這樣的規(guī)則,對(duì)于規(guī)則A—>B或者B—>A,lift(A,B)=P(A交B)/(P(A)*P(B)),如果lift(A,B)>1表示A、B呈正相關(guān),lift(A,B)<1表示A、B呈負(fù)相關(guān),lift(A,B)=1表示A、B不相關(guān)(獨(dú)立)。實(shí)際運(yùn)用中,正相關(guān)和負(fù)相關(guān)都是我們需要關(guān)注的,而獨(dú)立往往是我們不需要的,兩個(gè)商品都沒(méi)有相互影響也就是不是強(qiáng)規(guī)則,lift(A,B)等于1的情形也很少,一般只要接近于1我們就認(rèn)為是獨(dú)立了。

注意相關(guān)系數(shù)只能確定相關(guān)性,相關(guān)不是因果,所以A—>B或者B—>A兩個(gè)規(guī)則的相關(guān)系數(shù)是一樣的,另外lift(A,B)=P(A交B)/(P(A)*P(B))=P(A)*P(B|A)/(P(A)*P(B))=P(B|A)/P(B)=confidence(A—>B)/support(B)=confidence(B—>A)/support(A)。

卡方系數(shù)clip_image002[4]

卡方分布是數(shù)理統(tǒng)計(jì)中的一個(gè)重要分布,利用卡方系數(shù)我們可以確定兩個(gè)變量是否相關(guān)??ǚ较禂?shù)的定義:

clip_image002[8]

公式中的observed表示數(shù)據(jù)的實(shí)際值,expected表示期望值,不理解沒(méi)關(guān)系,我們看一個(gè)例子就明白了。

  買游戲 不買游戲 行總計(jì)
買影片 4000(4500) 3500(3000) 7500
不買影片 2000(1500) 500(1000) 2500
列總計(jì) 6000 4000 10000

上面表格的括號(hào)中表示的是期望值,(買影片,買游戲)的期望值E=6000*(7500/10000)=4500,總體記錄中有75%的人買影片,而買游戲的有6000人,于是我們期望這6000人中有75%(即4500)的人買影片。其他三個(gè)值可以類似計(jì)算得到?,F(xiàn)在我們計(jì)算一下,買游戲與買影片的卡方系數(shù):

卡方系數(shù)X=(4000-4500)^2/4500+(3500-3000)^2/3000+(2000-1500)^2/1500+(500-1000)^2/1000=555.6。

卡方系數(shù)需要查表才能確定值的意義,基于置信水平和自由度(r-1)*(c-1)=(行數(shù)-1)*(列數(shù)-1)=1,查表得到自信度為(1-0.001)的值為6.63,555.6大于6.63,因此拒絕A、B獨(dú)立的假設(shè),即認(rèn)為A、B是相關(guān)的,而expected(買影片,買游戲)=4500>4000,因此認(rèn)為A、B呈負(fù)相關(guān)。這里需要一定的概率統(tǒng)計(jì)知識(shí)。如果覺(jué)得不好理解,可以用其他的評(píng)價(jià)標(biāo)準(zhǔn)。

全自信度

全自信度all_confidence的定義如下:all_confidence(A,B)=P(A交B)/max{P(A),P(B)}

=min{P(B|A),P(A|B)}

=min{confidence(A—>B),confidence(B—>A)}

對(duì)于前面的例子,all_confidence(買游戲,買影片)=min{confidence(買游戲—>買影片),confidence(買影片—>買游戲)}=min{66%,53.3%}=53.3%??梢钥闯鋈孕哦炔皇橐粋€(gè)好的衡量標(biāo)準(zhǔn)。

最大自信度

最大自信度則與全自信度相反,求的不是最小的支持度而是最大的支持度,max_confidence(A,B)=max{confidence(A—>B),confidence(B—>A)},不過(guò)感覺(jué)最大自信度不太實(shí)用。

Kulc

Kulc系數(shù)就是對(duì)兩個(gè)自信度做一個(gè)平均處理:kulc(A,B)=(confidence(A—>B)+confidence(B—>A))/2。,kulc系數(shù)是一個(gè)很好的度量標(biāo)準(zhǔn),稍后的對(duì)比我們會(huì)看到。

cosine(A,B)

cosine(A,B)=P(A交B)/sqrt(P(A)*P(B))=sqrt(P(A|B)*P(B|A))=sqrt(confidence(A—>B)*confidence(B—>A))

七個(gè)評(píng)價(jià)準(zhǔn)則的比較

這里有這么多的評(píng)價(jià)標(biāo)準(zhǔn),究竟哪些好,哪些能夠準(zhǔn)確反應(yīng)事實(shí),我們來(lái)看一組對(duì)比。

  milk milk 行總計(jì)
coffee MC MC C
coffee MC MC C
列總計(jì) M M total

上表中,M表示購(gòu)買了牛奶、C表示購(gòu)買了咖啡,M表示不購(gòu)買牛奶,C表示不購(gòu)買咖啡,下面來(lái)看6個(gè)不同的數(shù)據(jù)集,各個(gè)度量標(biāo)準(zhǔn)的值

數(shù)據(jù)
MC MC MC MC total C->M自信度 M->C自信度 卡方 lift all_conf max_conf Kulc cosine
D1 10000 1000 1000 100000 112000 0.91 0.91 90557 9.26 0.91 0.91 0.91 0.91
D2 10000 1000 1000 100 12100 0.91 0.91 0 1.00 0.91 0.91 0.91 0.91
D3 100 1000 1000 100000 102100 0.09 0.09 670 8.44 0.09 0.09 0.09 0.09
D4 1000 1000 1000 100000 103000 0.50 0.50 24740 25.75 0.50 0.50 0.50 0.50
D5 1000 100 10000 100000 111100 0.91 0.09 8173 9.18 0.09 0.91 0.50 0.29
D6 1000 10 100000 100000 201010 0.99 0.01 965 1.97 0.01 0.99 0.50 0.10

我們先來(lái)看前面四個(gè)數(shù)據(jù)集D1-D4,從后面四列可以看出,D1,D2中milk與coffee是正相關(guān)的,而D3是負(fù)相關(guān),D4中是不相關(guān)的,大家可能覺(jué)得,D2的lift約等于1應(yīng)該是不相關(guān)的,事實(shí)上對(duì)比D1你會(huì)發(fā)現(xiàn),lift受MC的影響很大,而實(shí)際上我們買牛奶和咖啡的相關(guān)性不應(yīng)該取決于不買牛奶和咖啡的交易記錄,這正是lift和卡方的劣勢(shì),容易受到數(shù)據(jù)記錄大小的影響。而全自信度、最大自信度、Kulc、cosine與MC無(wú)關(guān),它們不受數(shù)據(jù)記錄大小影響??ǚ胶蚻ift還把D3判別為正相關(guān),而實(shí)際上他們應(yīng)該是負(fù)相關(guān),M=100+1000=1100,如果這1100中有超過(guò)550的購(gòu)買coffee那么就認(rèn)為是正相關(guān),而我們看到MC=100<550,可以認(rèn)為是負(fù)相關(guān)的。

上面我們分析了全自信度、最大自信度、Kulc、cosine與空值無(wú)關(guān),但這幾個(gè)中哪一個(gè)更好呢?我們看后面四個(gè)數(shù)據(jù)集D4-D6,all_conf與cosine得出相同的結(jié)果,即D4中milk與coffee是獨(dú)立的,D5、D6是負(fù)相關(guān)的,D5中support(C-->M)=0.91而support(M-->C)=0.09,這樣的關(guān)系,簡(jiǎn)單的認(rèn)為是負(fù)相關(guān)或者正相關(guān)都不妥,Kulc做平均處理倒很好,平滑后認(rèn)為它們是無(wú)關(guān)的,我們?cè)僖胍粋€(gè)不平衡因子IR(imbalance ratio):

IR(A,B)=|sup(a)-sup(B)|/(sup(A)-sup(B)-sup(A交B))(注:應(yīng)為(sup(A)+sup(B)-sup(A交B))

D4總IR(C,M)=0,非常平衡,D5中IR(C,M)=0.89,不平衡,而D6中IR(C,M)=0.99極度不平衡,我們應(yīng)該看到Kulc值雖然相同但是平衡度不一樣,在實(shí)際中應(yīng)該意識(shí)到不平衡的可能,根據(jù)業(yè)務(wù)作出判斷,因此這里我們認(rèn)為Kulc結(jié)合不平衡因子的是較好的評(píng)價(jià)方法。

另外weka中還使用 Conviction和Leverage。Conviction(A,B) = P(A)P(B)/P(AB), Leverage(A,B) = P(A交B)-P(A)P(B),Leverage是不受空值影響,而Conviction是受空值影響的。

總結(jié)

本文介紹了9個(gè)關(guān)聯(lián)規(guī)則評(píng)價(jià)的準(zhǔn)則,其中全自信度、最大自信度、Kulc、cosine,Leverage是不受空值影響的,這在處理大數(shù)據(jù)集是優(yōu)勢(shì)更加明顯,因?yàn)榇髷?shù)據(jù)中想MC這樣的空記錄更多,根據(jù)分析我們推薦使用kulc準(zhǔn)則和不平衡因子結(jié)合的方法。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }