99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法
數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法
2016-09-09
收藏

數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法

關聯(lián)規(guī)則挖掘算法在生活中的應用處處可見,幾乎在各個電子商務網站上都可以看到其應用

舉個簡單的例子

如當當網,在你瀏覽一本書的時候,可以在頁面中看到一些套餐推薦,本書+有關系的書1+有關系的書2+...+其他物品=多少¥

而這些套餐就很有可能符合你的胃口,原本只想買一本書的你可能會因為這個推薦而買了整個套餐

這與userCF和itemCF不同的是,前兩種是推薦類似的,或者你可能喜歡的商品列表

關聯(lián)規(guī)則挖掘的是n個商品是不是經常一起被購買,如果是,那個n個商品之中,有一個商品正在被瀏覽(有被購買的意向),那么這時候系統(tǒng)是不是就能適當?shù)膶⑵渌鹡-1個商品推薦給這個用戶,因為其他很多用戶在購買這個商品的時候會一起購買其他n-1的商品,將這n個商品做成一個套餐優(yōu)惠,是不是能促進消費呢

這n個商品之間的關系(經常被用戶一起購買)就是一個關聯(lián)規(guī)則

下面介紹一個比較簡單的關聯(lián)規(guī)則算法---apriori

首先介紹幾個專業(yè)名詞

挖掘數(shù)據(jù)集:就是待挖掘的數(shù)據(jù)集合。這個好理解

頻繁模式:頻繁的出現(xiàn)在挖掘數(shù)據(jù)集中的模式,例如項集,子結構,子序列等。這個怎么理解呢,簡單的說就是挖掘數(shù)據(jù)集中,頻繁出現(xiàn)的一些子集數(shù)據(jù)

關聯(lián)規(guī)則:例如,牛奶=>雞蛋{支持度=2%,置信度=60%}。關聯(lián)規(guī)則表示了a物品和b物品之間的關系,通過支持度和置信度來表示(當然不只是兩個物品之間,也有可能是n個物品之間的關系),支持度和置信度定義的值的大小會影響到整個算法的性能

支持度:如上例子中,支持度表示,在所有用戶中,一起購買了牛奶和雞蛋的用戶所占的比例是多少。支持度有一個預定義的初值(如上例中的2%),如果最終的支持度小于這個初值,那么這個牛奶和雞蛋就不能成為一個頻繁模式

置信度:如上例子中,置信度表示,在所有購買了牛奶的用戶中,同時購買了雞蛋的用戶所占的比例是多少。和支持度一樣,置信度也會有一個初值(上例中的60%,表示購買了牛奶的用戶中60%還購買了雞蛋),如果最終的置信度小于這個初值,那么牛奶和雞蛋也不能成為一個頻繁模式

支持度和置信度也可以用具體的數(shù)據(jù)來表示,而不一定是一個百分比

apriori算法的基本思想就是:在一個有n項的頻繁模式中,它的所有子集也是頻繁模式

下面來看一個購物車數(shù)據(jù)的例子

TID表示購物車的編號,每行表示購物車中對應的商品列表,商品為i1,i2,i3,i4,i5,D代表整個數(shù)據(jù)表

apriori算法的工作過程如下圖:

(1)首先掃描整個數(shù)據(jù)表D,計算每個商品的支持度(出現(xiàn)的次數(shù)),得到候選C1表。這里將每個獨立的商品都看成一個頻繁模式來處理,計算它的支持度

(2)將每個商品的支持度和最小支持度作對比(最小支持度為2),小于2的商品將被過濾,得到L1。這里每個商品的支持度都大于2,所以全部保留

(3)將L1和自身進行自然連接操作,得到候選C2表。也就是進行L1*L1操作,將L1進行全排列,去掉重復的行得到候選C2(如,{i1,i1},{i2,i2}等),C2中的每個項都是由兩個商品組成的

(4)再次掃描整個表D, 計算C2中每行的支持度。這里將C2中的每行(兩個商品)都當做一個頻繁模式計算支持度

(5)將C2中的每項支持度和最小支持度2作比較,過濾,得到L2。

(6)在將L2和自身做自然連接得到候選C3。L2*L2的結果為:{i1,i2,i3},{i1,i2,i5}{i1.i3,i5}{i2,i3,i4}{i2,i3,i5}{i2,i4,i5},{i1,i2}和{i1,i3}的結果為{i1,i2,i3},計算方式為:前n-1個項必須是一致的(就是i1),結果就是前n-1項+各自的第n項(i2,i3)。那么為什么產生的C3中只有{i1,i2,i3},{i1,i2,i5}呢,回頭看看apriori算法的基本思想,如果第三個{i1,i3,i5}也是頻繁模式的話,那么它的所有子集也應該是頻繁模式,而在L2中無法找到{i3,i5}這個項,所以{i1.i3,i5}不是一個頻繁模式,過濾。最終結果就是C3

(7)再次掃描整個表D,計算C3中每行的支持度。這里將C3中的每行(三個商品)都當做一個頻繁模式計算支持度

(8)將C3中的每項支持度和最小支持度2作比較,過濾,得到L3

由于整個表D最多的項是4,而且只出現(xiàn)一次,所以它不可能是頻繁模式,故計算到三項的頻繁模式就可以結束了

算法的輸出結果應該是;1,L2,L3集合,其中每個項都是一個頻繁模式

例如我們得到一個頻繁模式{i1,i2,i3},能夠提取哪些關聯(lián)規(guī)則?

{i1,i2}=>i3,表示購買了i1,i2的用戶中還購買了i3的用戶所占的比例。{i1,i2,i3}的出現(xiàn)次數(shù)為2,{i1,i2}的出現(xiàn)次數(shù)為4,故置信度為2/4=50%

類似的可以算出

{i1,i3}=>i2,confidence=50%

{i2,i3}=>i1,confidence=50%

i1=>{i2,i3},confidence=33%

i2=>{i1,i3},confidence=28%

i3=>{i1,i2},confidence=33%

也就是說,當一個用戶購買了i1,i3的時候系統(tǒng)可以將i2一起當做一個套餐推薦給用戶,因為這三個商品頻繁的被一起購買

但是,通過對算法整個過程的描述,我們可以看到,apriori算法在計算上面的簡單例子中,進行了3次全表掃描,而且在進行L1自然連接的時候,如果購物車項的數(shù)據(jù)是很大(比如100),這時候進行自然連接操作的計算量是巨大的,內存無法加載如此巨大的數(shù)據(jù)

所以apriori算法現(xiàn)在已經很少使用了,但是通過了解apriori算法可以讓我們對關聯(lián)規(guī)則挖掘進一步了解,并且可以作為一個比較基礎,和其他關聯(lián)規(guī)則算法做對比,從而得知哪個算法性能好,好在哪里。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }