99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法

數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法

2016-09-09

數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法

關聯(lián)規(guī)則挖掘算法在生活中的應用處處可見，幾乎在各個電子商務網站上都可以看到其應用

舉個簡單的例子

如當當網，在你瀏覽一本書的時候，可以在頁面中看到一些套餐推薦，本書+有關系的書1+有關系的書2+...+其他物品=多少￥

而這些套餐就很有可能符合你的胃口，原本只想買一本書的你可能會因為這個推薦而買了整個套餐

這與userCF和itemCF不同的是，前兩種是推薦類似的，或者你可能喜歡的商品列表

而關聯(lián)規(guī)則挖掘的是n個商品是不是經常一起被購買，如果是，那個n個商品之中，有一個商品正在被瀏覽（有被購買的意向），那么這時候系統(tǒng)是不是就能適當?shù)膶⑵渌鹡-1個商品推薦給這個用戶，因為其他很多用戶在購買這個商品的時候會一起購買其他n-1的商品，將這n個商品做成一個套餐優(yōu)惠，是不是能促進消費呢

這n個商品之間的關系（經常被用戶一起購買）就是一個關聯(lián)規(guī)則

下面介紹一個比較簡單的關聯(lián)規(guī)則算法---apriori

首先介紹幾個專業(yè)名詞

挖掘數(shù)據(jù)集：就是待挖掘的數(shù)據(jù)集合。這個好理解

頻繁模式：頻繁的出現(xiàn)在挖掘數(shù)據(jù)集中的模式，例如項集，子結構，子序列等。這個怎么理解呢，簡單的說就是挖掘數(shù)據(jù)集中，頻繁出現(xiàn)的一些子集數(shù)據(jù)

關聯(lián)規(guī)則：例如，牛奶=>雞蛋{支持度=2%，置信度=60%}。關聯(lián)規(guī)則表示了a物品和b物品之間的關系，通過支持度和置信度來表示（當然不只是兩個物品之間，也有可能是n個物品之間的關系），支持度和置信度定義的值的大小會影響到整個算法的性能

支持度：如上例子中，支持度表示，在所有用戶中，一起購買了牛奶和雞蛋的用戶所占的比例是多少。支持度有一個預定義的初值（如上例中的2%），如果最終的支持度小于這個初值，那么這個牛奶和雞蛋就不能成為一個頻繁模式

置信度：如上例子中，置信度表示，在所有購買了牛奶的用戶中，同時購買了雞蛋的用戶所占的比例是多少。和支持度一樣，置信度也會有一個初值（上例中的60%，表示購買了牛奶的用戶中60%還購買了雞蛋），如果最終的置信度小于這個初值，那么牛奶和雞蛋也不能成為一個頻繁模式

支持度和置信度也可以用具體的數(shù)據(jù)來表示，而不一定是一個百分比

apriori算法的基本思想就是：在一個有n項的頻繁模式中，它的所有子集也是頻繁模式

下面來看一個購物車數(shù)據(jù)的例子

TID表示購物車的編號，每行表示購物車中對應的商品列表，商品為i1,i2,i3,i4,i5，D代表整個數(shù)據(jù)表

apriori算法的工作過程如下圖：

（1）首先掃描整個數(shù)據(jù)表D，計算每個商品的支持度（出現(xiàn)的次數(shù)），得到候選C1表。這里將每個獨立的商品都看成一個頻繁模式來處理，計算它的支持度

（2）將每個商品的支持度和最小支持度作對比（最小支持度為2），小于2的商品將被過濾，得到L1。這里每個商品的支持度都大于2，所以全部保留

（3）將L1和自身進行自然連接操作，得到候選C2表。也就是進行L1*L1操作，將L1進行全排列，去掉重復的行得到候選C2（如，{i1,i1},{i2,i2}等），C2中的每個項都是由兩個商品組成的

（4）再次掃描整個表D，計算C2中每行的支持度。這里將C2中的每行（兩個商品）都當做一個頻繁模式計算支持度

（5）將C2中的每項支持度和最小支持度2作比較，過濾，得到L2。

（6）在將L2和自身做自然連接得到候選C3。L2*L2的結果為：{i1,i2,i3},{i1,i2,i5}{i1.i3,i5}{i2,i3,i4}{i2,i3,i5}{i2,i4,i5}，{i1,i2}和{i1,i3}的結果為{i1,i2,i3}，計算方式為：前n-1個項必須是一致的（就是i1），結果就是前n-1項+各自的第n項（i2，i3）。那么為什么產生的C3中只有{i1,i2,i3},{i1,i2,i5}呢，回頭看看apriori算法的基本思想，如果第三個{i1,i3,i5}也是頻繁模式的話，那么它的所有子集也應該是頻繁模式，而在L2中無法找到{i3,i5}這個項，所以{i1.i3,i5}不是一個頻繁模式，過濾。最終結果就是C3

（7）再次掃描整個表D，計算C3中每行的支持度。這里將C3中的每行（三個商品）都當做一個頻繁模式計算支持度

（8）將C3中的每項支持度和最小支持度2作比較，過濾，得到L3

由于整個表D最多的項是4，而且只出現(xiàn)一次，所以它不可能是頻繁模式，故計算到三項的頻繁模式就可以結束了

算法的輸出結果應該是;1，L2，L3集合，其中每個項都是一個頻繁模式

例如我們得到一個頻繁模式{i1,i2,i3}，能夠提取哪些關聯(lián)規(guī)則？

{i1,i2}=>i3，表示購買了i1，i2的用戶中還購買了i3的用戶所占的比例。{i1,i2,i3}的出現(xiàn)次數(shù)為2，{i1,i2}的出現(xiàn)次數(shù)為4，故置信度為2/4=50%

類似的可以算出

{i1,i3}=>i2，confidence=50%

{i2,i3}=>i1，confidence=50%

i1=>{i2,i3}，confidence=33%

i2=>{i1,i3}，confidence=28%

i3=>{i1,i2}，confidence=33%

也就是說，當一個用戶購買了i1，i3的時候系統(tǒng)可以將i2一起當做一個套餐推薦給用戶，因為這三個商品頻繁的被一起購買

但是，通過對算法整個過程的描述，我們可以看到，apriori算法在計算上面的簡單例子中，進行了3次全表掃描，而且在進行L1自然連接的時候，如果購物車項的數(shù)據(jù)是很大（比如100），這時候進行自然連接操作的計算量是巨大的，內存無法加載如此巨大的數(shù)據(jù)

所以apriori算法現(xiàn)在已經很少使用了，但是通過了解apriori算法可以讓我們對關聯(lián)規(guī)則挖掘進一步了解，并且可以作為一個比較基礎，和其他關聯(lián)規(guī)則算法做對比，從而得知哪個算法性能好，好在哪里。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

關聯(lián)規(guī)則商品推薦數(shù)據(jù)挖掘

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調，回調的第一個參數(shù)驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務的價值轉化者 ...

SQL 在預測分析中的應用：從數(shù)據(jù)查詢到趨勢預判 ...

數(shù)據(jù)查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘(一)apriori算法

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務的價值轉化者 ...

SQL 在預測分析中的應用：從數(shù)據(jù)查詢到趨勢預判 ...

數(shù)據(jù)查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...