99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀數(shù)據(jù)挖掘系列使用weka做關(guān)聯(lián)規(guī)則挖掘

數(shù)據(jù)挖掘系列使用weka做關(guān)聯(lián)規(guī)則挖掘

2016-08-15

數(shù)據(jù)挖掘系列使用weka做關(guān)聯(lián)規(guī)則挖掘

前面幾篇介紹了關(guān)聯(lián)規(guī)則的一些基本概念和兩個基本算法，但實際在商業(yè)應(yīng)用中，寫算法反而比較少，理解數(shù)據(jù)，把握數(shù)據(jù)，利用工具才是重要的，前面的基礎(chǔ)篇是對算法的理解，這篇將介紹開源利用數(shù)據(jù)挖掘工具weka進(jìn)行管理規(guī)則挖掘。

weka數(shù)據(jù)集格式arff

arff標(biāo)準(zhǔn)數(shù)據(jù)集簡介

weka的數(shù)據(jù)文件后綴為arff（Attribute-Relation File Format，即屬性關(guān)系文件格式），arff文件分為注釋、關(guān)系名、屬性名、數(shù)據(jù)域幾大部分，注釋用百分號開頭%，關(guān)系名用@relation申明，屬性用@attribute什么，數(shù)據(jù)域用@data開頭，看這個示例數(shù)據(jù)集（安裝weka后，可在weka的安裝目錄/data下找到weather.numeric.arff）：　　

%weather dataset
@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

當(dāng)數(shù)據(jù)是數(shù)值型，在屬性名的后面加numeric，如果是離散值（枚舉值），就用一個大括號將值域列出來。@data下一行后為數(shù)據(jù)記錄，數(shù)據(jù)為矩陣形式，即每一個的數(shù)據(jù)元素個數(shù)相等，若有缺失值，就用問號?表示。

arff稀疏數(shù)據(jù)集　　　

我們做關(guān)聯(lián)規(guī)則挖掘，比如購物籃分析，我們的購物清單數(shù)據(jù)肯定是相當(dāng)稀疏的，超市的商品種類有上10000種，而每個人買東西只會買幾種商品，這樣如果用矩陣形式表示數(shù)據(jù)顯然浪費(fèi)了很多的存儲空間，我們需要用稀疏數(shù)據(jù)表示，看我們的購物清單示例（basket.txt)：　

freshmeat dairy confectionery
freshmeat    confectionery
cannedveg    frozenmeal    beer    fish
dairy    wine
freshmeat    wine    fish
fruitveg    softdrink
beer
fruitveg    frozenmeal
fruitveg    fish
fruitveg    freshmeat    dairy    cannedveg    wine    fish
fruitveg    fish
dairy    cannedmeat    frozenmeal    fish

數(shù)據(jù)集的每一行表示一個去重后的購物清單，進(jìn)行關(guān)聯(lián)規(guī)則挖掘時，我們可以先把商品名字映射為id號，挖掘的過程只有id號就是了，到規(guī)則挖掘出來之后再轉(zhuǎn)回商品名就是了，retail.txt是一個轉(zhuǎn)化為id號的零售數(shù)據(jù)集，數(shù)據(jù)集的前面幾行如下：　　

0    1    2    3    4    5    6    7    8    9    10    11    12    13    14    15    16    17    18    19    20    21    22    23    24    25    26    27    28
30    31    32
33    34    35
36    37    38    39    40    41    42    43    44    45    46
38    39    47    48
38    39    48    49    50    51    52    53    54    55    56    57    58
32    41    59    60    61    62
3    39    48
63    64    65    66    67    68
32    69

這個數(shù)據(jù)集的商品有16469個，一個購物的商品數(shù)目遠(yuǎn)少于商品中數(shù)目，因此要用稀疏數(shù)據(jù)表，weka支持稀疏數(shù)據(jù)表示，但我在運(yùn)用apriori算法時有問題，先看一下weka的稀疏數(shù)據(jù)要求：稀疏數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的其他部分都一樣，唯一不同就是@data后的數(shù)據(jù)記錄，示例如下(basket.arff)：

可以看到

表示為了：

稀疏數(shù)據(jù)的表示格式為：{<屬性列號><空格><值>,...,<屬性列號><空格><值>}，注意每條記錄要用大括號，屬性列號不是id號，屬性列號是從0開始的，即第一個@attribute 后面的屬性是第0個屬性，T表示數(shù)據(jù)存在。

規(guī)則挖取

我們先用標(biāo)準(zhǔn)數(shù)據(jù)集normalBasket.arff[1]試一下，weka的apriori算法和FPGrowth算法。

1、安裝好weka后，打開選擇Explorer

2、打開文件

3、選擇關(guān)聯(lián)規(guī)則挖掘，選擇算法

4、設(shè)置參數(shù)

參數(shù)主要是選擇支持度(lowerBoundMinSupport)，規(guī)則評價機(jī)制metriType（見上一篇）及對應(yīng)的最小值，參數(shù)設(shè)置說明如下[2]：

1.        car 如果設(shè)為真，則會挖掘類關(guān)聯(lián)規(guī)則而不是全局關(guān)聯(lián)規(guī)則。
2.        classindex 類屬性索引。如果設(shè)置為-1，最后的屬性被當(dāng)做類屬性。
3.        delta 以此數(shù)值為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)則。
4.        lowerBoundMinSupport 最小支持度下界。
5.        metricType 度量類型。設(shè)置對規(guī)則進(jìn)行排序的度量依據(jù)?？梢允牵褐眯哦龋?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關(guān)聯(lián)規(guī)則只能用置信度挖掘），提升度(lift)，杠桿率(leverage)，確信度(conviction)。
在 Weka中設(shè)置了幾個類似置信度(confidence)的度量來衡量規(guī)則的關(guān)聯(lián)程度，它們分別是：
a)        Lift ： P(A,B)/(P(A)P(B)) Lift=1時表示A和B獨(dú)立。這個數(shù)越大(>1)，越表明A和B存在于一個購物籃中不是偶然現(xiàn)象,有較強(qiáng)的關(guān)聯(lián)度.
b)        Leverage :P(A,B)-P(A)P(B)Leverage=0時A和B獨(dú)立，Leverage越大A和B的關(guān)系越密切
c)        Conviction:P(A)P(!B)/P(A,!B) （!B表示B沒有發(fā)生） Conviction也是用來衡量A和B的獨(dú)立性。從它和lift的關(guān)系（對B取反，代入Lift公式后求倒數(shù)）可以看出，這個值越大, A、B越關(guān)聯(lián)。
6.        minMtric 度量的最小值。
7.        numRules 要發(fā)現(xiàn)的規(guī)則數(shù)。
8.        outputItemSets 如果設(shè)置為真，會在結(jié)果中輸出項集。
9.        removeAllMissingCols 移除全部為缺省值的列。

10.    significanceLevel 重要程度。重要性測試（僅用于置信度）。

11.    upperBoundMinSupport 最小支持度上界。從這個值開始迭代減小最小支持度。

12.    verbose 如果設(shè)置為真，則算法會以冗余模式運(yùn)行。

設(shè)置好參數(shù)后點(diǎn)擊start運(yùn)行可以看到Apriori的運(yùn)行結(jié)果：

FPGrowth運(yùn)行的結(jié)果是一樣的：

每條規(guī)則都帶有出現(xiàn)次數(shù)、自信度、相關(guān)度等數(shù)值。

下面測一個大一點(diǎn)的數(shù)據(jù)集retail.arff[1]（retail.arff是由retail.txt轉(zhuǎn)化而來，為了不造成誤解，我在id好前加了一個"I"，比如2變?yōu)镮2），這個數(shù)據(jù)用的稀疏數(shù)據(jù)表示方法，數(shù)據(jù)記錄有88162條，用Apriori算法在我的2G電腦上跑不出來，直接內(nèi)存100%，用FPGrowth可以輕松求出，看一下運(yùn)行結(jié)果：　　

其他參數(shù)可以自己調(diào)整比較。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

關(guān)聯(lián)規(guī)則 Apriori 數(shù)據(jù)挖掘

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當(dāng)選的奇跡會再發(fā)生嗎？

CDA報考指南

報考流程
考試時間
報名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘系列使用weka做關(guān)聯(lián)規(guī)則挖掘

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng) ...

【CDA干貨】機(jī)器學(xué)習(xí)解決實際問題的核心關(guān)鍵：從業(yè) ...

【CDA干貨】SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘系列使用weka做關(guān)聯(lián)規(guī)則挖掘

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng) ...

【CDA干貨】機(jī)器學(xué)習(xí)解決實際問題的核心關(guān)鍵：從業(yè) ...

【CDA干貨】SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...