
關(guān)聯(lián)規(guī)則評(píng)價(jià)
前面我們討論的關(guān)聯(lián)規(guī)則都是用支持度和自信度來(lái)評(píng)價(jià)的,如果一個(gè)規(guī)則的自信度高,我們就說(shuō)它是一條強(qiáng)規(guī)則,但是自信度和支持度有時(shí)候并不能度量規(guī)則的實(shí)際意義和業(yè)務(wù)關(guān)注的興趣點(diǎn)。
一個(gè)誤導(dǎo)我們的強(qiáng)規(guī)則
看這樣一個(gè)例子,我們分析一個(gè)購(gòu)物籃數(shù)據(jù)中購(gòu)買游戲光碟和購(gòu)買影片光碟之間的關(guān)聯(lián)關(guān)系。交易數(shù)據(jù)集共有10,000條記錄,其中購(gòu)買6000條包含游戲光碟,7500條包含影片光碟,4000條既包含游戲光碟又包含影片光碟。數(shù)據(jù)集如下表所示:
|
買游戲 | 不買游戲 | 行總計(jì) |
買影片 | 4000 | 3500 | 7500 |
不買影片 | 2000 | 500 | 2500 |
列總計(jì) | 6000 | 4000 | 10000 |
假設(shè)我們?cè)O(shè)置得最小支持度為30%,最小自信度為60%。從上面的表中,可以得到:support(買游戲光碟—>買影片光碟)=4000/10000=40%,confidence(買游戲光碟—>買影片光碟)=4000/7500*100%=66%(寫錯(cuò)了,應(yīng)該是4000/6000)。這條規(guī)則的支持度和自信度都滿足要求,因此我們很興奮,我們找到了一條強(qiáng)規(guī)則,于是我們建議超市把影片光碟和游戲光碟放在一起,可以提高銷量。
可是我們想想,一個(gè)喜歡的玩游戲的人會(huì)有時(shí)間看影片么,這個(gè)規(guī)則是不是有問(wèn)題,事實(shí)上這條規(guī)則誤導(dǎo)了我們。在整個(gè)數(shù)據(jù)集中買影片光碟的概率p(買影片)=7500/10000=75%,而買游戲的人也買影片的概率只有66%,66%<75%恰恰說(shuō)明了買游戲光碟抑制了影片光碟的購(gòu)買,也就是說(shuō)買了游戲光碟的人更傾向于不買影片光碟,這才是符合現(xiàn)實(shí)的。
從上面的例子我們看到,支持度和自信度并不能過(guò)成功濾掉那些我們不感興趣的規(guī)則,因此我們需要一些新的評(píng)價(jià)標(biāo)準(zhǔn),下面介紹六中評(píng)價(jià)標(biāo)準(zhǔn):相關(guān)性系數(shù),卡方指數(shù),全自信度、最大自信度、Kulc、cosine距離。
相關(guān)性系數(shù)lift
從上面游戲和影片的例子中,我們可以看到游戲和影片不是正相關(guān)的,因此用相關(guān)性度量關(guān)聯(lián)規(guī)則可以過(guò)濾這樣的規(guī)則,對(duì)于規(guī)則A—>B或者B—>A,lift(A,B)=P(A交B)/(P(A)*P(B)),如果lift(A,B)>1表示A、B呈正相關(guān),lift(A,B)<1表示A、B呈負(fù)相關(guān),lift(A,B)=1表示A、B不相關(guān)(獨(dú)立)。實(shí)際運(yùn)用中,正相關(guān)和負(fù)相關(guān)都是我們需要關(guān)注的,而獨(dú)立往往是我們不需要的,兩個(gè)商品都沒(méi)有相互影響也就是不是強(qiáng)規(guī)則,lift(A,B)等于1的情形也很少,一般只要接近于1我們就認(rèn)為是獨(dú)立了。
注意相關(guān)系數(shù)只能確定相關(guān)性,相關(guān)不是因果,所以A—>B或者B—>A兩個(gè)規(guī)則的相關(guān)系數(shù)是一樣的,另外lift(A,B)=P(A交B)/(P(A)*P(B))=P(A)*P(B|A)/(P(A)*P(B))=P(B|A)/P(B)=confidence(A—>B)/support(B)=confidence(B—>A)/support(A)。
卡方系數(shù)
卡方分布是數(shù)理統(tǒng)計(jì)中的一個(gè)重要分布,利用卡方系數(shù)我們可以確定兩個(gè)變量是否相關(guān)??ǚ较禂?shù)的定義:
公式中的observed表示數(shù)據(jù)的實(shí)際值,expected表示期望值,不理解沒(méi)關(guān)系,我們看一個(gè)例子就明白了。
|
買游戲 | 不買游戲 | 行總計(jì) |
買影片 | 4000(4500) | 3500(3000) | 7500 |
不買影片 | 2000(1500) | 500(1000) | 2500 |
列總計(jì) | 6000 | 4000 | 10000 |
上面表格的括號(hào)中表示的是期望值,(買影片,買游戲)的期望值E=6000*(7500/10000)=4500,總體記錄中有75%的人買影片,而買游戲的有6000人,于是我們期望這6000人中有75%(即4500)的人買影片。其他三個(gè)值可以類似計(jì)算得到?,F(xiàn)在我們計(jì)算一下,買游戲與買影片的卡方系數(shù):
卡方系數(shù)X=(4000-4500)^2/4500+(3500-3000)^2/3000+(2000-1500)^2/1500+(500-1000)^2/1000=555.6。
卡方系數(shù)需要查表才能確定值的意義,基于置信水平和自由度(r-1)*(c-1)=(行數(shù)-1)*(列數(shù)-1)=1,查表得到自信度為(1-0.001)的值為6.63,555.6大于6.63,因此拒絕A、B獨(dú)立的假設(shè),即認(rèn)為A、B是相關(guān)的,而expected(買影片,買游戲)=4500>4000,因此認(rèn)為A、B呈負(fù)相關(guān)。這里需要一定的概率統(tǒng)計(jì)知識(shí)。如果覺(jué)得不好理解,可以用其他的評(píng)價(jià)標(biāo)準(zhǔn)。
全自信度
全自信度all_confidence的定義如下:all_confidence(A,B)=P(A交B)/max{P(A),P(B)}
=min{P(B|A),P(A|B)}
=min{confidence(A—>B),confidence(B—>A)}
對(duì)于前面的例子,all_confidence(買游戲,買影片)=min{confidence(買游戲—>買影片),confidence(買影片—>買游戲)}=min{66%,53.3%}=53.3%??梢钥闯鋈孕哦炔皇橐粋€(gè)好的衡量標(biāo)準(zhǔn)。
最大自信度
最大自信度則與全自信度相反,求的不是最小的支持度而是最大的支持度,max_confidence(A,B)=max{confidence(A—>B),confidence(B—>A)},不過(guò)感覺(jué)最大自信度不太實(shí)用。
Kulc
Kulc系數(shù)就是對(duì)兩個(gè)自信度做一個(gè)平均處理:kulc(A,B)=(confidence(A—>B)+confidence(B—>A))/2。,kulc系數(shù)是一個(gè)很好的度量標(biāo)準(zhǔn),稍后的對(duì)比我們會(huì)看到。
cosine(A,B)
cosine(A,B)=P(A交B)/sqrt(P(A)*P(B))=sqrt(P(A|B)*P(B|A))=sqrt(confidence(A—>B)*confidence(B—>A))
七個(gè)評(píng)價(jià)準(zhǔn)則的比較
這里有這么多的評(píng)價(jià)標(biāo)準(zhǔn),究竟哪些好,哪些能夠準(zhǔn)確反應(yīng)事實(shí),我們來(lái)看一組對(duì)比。
|
milk | milk | 行總計(jì) |
coffee | MC | MC | C |
coffee | MC | MC | C |
列總計(jì) | M | M | total |
上表中,M表示購(gòu)買了牛奶、C表示購(gòu)買了咖啡,M表示不購(gòu)買牛奶,C表示不購(gòu)買咖啡,下面來(lái)看6個(gè)不同的數(shù)據(jù)集,各個(gè)度量標(biāo)準(zhǔn)的值
數(shù)據(jù)
|
MC | MC | MC | MC | total | C->M自信度 | M->C自信度 | 卡方 | lift | all_conf | max_conf | Kulc | cosine |
D1 | 10000 | 1000 | 1000 | 100000 | 112000 | 0.91 | 0.91 | 90557 | 9.26 | 0.91 | 0.91 | 0.91 | 0.91 |
D2 | 10000 | 1000 | 1000 | 100 | 12100 | 0.91 | 0.91 | 0 | 1.00 | 0.91 | 0.91 | 0.91 | 0.91 |
D3 | 100 | 1000 | 1000 | 100000 | 102100 | 0.09 | 0.09 | 670 | 8.44 | 0.09 | 0.09 | 0.09 | 0.09 |
D4 | 1000 | 1000 | 1000 | 100000 | 103000 | 0.50 | 0.50 | 24740 | 25.75 | 0.50 | 0.50 | 0.50 | 0.50 |
D5 | 1000 | 100 | 10000 | 100000 | 111100 | 0.91 | 0.09 | 8173 | 9.18 | 0.09 | 0.91 | 0.50 | 0.29 |
D6 | 1000 | 10 | 100000 | 100000 | 201010 | 0.99 | 0.01 | 965 | 1.97 | 0.01 | 0.99 | 0.50 | 0.10 |
我們先來(lái)看前面四個(gè)數(shù)據(jù)集D1-D4,從后面四列可以看出,D1,D2中milk與coffee是正相關(guān)的,而D3是負(fù)相關(guān),D4中是不相關(guān)的,大家可能覺(jué)得,D2的lift約等于1應(yīng)該是不相關(guān)的,事實(shí)上對(duì)比D1你會(huì)發(fā)現(xiàn),lift受MC的影響很大,而實(shí)際上我們買牛奶和咖啡的相關(guān)性不應(yīng)該取決于不買牛奶和咖啡的交易記錄,這正是lift和卡方的劣勢(shì),容易受到數(shù)據(jù)記錄大小的影響。而全自信度、最大自信度、Kulc、cosine與MC無(wú)關(guān),它們不受數(shù)據(jù)記錄大小影響??ǚ胶蚻ift還把D3判別為正相關(guān),而實(shí)際上他們應(yīng)該是負(fù)相關(guān),M=100+1000=1100,如果這1100中有超過(guò)550的購(gòu)買coffee那么就認(rèn)為是正相關(guān),而我們看到MC=100<550,可以認(rèn)為是負(fù)相關(guān)的。
上面我們分析了全自信度、最大自信度、Kulc、cosine與空值無(wú)關(guān),但這幾個(gè)中哪一個(gè)更好呢?我們看后面四個(gè)數(shù)據(jù)集D4-D6,all_conf與cosine得出相同的結(jié)果,即D4中milk與coffee是獨(dú)立的,D5、D6是負(fù)相關(guān)的,D5中support(C–>M)=0.91而support(M–>C)=0.09,這樣的關(guān)系,簡(jiǎn)單的認(rèn)為是負(fù)相關(guān)或者正相關(guān)都不妥,Kulc做平均處理倒很好,平滑后認(rèn)為它們是無(wú)關(guān)的,我們?cè)僖胍粋€(gè)不平衡因子IR(imbalance ratio):
IR(A,B)=|sup(a)-sup(B)|/(sup(A)-sup(B)-sup(A交B))(注:應(yīng)為(sup(A)+sup(B)-sup(A交B))
D4總IR(C,M)=0,非常平衡,D5中IR(C,M)=0.89,不平衡,而D6中IR(C,M)=0.99極度不平衡,我們應(yīng)該看到Kulc值雖然相同但是平衡度不一樣,在實(shí)際中應(yīng)該意識(shí)到不平衡的可能,根據(jù)業(yè)務(wù)作出判斷,因此這里我們認(rèn)為Kulc結(jié)合不平衡因子的是較好的評(píng)價(jià)方法。
另外weka中還使用 Conviction和Leverage。Conviction(A,B) = P(A)P(B)/P(AB), Leverage(A,B) = P(A交B)-P(A)P(B),Leverage是不受空值影響,而Conviction是受空值影響的。
總結(jié)
本文介紹了9個(gè)關(guān)聯(lián)規(guī)則評(píng)價(jià)的準(zhǔn)則,其中全自信度、最大自信度、Kulc、cosine,Leverage是不受空值影響的,這在處理大數(shù)據(jù)集是優(yōu)勢(shì)更加明顯,因?yàn)榇髷?shù)據(jù)中想MC這樣的空記錄更多,根據(jù)分析我們推薦使用kulc準(zhǔn)則和不平衡因子結(jié)合的方法
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09