99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-31 閱讀量: 997
關(guān)聯(lián)規(guī)則算法是個啥

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中成果頗豐而且比較活躍的研究分支。采用關(guān)聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,超市也因此發(fā)現(xiàn)了一個規(guī)律,在購買嬰兒尿布的年輕父親們中,有30%~40%的人同時要買一些啤酒。超市隨后調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。同樣的,我們還可以根據(jù)關(guān)聯(lián)規(guī)則在商品銷售方面做各種促銷活動。

除此以外,關(guān)聯(lián)規(guī)則挖掘還經(jīng)常被用于:

? 電信套餐的捆綁銷售

? 歌曲推薦或者視頻的“猜你喜歡”

? 電商的產(chǎn)品推薦

? 財務(wù)的歸因分析

最近參加了一些學(xué)生的創(chuàng)新創(chuàng)業(yè)活動,令人印象深刻的是,他們的腦海中總能迸發(fā)出無窮的創(chuàng)意。受此啟發(fā),我想著盡快把這部分的內(nèi)容整理出來,希望能夠?qū)Υ蠹以谏虡I(yè)模式的選擇上有所幫助。

先了解幾個相關(guān)的概念:

? 關(guān)聯(lián)(association):兩個或多個變量的取值之間存在某種規(guī)律性。

? 關(guān)聯(lián)規(guī)則(associationrule):指在同一個事件中出現(xiàn)的不同項的相關(guān)性。

? 關(guān)聯(lián)分析(associationanalysis):用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。

? 項和事物:令I(lǐng)={i1, i2, ……,id}是購物籃數(shù)據(jù)中所有項的集合,而T={t1, t2, ……,tn}是所有事務(wù)的集合。

? 項集(itemset):包含0個或者多個項的集合被稱為項集。

? 支持度計數(shù):即包含特定項集的事務(wù)個數(shù)。

關(guān)聯(lián)規(guī)則是形如A=>B的蘊含表達(dá)式,其中A和B是不相交的項集。下面我們來看三個重要的公式:

? 支持度(support):support(A=>B)=P(A or B)

? 置信度(confidence):confidence(A=>B)=P(B|A)

? 提升度(lift):lift(A=>B)=P(B|A)/P(B)

這里我們不難看出,支持度指的是兩個事件同時發(fā)生的概率(實踐中用頻率表示),這個值如果太小,只能認(rèn)為是偶爾事件,而不能認(rèn)為是規(guī)則,置信度是指條件概率,表示A發(fā)生條件下B發(fā)生的強度,提升度是一個比值,用來衡量A條件的重要性。

看一個小例子:

下面是一個購物籃清單

1.png

這里TID是交易編號,不參與計算,右邊ABCDEF分別表示不同的商品,下面兩個規(guī)則的支持度和置信度分別為:

? A => C (50%, 66.6%)

? C =>A??(50%, 100%)

關(guān)聯(lián)規(guī)則挖掘的基本過程給定事務(wù)的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于minsup,并且置信度大于等于minconf的所有規(guī)則,其中minsup和minconf是對應(yīng)的支持度和置信度的閾值。由于需要計算每一個可能規(guī)則的支持度和置信度,這種方法過高的代價讓人望而卻步。因此,我們將目標(biāo)做相應(yīng)轉(zhuǎn)化為找出所有頻繁項集,即發(fā)現(xiàn)滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集(frequent itemset),并進(jìn)一步由頻繁項集中提取所有高置信度的規(guī)則(受篇幅影響,這部分暫時省略),這些規(guī)則稱作強規(guī)則(strongrule)。下面我們通過算例來實現(xiàn)上面的想法。

0.0000
4
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子