99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)挖掘方法案例介紹
數(shù)據(jù)挖掘方法案例介紹
2015-11-28
收藏

數(shù)據(jù)挖掘方法案例介紹


分類是用于識別什么樣的事務(wù)屬于哪一類的方法,可用于分類的算法有決策樹、bayes分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等。

決策樹

例1

         一個(gè)自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計(jì)劃將廣告冊和禮品投遞給這些會員。

         但是投遞廣告冊是需要成本的,不可能投遞給所有的超市會員。而這些會員中有的人會響應(yīng)廣告宣傳,有的人就算得到廣告冊不會購買。

所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。

         自行車廠商首先從所有會員中抽取了1000個(gè)會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會員是否購買了自行車。

數(shù)據(jù)如下:

事例列

會員編號

12496

14177

24381

25597

…………

輸入列

婚姻狀況

Married

Married

Single

Single

性別

Female

Male

Male

Male

收入

40000

80000

70000

30000

孩子數(shù)

1

5

0

0

教育背景

Bachelors

Partial College

Bachelors

Bachelors

職業(yè)

Skilled Manual

Professional

Professional

Clerical

是否有房

Yes

No

Yes

No

汽車數(shù)

0

2

1

0

上班距離

0-1 Miles

2-5 Miles

5-10 Miles

0-1 Miles

區(qū)域

Europe

Europe

Pacific

Europe

年齡

42

60

41

36

預(yù)測列

是否購買自行車

No

No

Yes

Yes

 

在分類模型中,每個(gè)會員作為一個(gè)事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預(yù)測的分類是客戶是否購買了自行車。

使用1000個(gè)會員事例訓(xùn)練模型后得到的決策樹分類如下:

 

※圖中矩形表示一個(gè)拆分節(jié)點(diǎn),矩形中文字是拆分條件。

※矩形顏色深淺代表此節(jié)點(diǎn)包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點(diǎn)包含所有的1000個(gè)事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個(gè)事例,年齡小于32歲的133個(gè)事例,年齡在39和67歲之間的602個(gè)事例,年齡32和39歲之間的229個(gè)事例。所以第一次拆分后,年齡在39和67歲的節(jié)點(diǎn)顏色最深,年齡大于67歲的節(jié)點(diǎn)顏色最淺。

※節(jié)點(diǎn)中的條包含兩種顏色,紅色和藍(lán)色,分別表示此節(jié)點(diǎn)中的事例購買和不購買自行車的比例。如節(jié)點(diǎn)“年齡>=67”節(jié)點(diǎn)中,包含36個(gè)事例,其中28個(gè)沒有購買自行車,8個(gè)購買了自行車,所以藍(lán)色的條比紅色的要長。表示年齡大于67的會員有74.62%的概率不購買自行車,有23.01%的概率購買自行車。

         在圖中,可以找出幾個(gè)有用的節(jié)點(diǎn):

1. 年齡小于32歲,居住在太平洋地區(qū)的會員有72.75%的概率購買自行車;

2. 年齡在32和39歲之間的會員有68.42%的概率購買自行車;

3. 年齡在39和67歲之間,上班距離不大于10公里,只有1輛汽車的會員有66.08%的概率購買自行車;

4. 年齡小于32歲,不住在太平洋地區(qū),上班距離在1公里范圍內(nèi)的會員有51.92%的概率購買自行車;

         在得到了分類模型后,將其他的會員在分類模型中查找就可預(yù)測會員購買自行車的概率有多大。隨后自行車廠商就可以有選擇性的投遞廣告冊。

數(shù)據(jù)挖掘的一般流程

第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時(shí)建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計(jì)算機(jī)是無法知道如何分類數(shù)據(jù)的。

第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個(gè)會員數(shù)據(jù)。通常的做法是將模型集分成訓(xùn)練集和檢驗(yàn)集,比如從1000個(gè)會員數(shù)據(jù)中隨機(jī)抽取700個(gè)作為訓(xùn)練集,剩下300個(gè)作為檢驗(yàn)集。

第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個(gè)過程是對模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對新加入的會員事例進(jìn)行分類了。由于時(shí)效性,模型內(nèi)容要經(jīng)常更新,比如十年前會員的消費(fèi)模式與現(xiàn)在有很大的差異,如果用十年前數(shù)據(jù)訓(xùn)練出來的模型來預(yù)測現(xiàn)在的會員是否會購買自行車是不合適的,所以要按時(shí)使用新的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型。

第四步,模型訓(xùn)練后,還無法確定模型的分類方法是否準(zhǔn)確。可以用模型對300個(gè)會員的檢驗(yàn)集進(jìn)行查詢,查詢后,模型會預(yù)測出哪些會員會購買自行車,將預(yù)測的情況與真實(shí)的情況對比,評估模型預(yù)測是否準(zhǔn)確。如果模型準(zhǔn)確度能滿足要求,就可以用于對新會員進(jìn)行預(yù)測。

第五步,超市每天都會有新的會員加入,這些新加入的會員數(shù)據(jù)叫做預(yù)測集或得分集。使用模型對預(yù)測集進(jìn)行預(yù)測,識別出哪些會員可能會購買自行車,然后向這些會員投遞廣告。

 

Na?ve Bayes

         Na?ve Bayes是一種由統(tǒng)計(jì)學(xué)中Bayes法發(fā)展而來的分類方法。

 

例1

         有A、B兩個(gè)政黨對四個(gè)議題進(jìn)行投票,A政黨有211個(gè)國會議員,B政黨有223個(gè)國會議員。下表統(tǒng)計(jì)了政黨對四個(gè)議題贊成或反對的票數(shù)。


國家安全法

個(gè)人財(cái)產(chǎn)保護(hù)法

遺產(chǎn)稅

反分裂法

總計(jì)

                       

贊成

反對

贊成

反對

贊成

反對

贊成

反對


A政黨

41

166

87

114

184

11

178

23

211

B政黨

214

4

211

6

172

36

210

1

223











A政黨

20%

80%

43%

57%

94%

6%

89%

11%

49%

B政黨

98%

2%

97%

3%

83%

17%

99.50%

0.50%

51%

         A政黨的議員有20%概率贊成國家安全法,43%概率贊成個(gè)人財(cái)產(chǎn)保護(hù)法,94%概率贊成遺產(chǎn)稅,89%概率贊成反分裂法。

    B政黨的議員有98%概率贊成國家安全法,97%概率贊成個(gè)人財(cái)產(chǎn)保護(hù)法,83%概率贊成遺產(chǎn)稅,99.5%概率贊成反分裂法。

    基于這樣的數(shù)據(jù),Na?ve Bayes能預(yù)測的是如果一個(gè)議員對國家安全法投了贊成票,對個(gè)人財(cái)產(chǎn)保護(hù)法投了反對票,對遺產(chǎn)稅投了贊成票,對反分裂法投了贊成票。哪么,這個(gè)議員有多大的概率屬于A政黨,又有多少的概率屬于B政黨。

 

例2

    一個(gè)產(chǎn)品在生產(chǎn)后經(jīng)檢驗(yàn)分成一等品、二等品、次品。生產(chǎn)這種產(chǎn)品有三種可用的配方,兩種機(jī)器,兩個(gè)班組的工人。下面是1000個(gè)產(chǎn)品的統(tǒng)計(jì)信息。


配方

機(jī)器

工人

總計(jì)


配方1

配方2

配方3

機(jī)器1

機(jī)器2

班組1

班組2


一等品

47

110

121

23

255

130

148

278

二等品

299

103

165

392

175

327

240

567

次品

74

25

56

69

86

38

117

155










一等品

16.91%

39.57%

43.53%

8.27%

91.73%

46.76%

53.24%

27.80%

二等品

52.73%

18.17%

29.10%

69.14%

30.86%

57.67%

42.33%

56.70%

次品

47.74%

16.13%

36.13%

44.52%

55.48%

24.52%

75.48%

15.50%

         使用Na?ve Bayes模型,每次在制定生產(chǎn)計(jì)劃,確定生產(chǎn)產(chǎn)品所用的配方、機(jī)器及工人,便能預(yù)測生產(chǎn)中有多少的一等品、二等品和次品。
 

神經(jīng)網(wǎng)絡(luò)

         神經(jīng)網(wǎng)絡(luò)是一種模擬生物上神經(jīng)元的工作的機(jī)器學(xué)習(xí)方法。

下面是銀行用來識別給申請信用卡的客戶發(fā)放何種信用卡的神經(jīng)網(wǎng)絡(luò)。

         圖中每個(gè)橢圓型節(jié)點(diǎn)接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點(diǎn)接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出層輸出客戶屬于哪類信用卡。這類似于人腦神經(jīng)元受到刺激時(shí),神經(jīng)脈沖從一個(gè)神經(jīng)元傳遞到另一個(gè)神經(jīng)元。

 

每個(gè)神經(jīng)元節(jié)點(diǎn)內(nèi)部包含有一個(gè)組合函數(shù)∑和激活函數(shù)f。X1, X2是其他神經(jīng)元的輸出值,對此神經(jīng)元來說是輸入值,組合函數(shù)將輸入值組合后傳遞給激活函數(shù)。激活函數(shù)經(jīng)過特定的計(jì)算后得到輸出值y,y有被傳遞給其他神經(jīng)元。

輸入邊上的w1和w2是輸入權(quán)值,用于在組合函數(shù)中對每個(gè)輸入值進(jìn)行加權(quán)。訓(xùn)練模型時(shí),客戶事例輸入,神經(jīng)網(wǎng)絡(luò)計(jì)算出客戶的類別,計(jì)算值與真實(shí)值比較后,模型會修正每個(gè)輸入邊上的權(quán)值。在大量客戶事例輸入后,模型會不斷調(diào)整,使之更吻合真實(shí)情況,就像是人腦通過在同一脈沖反復(fù)刺激下改變神經(jīng)鍵連接強(qiáng)度來進(jìn)行學(xué)習(xí)。
 

回歸

         分類算法是建立事例特征對應(yīng)到分類的方法。分類必須是離散的,像信用卡的種類只有三種,如果是要通過客戶收入、婚姻狀況、職業(yè)等特征預(yù)測客戶會使用信用卡消費(fèi)多少金額時(shí),分類算法就無能為力了,因?yàn)橄M(fèi)金額可能是大于0的任意值。這時(shí)只能使用回歸算法。

例如,下表是工廠生產(chǎn)情況。

機(jī)器數(shù)量

工人數(shù)量

生產(chǎn)數(shù)量

12

60

400

7

78

389

11

81

674

……

         使用線性回歸后,得到了一個(gè)回歸方程:生產(chǎn)數(shù)量=α+β·機(jī)器數(shù)量+γ·工人數(shù)量。代表每多一臺機(jī)器就可以多生產(chǎn)β單位的產(chǎn)品,每多一個(gè)工人就可以多生產(chǎn)γ單位的產(chǎn)品。

 

         除了簡單的線性回歸邏輯回歸兩種,決策樹可以建立自動回歸樹模型,神經(jīng)網(wǎng)絡(luò)也可以進(jìn)行回歸,實(shí)際上,邏輯回歸就是去掉隱藏層的神經(jīng)網(wǎng)絡(luò)。

         例如,服裝銷售公司要根據(jù)各地分銷店面提交的計(jì)劃預(yù)計(jì)實(shí)際銷售量。


 

         使用自動回歸樹得到上圖的模型,假如山東銷售店提交的計(jì)劃童裝數(shù)量是500套,預(yù)計(jì)銷售量是-100+0.6×500=200套,按6Sigma原則,有99.97%的概率實(shí)際銷售量可能是200±90套。廣州提交計(jì)劃童裝300套,預(yù)計(jì)銷售量是20+0.98×300=314±30套。廣州的銷售店制定的童裝計(jì)劃比山東的準(zhǔn)確。

聚類

         分類算法的目的是建立事例特征到類別的對應(yīng)法則。但前提是類別是已存在的,如已知道動物可以分成哺乳類和非哺乳類,銀行發(fā)行的信用卡有銀卡、金卡、白金卡三種。

         有時(shí)在分類不存在前,要將現(xiàn)有的事例分成幾類。比如有同種材料要分類裝入到各個(gè)倉庫中,這種材料有尺寸、色澤、密度等上百個(gè)指標(biāo),如果不熟悉材料的特性很難找到一種方法將材料分裝。

         又例如,銀行剛開始信用卡業(yè)務(wù)時(shí),沒有將客戶分類,所有的客戶都使用同一種信用卡。在客戶積累到一定的數(shù)量后,為了方便管理和制定市場策略,需要將客戶分類,讓不同類別的客戶使用不同的信用卡。但問題是,銀行該把客戶分成幾個(gè)類別,誰該屬于哪一類。

         假定銀行僅僅要參照客戶的收入和使用信用卡銷售金額兩個(gè)指標(biāo)對客戶分類。通常情況下,僅僅是衡量這些指標(biāo)的高低來分類,如規(guī)定收入小于4000,且消費(fèi)小于2000的客戶分成第一類;收入在4000至8000,消費(fèi)在2000至4000的客戶分成第二類;收入在8000至12000,消費(fèi)在4000至6000的客戶分成第三類;收入在12000以上,消費(fèi)在6000以上分成第四類。下面的圖展示了這種分類。

         圖中三角形的點(diǎn)代表客戶,圖中的紅色線條是對客戶的分類??梢钥吹竭@種不合理,第一類別沒有包含任何事例,而第四類也只有少量事例,而第二和第三類分界處聚集著大量事例。

         觀測圖像,發(fā)現(xiàn)大部分客戶事例聚集在一起形成了三個(gè)簇,下圖中用三個(gè)橢圓標(biāo)出了這些簇。

         同在一個(gè)簇中的客戶有著類似的消費(fèi)行為,黑色簇中的客戶消費(fèi)額與收入成正比;藍(lán)色簇中的客戶不習(xí)慣使用信用卡消費(fèi),可以對這類客戶發(fā)放一種低手續(xù)費(fèi)的信用卡,鼓勵他們使用信用卡消費(fèi);綠色簇中的客戶消費(fèi)額相對收入來說比較高,應(yīng)該為這類客戶設(shè)計(jì)一種低透支額度的信用卡。

聚類模型就是這種可以識別有著相似特征事例,把這些事例聚集在一起形成一個(gè)類別的算法。

聚類模型除了能將相似特征的事例歸為一類外,還常用來發(fā)現(xiàn)異常點(diǎn)。



 

像上圖中用紅圈標(biāo)出的點(diǎn),這兩個(gè)客戶偏離了已有的簇,他們的消費(fèi)行為異于一般人,消費(fèi)遠(yuǎn)超出收入。意味他們有其他不公開的收入來源,這些客戶是有問題的。

科學(xué)試驗(yàn)中,研究人員對異常點(diǎn)很感興趣,通過研究不尋常的現(xiàn)象提出新的理論。

 

         聚類的另一個(gè)用途是發(fā)現(xiàn)屬性間隱含的關(guān)系。例如有30名學(xué)生考試成績:

學(xué)號

美術(shù)

語文

物理

歷史

英語

音樂

數(shù)學(xué)

化學(xué)

31001

74

50

89

61

53

65

96

87

31002

70

65

88

55

50

65

92

87

31003

65

50

86

54

63

73

91

96

……

教師想知道學(xué)科之間是否有關(guān)聯(lián),如果學(xué)生某門學(xué)科成績優(yōu)秀,是否會在另一門學(xué)科上也有優(yōu)勢。

 

通過聚類后將30名學(xué)生分成了3個(gè)類:

變量

狀態(tài)

總體(全部)

分類 3

分類 2

分類 1

大小


30

10

10

10

語文

平均值

74

71.6

89.6

59.4

語文

偏差

13.39

4.38

3.95

5.46

英語

平均值

72

72.7

88.1

56.1

英語

偏差

14.27

4.4

6.9

4.46

音樂

平均值

78

89.1

74.4

71

音樂

偏差

9.71

7.31

4.12

5.27

物理

平均值

75

74

56.6

93.4

物理

偏差

15.96

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }