
數(shù)據(jù)挖掘方法案例介紹
分類是用于識別什么樣的事務(wù)屬于哪一類的方法,可用于分類的算法有決策樹、bayes分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等。
例1
一個(gè)自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計(jì)劃將廣告冊和禮品投遞給這些會員。
但是投遞廣告冊是需要成本的,不可能投遞給所有的超市會員。而這些會員中有的人會響應(yīng)廣告宣傳,有的人就算得到廣告冊不會購買。
所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。
自行車廠商首先從所有會員中抽取了1000個(gè)會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會員是否購買了自行車。
數(shù)據(jù)如下:
事例列 |
會員編號 |
12496 |
14177 |
24381 |
25597 |
………… |
輸入列 |
婚姻狀況 |
Married |
Married |
Single |
Single |
|
性別 |
Female |
Male |
Male |
Male |
||
收入 |
40000 |
80000 |
70000 |
30000 |
||
孩子數(shù) |
1 |
5 |
0 |
0 |
||
教育背景 |
Bachelors |
Partial College |
Bachelors |
Bachelors |
||
職業(yè) |
Skilled Manual |
Professional |
Professional |
Clerical |
||
是否有房 |
Yes |
No |
Yes |
No |
||
汽車數(shù) |
0 |
2 |
1 |
0 |
||
上班距離 |
0-1 Miles |
2-5 Miles |
5-10 Miles |
0-1 Miles |
||
區(qū)域 |
Europe |
Europe |
Pacific |
Europe |
||
年齡 |
42 |
60 |
41 |
36 |
||
預(yù)測列 |
是否購買自行車 |
No |
No |
Yes |
Yes |
在分類模型中,每個(gè)會員作為一個(gè)事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預(yù)測的分類是客戶是否購買了自行車。
使用1000個(gè)會員事例訓(xùn)練模型后得到的決策樹分類如下:
※圖中矩形表示一個(gè)拆分節(jié)點(diǎn),矩形中文字是拆分條件。
※矩形顏色深淺代表此節(jié)點(diǎn)包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點(diǎn)包含所有的1000個(gè)事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個(gè)事例,年齡小于32歲的133個(gè)事例,年齡在39和67歲之間的602個(gè)事例,年齡32和39歲之間的229個(gè)事例。所以第一次拆分后,年齡在39和67歲的節(jié)點(diǎn)顏色最深,年齡大于67歲的節(jié)點(diǎn)顏色最淺。
※節(jié)點(diǎn)中的條包含兩種顏色,紅色和藍(lán)色,分別表示此節(jié)點(diǎn)中的事例購買和不購買自行車的比例。如節(jié)點(diǎn)“年齡>=67”節(jié)點(diǎn)中,包含36個(gè)事例,其中28個(gè)沒有購買自行車,8個(gè)購買了自行車,所以藍(lán)色的條比紅色的要長。表示年齡大于67的會員有74.62%的概率不購買自行車,有23.01%的概率購買自行車。
在圖中,可以找出幾個(gè)有用的節(jié)點(diǎn):
1. 年齡小于32歲,居住在太平洋地區(qū)的會員有72.75%的概率購買自行車;
2. 年齡在32和39歲之間的會員有68.42%的概率購買自行車;
3. 年齡在39和67歲之間,上班距離不大于10公里,只有1輛汽車的會員有66.08%的概率購買自行車;
4. 年齡小于32歲,不住在太平洋地區(qū),上班距離在1公里范圍內(nèi)的會員有51.92%的概率購買自行車;
在得到了分類模型后,將其他的會員在分類模型中查找就可預(yù)測會員購買自行車的概率有多大。隨后自行車廠商就可以有選擇性的投遞廣告冊。
數(shù)據(jù)挖掘的一般流程 第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時(shí)建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計(jì)算機(jī)是無法知道如何分類數(shù)據(jù)的。 第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個(gè)會員數(shù)據(jù)。通常的做法是將模型集分成訓(xùn)練集和檢驗(yàn)集,比如從1000個(gè)會員數(shù)據(jù)中隨機(jī)抽取700個(gè)作為訓(xùn)練集,剩下300個(gè)作為檢驗(yàn)集。 第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個(gè)過程是對模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對新加入的會員事例進(jìn)行分類了。由于時(shí)效性,模型內(nèi)容要經(jīng)常更新,比如十年前會員的消費(fèi)模式與現(xiàn)在有很大的差異,如果用十年前數(shù)據(jù)訓(xùn)練出來的模型來預(yù)測現(xiàn)在的會員是否會購買自行車是不合適的,所以要按時(shí)使用新的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型。 第四步,模型訓(xùn)練后,還無法確定模型的分類方法是否準(zhǔn)確。可以用模型對300個(gè)會員的檢驗(yàn)集進(jìn)行查詢,查詢后,模型會預(yù)測出哪些會員會購買自行車,將預(yù)測的情況與真實(shí)的情況對比,評估模型預(yù)測是否準(zhǔn)確。如果模型準(zhǔn)確度能滿足要求,就可以用于對新會員進(jìn)行預(yù)測。 第五步,超市每天都會有新的會員加入,這些新加入的會員數(shù)據(jù)叫做預(yù)測集或得分集。使用模型對預(yù)測集進(jìn)行預(yù)測,識別出哪些會員可能會購買自行車,然后向這些會員投遞廣告。
|
Na?ve Bayes是一種由統(tǒng)計(jì)學(xué)中Bayes法發(fā)展而來的分類方法。
例1
有A、B兩個(gè)政黨對四個(gè)議題進(jìn)行投票,A政黨有211個(gè)國會議員,B政黨有223個(gè)國會議員。下表統(tǒng)計(jì)了政黨對四個(gè)議題贊成或反對的票數(shù)。
|
國家安全法 |
個(gè)人財(cái)產(chǎn)保護(hù)法 |
遺產(chǎn)稅 |
反分裂法 |
總計(jì) |
||||
|
贊成 |
反對 |
贊成 |
反對 |
贊成 |
反對 |
贊成 |
反對 |
|
A政黨 |
41 |
166 |
87 |
114 |
184 |
11 |
178 |
23 |
211 |
B政黨 |
214 |
4 |
211 |
6 |
172 |
36 |
210 |
1 |
223 |
|
|
|
|
|
|
|
|
|
|
A政黨 |
20% |
80% |
43% |
57% |
94% |
6% |
89% |
11% |
49% |
B政黨 |
98% |
2% |
97% |
3% |
83% |
17% |
99.50% |
0.50% |
51% |
A政黨的議員有20%概率贊成國家安全法,43%概率贊成個(gè)人財(cái)產(chǎn)保護(hù)法,94%概率贊成遺產(chǎn)稅,89%概率贊成反分裂法。
B政黨的議員有98%概率贊成國家安全法,97%概率贊成個(gè)人財(cái)產(chǎn)保護(hù)法,83%概率贊成遺產(chǎn)稅,99.5%概率贊成反分裂法。
基于這樣的數(shù)據(jù),Na?ve Bayes能預(yù)測的是如果一個(gè)議員對國家安全法投了贊成票,對個(gè)人財(cái)產(chǎn)保護(hù)法投了反對票,對遺產(chǎn)稅投了贊成票,對反分裂法投了贊成票。哪么,這個(gè)議員有多大的概率屬于A政黨,又有多少的概率屬于B政黨。
例2
一個(gè)產(chǎn)品在生產(chǎn)后經(jīng)檢驗(yàn)分成一等品、二等品、次品。生產(chǎn)這種產(chǎn)品有三種可用的配方,兩種機(jī)器,兩個(gè)班組的工人。下面是1000個(gè)產(chǎn)品的統(tǒng)計(jì)信息。
|
配方 |
機(jī)器 |
工人 |
總計(jì) |
||||
|
配方1 |
配方2 |
配方3 |
機(jī)器1 |
機(jī)器2 |
班組1 |
班組2 |
|
一等品 |
47 |
110 |
121 |
23 |
255 |
130 |
148 |
278 |
二等品 |
299 |
103 |
165 |
392 |
175 |
327 |
240 |
567 |
次品 |
74 |
25 |
56 |
69 |
86 |
38 |
117 |
155 |
|
|
|
|
|
|
|
|
|
一等品 |
16.91% |
39.57% |
43.53% |
8.27% |
91.73% |
46.76% |
53.24% |
27.80% |
二等品 |
52.73% |
18.17% |
29.10% |
69.14% |
30.86% |
57.67% |
42.33% |
56.70% |
次品 |
47.74% |
16.13% |
36.13% |
44.52% |
55.48% |
24.52% |
75.48% |
15.50% |
使用Na?ve Bayes模型,每次在制定生產(chǎn)計(jì)劃,確定生產(chǎn)產(chǎn)品所用的配方、機(jī)器及工人,便能預(yù)測生產(chǎn)中有多少的一等品、二等品和次品。
神經(jīng)網(wǎng)絡(luò)是一種模擬生物上神經(jīng)元的工作的機(jī)器學(xué)習(xí)方法。
下面是銀行用來識別給申請信用卡的客戶發(fā)放何種信用卡的神經(jīng)網(wǎng)絡(luò)。
圖中每個(gè)橢圓型節(jié)點(diǎn)接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點(diǎn)接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出層輸出客戶屬于哪類信用卡。這類似于人腦神經(jīng)元受到刺激時(shí),神經(jīng)脈沖從一個(gè)神經(jīng)元傳遞到另一個(gè)神經(jīng)元。
每個(gè)神經(jīng)元節(jié)點(diǎn)內(nèi)部包含有一個(gè)組合函數(shù)∑和激活函數(shù)f。X1, X2是其他神經(jīng)元的輸出值,對此神經(jīng)元來說是輸入值,組合函數(shù)將輸入值組合后傳遞給激活函數(shù)。激活函數(shù)經(jīng)過特定的計(jì)算后得到輸出值y,y有被傳遞給其他神經(jīng)元。
輸入邊上的w1和w2是輸入權(quán)值,用于在組合函數(shù)中對每個(gè)輸入值進(jìn)行加權(quán)。訓(xùn)練模型時(shí),客戶事例輸入,神經(jīng)網(wǎng)絡(luò)計(jì)算出客戶的類別,計(jì)算值與真實(shí)值比較后,模型會修正每個(gè)輸入邊上的權(quán)值。在大量客戶事例輸入后,模型會不斷調(diào)整,使之更吻合真實(shí)情況,就像是人腦通過在同一脈沖反復(fù)刺激下改變神經(jīng)鍵連接強(qiáng)度來進(jìn)行學(xué)習(xí)。
分類算法是建立事例特征對應(yīng)到分類的方法。分類必須是離散的,像信用卡的種類只有三種,如果是要通過客戶收入、婚姻狀況、職業(yè)等特征預(yù)測客戶會使用信用卡消費(fèi)多少金額時(shí),分類算法就無能為力了,因?yàn)橄M(fèi)金額可能是大于0的任意值。這時(shí)只能使用回歸算法。
例如,下表是工廠生產(chǎn)情況。
機(jī)器數(shù)量 |
工人數(shù)量 |
生產(chǎn)數(shù)量 |
12 |
60 |
400 |
7 |
78 |
389 |
11 |
81 |
674 |
…… |
使用線性回歸后,得到了一個(gè)回歸方程:生產(chǎn)數(shù)量=α+β·機(jī)器數(shù)量+γ·工人數(shù)量。代表每多一臺機(jī)器就可以多生產(chǎn)β單位的產(chǎn)品,每多一個(gè)工人就可以多生產(chǎn)γ單位的產(chǎn)品。
除了簡單的線性回歸和邏輯回歸兩種,決策樹可以建立自動回歸樹模型,神經(jīng)網(wǎng)絡(luò)也可以進(jìn)行回歸,實(shí)際上,邏輯回歸就是去掉隱藏層的神經(jīng)網(wǎng)絡(luò)。
例如,服裝銷售公司要根據(jù)各地分銷店面提交的計(jì)劃預(yù)計(jì)實(shí)際銷售量。
使用自動回歸樹得到上圖的模型,假如山東銷售店提交的計(jì)劃童裝數(shù)量是500套,預(yù)計(jì)銷售量是-100+0.6×500=200套,按6Sigma原則,有99.97%的概率實(shí)際銷售量可能是200±90套。廣州提交計(jì)劃童裝300套,預(yù)計(jì)銷售量是20+0.98×300=314±30套。廣州的銷售店制定的童裝計(jì)劃比山東的準(zhǔn)確。
分類算法的目的是建立事例特征到類別的對應(yīng)法則。但前提是類別是已存在的,如已知道動物可以分成哺乳類和非哺乳類,銀行發(fā)行的信用卡有銀卡、金卡、白金卡三種。
有時(shí)在分類不存在前,要將現(xiàn)有的事例分成幾類。比如有同種材料要分類裝入到各個(gè)倉庫中,這種材料有尺寸、色澤、密度等上百個(gè)指標(biāo),如果不熟悉材料的特性很難找到一種方法將材料分裝。
又例如,銀行剛開始信用卡業(yè)務(wù)時(shí),沒有將客戶分類,所有的客戶都使用同一種信用卡。在客戶積累到一定的數(shù)量后,為了方便管理和制定市場策略,需要將客戶分類,讓不同類別的客戶使用不同的信用卡。但問題是,銀行該把客戶分成幾個(gè)類別,誰該屬于哪一類。
假定銀行僅僅要參照客戶的收入和使用信用卡銷售金額兩個(gè)指標(biāo)對客戶分類。通常情況下,僅僅是衡量這些指標(biāo)的高低來分類,如規(guī)定收入小于4000,且消費(fèi)小于2000的客戶分成第一類;收入在4000至8000,消費(fèi)在2000至4000的客戶分成第二類;收入在8000至12000,消費(fèi)在4000至6000的客戶分成第三類;收入在12000以上,消費(fèi)在6000以上分成第四類。下面的圖展示了這種分類。
圖中三角形的點(diǎn)代表客戶,圖中的紅色線條是對客戶的分類??梢钥吹竭@種不合理,第一類別沒有包含任何事例,而第四類也只有少量事例,而第二和第三類分界處聚集著大量事例。
觀測圖像,發(fā)現(xiàn)大部分客戶事例聚集在一起形成了三個(gè)簇,下圖中用三個(gè)橢圓標(biāo)出了這些簇。
同在一個(gè)簇中的客戶有著類似的消費(fèi)行為,黑色簇中的客戶消費(fèi)額與收入成正比;藍(lán)色簇中的客戶不習(xí)慣使用信用卡消費(fèi),可以對這類客戶發(fā)放一種低手續(xù)費(fèi)的信用卡,鼓勵他們使用信用卡消費(fèi);綠色簇中的客戶消費(fèi)額相對收入來說比較高,應(yīng)該為這類客戶設(shè)計(jì)一種低透支額度的信用卡。
聚類模型就是這種可以識別有著相似特征事例,把這些事例聚集在一起形成一個(gè)類別的算法。
聚類模型除了能將相似特征的事例歸為一類外,還常用來發(fā)現(xiàn)異常點(diǎn)。
像上圖中用紅圈標(biāo)出的點(diǎn),這兩個(gè)客戶偏離了已有的簇,他們的消費(fèi)行為異于一般人,消費(fèi)遠(yuǎn)超出收入。意味他們有其他不公開的收入來源,這些客戶是有問題的。
科學(xué)試驗(yàn)中,研究人員對異常點(diǎn)很感興趣,通過研究不尋常的現(xiàn)象提出新的理論。
聚類的另一個(gè)用途是發(fā)現(xiàn)屬性間隱含的關(guān)系。例如有30名學(xué)生考試成績:
學(xué)號 |
美術(shù) |
語文 |
物理 |
歷史 |
英語 |
音樂 |
數(shù)學(xué) |
化學(xué) |
31001 |
74 |
50 |
89 |
61 |
53 |
65 |
96 |
87 |
31002 |
70 |
65 |
88 |
55 |
50 |
65 |
92 |
87 |
31003 |
65 |
50 |
86 |
54 |
63 |
73 |
91 |
96 |
…… |
教師想知道學(xué)科之間是否有關(guān)聯(lián),如果學(xué)生某門學(xué)科成績優(yōu)秀,是否會在另一門學(xué)科上也有優(yōu)勢。
通過聚類后將30名學(xué)生分成了3個(gè)類:
變量 |
狀態(tài) |
總體(全部) |
分類 3 |
分類 2 |
分類 1 |
大小 |
|
30 |
10 |
10 |
10 |
語文 |
平均值 |
74 |
71.6 |
89.6 |
59.4 |
語文 |
13.39 |
4.38 |
3.95 |
5.46 |
|
英語 |
平均值 |
72 |
72.7 |
88.1 |
56.1 |
英語 |
14.27 |
4.4 |
6.9 |
4.46 |
|
音樂 |
平均值 |
78 |
89.1 |
74.4 |
71 |
音樂 |
9.71 |
7.31 |
4.12 |
5.27 |
|
物理 |
平均值 |
75 |
74 |
56.6 |
93.4 |
物理 |
15.96 |
|
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03