
數(shù)據(jù)挖掘方法案例介紹
分類是用于識別什么樣的事務(wù)屬于哪一類的方法,可用于分類的算法有決策樹、bayes分類、神經(jīng)網(wǎng)絡(luò)、支持向量機等等。
例1
一個自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計劃將廣告冊和禮品投遞給這些會員。
但是投遞廣告冊是需要成本的,不可能投遞給所有的超市會員。而這些會員中有的人會響應(yīng)廣告宣傳,有的人就算得到廣告冊不會購買。
所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。
自行車廠商首先從所有會員中抽取了1000個會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會員是否購買了自行車。
數(shù)據(jù)如下:
事例列 |
會員編號 |
12496 |
14177 |
24381 |
25597 |
………… |
輸入列 |
婚姻狀況 |
Married |
Married |
Single |
Single |
|
性別 |
Female |
Male |
Male |
Male |
||
收入 |
40000 |
80000 |
70000 |
30000 |
||
孩子數(shù) |
1 |
5 |
0 |
0 |
||
教育背景 |
Bachelors |
Partial College |
Bachelors |
Bachelors |
||
職業(yè) |
Skilled Manual |
Professional |
Professional |
Clerical |
||
是否有房 |
Yes |
No |
Yes |
No |
||
汽車數(shù) |
0 |
2 |
1 |
0 |
||
上班距離 |
0-1 Miles |
2-5 Miles |
5-10 Miles |
0-1 Miles |
||
區(qū)域 |
Europe |
Europe |
Pacific |
Europe |
||
年齡 |
42 |
60 |
41 |
36 |
||
預(yù)測列 |
是否購買自行車 |
No |
No |
Yes |
Yes |
在分類模型中,每個會員作為一個事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預(yù)測的分類是客戶是否購買了自行車。
使用1000個會員事例訓(xùn)練模型后得到的決策樹分類如下:
※圖中矩形表示一個拆分節(jié)點,矩形中文字是拆分條件。
※矩形顏色深淺代表此節(jié)點包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點包含所有的1000個事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個事例,年齡小于32歲的133個事例,年齡在39和67歲之間的602個事例,年齡32和39歲之間的229個事例。所以第一次拆分后,年齡在39和67歲的節(jié)點顏色最深,年齡大于67歲的節(jié)點顏色最淺。
※節(jié)點中的條包含兩種顏色,紅色和藍(lán)色,分別表示此節(jié)點中的事例購買和不購買自行車的比例。如節(jié)點“年齡>=67”節(jié)點中,包含36個事例,其中28個沒有購買自行車,8個購買了自行車,所以藍(lán)色的條比紅色的要長。表示年齡大于67的會員有74.62%的概率不購買自行車,有23.01%的概率購買自行車。
在圖中,可以找出幾個有用的節(jié)點:
1. 年齡小于32歲,居住在太平洋地區(qū)的會員有72.75%的概率購買自行車;
2. 年齡在32和39歲之間的會員有68.42%的概率購買自行車;
3. 年齡在39和67歲之間,上班距離不大于10公里,只有1輛汽車的會員有66.08%的概率購買自行車;
4. 年齡小于32歲,不住在太平洋地區(qū),上班距離在1公里范圍內(nèi)的會員有51.92%的概率購買自行車;
在得到了分類模型后,將其他的會員在分類模型中查找就可預(yù)測會員購買自行車的概率有多大。隨后自行車廠商就可以有選擇性的投遞廣告冊。
數(shù)據(jù)挖掘的一般流程 第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計算機是無法知道如何分類數(shù)據(jù)的。 第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個會員數(shù)據(jù)。通常的做法是將模型集分成訓(xùn)練集和檢驗集,比如從1000個會員數(shù)據(jù)中隨機抽取700個作為訓(xùn)練集,剩下300個作為檢驗集。 第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個過程是對模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對新加入的會員事例進(jìn)行分類了。由于時效性,模型內(nèi)容要經(jīng)常更新,比如十年前會員的消費模式與現(xiàn)在有很大的差異,如果用十年前數(shù)據(jù)訓(xùn)練出來的模型來預(yù)測現(xiàn)在的會員是否會購買自行車是不合適的,所以要按時使用新的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型。 第四步,模型訓(xùn)練后,還無法確定模型的分類方法是否準(zhǔn)確??梢杂媚P蛯?00個會員的檢驗集進(jìn)行查詢,查詢后,模型會預(yù)測出哪些會員會購買自行車,將預(yù)測的情況與真實的情況對比,評估模型預(yù)測是否準(zhǔn)確。如果模型準(zhǔn)確度能滿足要求,就可以用于對新會員進(jìn)行預(yù)測。 第五步,超市每天都會有新的會員加入,這些新加入的會員數(shù)據(jù)叫做預(yù)測集或得分集。使用模型對預(yù)測集進(jìn)行預(yù)測,識別出哪些會員可能會購買自行車,然后向這些會員投遞廣告。
|
Na?ve Bayes是一種由統(tǒng)計學(xué)中Bayes法發(fā)展而來的分類方法。
例1
有A、B兩個政黨對四個議題進(jìn)行投票,A政黨有211個國會議員,B政黨有223個國會議員。下表統(tǒng)計了政黨對四個議題贊成或反對的票數(shù)。
|
國家安全法 |
個人財產(chǎn)保護(hù)法 |
遺產(chǎn)稅 |
反分裂法 |
總計 |
||||
|
贊成 |
反對 |
贊成 |
反對 |
贊成 |
反對 |
贊成 |
反對 |
|
A政黨 |
41 |
166 |
87 |
114 |
184 |
11 |
178 |
23 |
211 |
B政黨 |
214 |
4 |
211 |
6 |
172 |
36 |
210 |
1 |
223 |
|
|
|
|
|
|
|
|
|
|
A政黨 |
20% |
80% |
43% |
57% |
94% |
6% |
89% |
11% |
49% |
B政黨 |
98% |
2% |
97% |
3% |
83% |
17% |
99.50% |
0.50% |
51% |
A政黨的議員有20%概率贊成國家安全法,43%概率贊成個人財產(chǎn)保護(hù)法,94%概率贊成遺產(chǎn)稅,89%概率贊成反分裂法。
B政黨的議員有98%概率贊成國家安全法,97%概率贊成個人財產(chǎn)保護(hù)法,83%概率贊成遺產(chǎn)稅,99.5%概率贊成反分裂法。
基于這樣的數(shù)據(jù),Na?ve Bayes能預(yù)測的是如果一個議員對國家安全法投了贊成票,對個人財產(chǎn)保護(hù)法投了反對票,對遺產(chǎn)稅投了贊成票,對反分裂法投了贊成票。哪么,這個議員有多大的概率屬于A政黨,又有多少的概率屬于B政黨。
例2
一個產(chǎn)品在生產(chǎn)后經(jīng)檢驗分成一等品、二等品、次品。生產(chǎn)這種產(chǎn)品有三種可用的配方,兩種機器,兩個班組的工人。下面是1000個產(chǎn)品的統(tǒng)計信息。
|
配方 |
機器 |
工人 |
總計 |
||||
|
配方1 |
配方2 |
配方3 |
機器1 |
機器2 |
班組1 |
班組2 |
|
一等品 |
47 |
110 |
121 |
23 |
255 |
130 |
148 |
278 |
二等品 |
299 |
103 |
165 |
392 |
175 |
327 |
240 |
567 |
次品 |
74 |
25 |
56 |
69 |
86 |
38 |
117 |
155 |
|
|
|
|
|
|
|
|
|
一等品 |
16.91% |
39.57% |
43.53% |
8.27% |
91.73% |
46.76% |
53.24% |
27.80% |
二等品 |
52.73% |
18.17% |
29.10% |
69.14% |
30.86% |
57.67% |
42.33% |
56.70% |
次品 |
47.74% |
16.13% |
36.13% |
44.52% |
55.48% |
24.52% |
75.48% |
15.50% |
使用Na?ve Bayes模型,每次在制定生產(chǎn)計劃,確定生產(chǎn)產(chǎn)品所用的配方、機器及工人,便能預(yù)測生產(chǎn)中有多少的一等品、二等品和次品。
神經(jīng)網(wǎng)絡(luò)是一種模擬生物上神經(jīng)元的工作的機器學(xué)習(xí)方法。
下面是銀行用來識別給申請信用卡的客戶發(fā)放何種信用卡的神經(jīng)網(wǎng)絡(luò)。
圖中每個橢圓型節(jié)點接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出層輸出客戶屬于哪類信用卡。這類似于人腦神經(jīng)元受到刺激時,神經(jīng)脈沖從一個神經(jīng)元傳遞到另一個神經(jīng)元。
每個神經(jīng)元節(jié)點內(nèi)部包含有一個組合函數(shù)∑和激活函數(shù)f。X1, X2是其他神經(jīng)元的輸出值,對此神經(jīng)元來說是輸入值,組合函數(shù)將輸入值組合后傳遞給激活函數(shù)。激活函數(shù)經(jīng)過特定的計算后得到輸出值y,y有被傳遞給其他神經(jīng)元。
輸入邊上的w1和w2是輸入權(quán)值,用于在組合函數(shù)中對每個輸入值進(jìn)行加權(quán)。訓(xùn)練模型時,客戶事例輸入,神經(jīng)網(wǎng)絡(luò)計算出客戶的類別,計算值與真實值比較后,模型會修正每個輸入邊上的權(quán)值。在大量客戶事例輸入后,模型會不斷調(diào)整,使之更吻合真實情況,就像是人腦通過在同一脈沖反復(fù)刺激下改變神經(jīng)鍵連接強度來進(jìn)行學(xué)習(xí)。
分類算法是建立事例特征對應(yīng)到分類的方法。分類必須是離散的,像信用卡的種類只有三種,如果是要通過客戶收入、婚姻狀況、職業(yè)等特征預(yù)測客戶會使用信用卡消費多少金額時,分類算法就無能為力了,因為消費金額可能是大于0的任意值。這時只能使用回歸算法。
例如,下表是工廠生產(chǎn)情況。
機器數(shù)量 |
工人數(shù)量 |
生產(chǎn)數(shù)量 |
12 |
60 |
400 |
7 |
78 |
389 |
11 |
81 |
674 |
…… |
使用線性回歸后,得到了一個回歸方程:生產(chǎn)數(shù)量=α+β·機器數(shù)量+γ·工人數(shù)量。代表每多一臺機器就可以多生產(chǎn)β單位的產(chǎn)品,每多一個工人就可以多生產(chǎn)γ單位的產(chǎn)品。
除了簡單的線性回歸和邏輯回歸兩種,決策樹可以建立自動回歸樹模型,神經(jīng)網(wǎng)絡(luò)也可以進(jìn)行回歸,實際上,邏輯回歸就是去掉隱藏層的神經(jīng)網(wǎng)絡(luò)。
例如,服裝銷售公司要根據(jù)各地分銷店面提交的計劃預(yù)計實際銷售量。
使用自動回歸樹得到上圖的模型,假如山東銷售店提交的計劃童裝數(shù)量是500套,預(yù)計銷售量是-100+0.6×500=200套,按6Sigma原則,有99.97%的概率實際銷售量可能是200±90套。廣州提交計劃童裝300套,預(yù)計銷售量是20+0.98×300=314±30套。廣州的銷售店制定的童裝計劃比山東的準(zhǔn)確。
分類算法的目的是建立事例特征到類別的對應(yīng)法則。但前提是類別是已存在的,如已知道動物可以分成哺乳類和非哺乳類,銀行發(fā)行的信用卡有銀卡、金卡、白金卡三種。
有時在分類不存在前,要將現(xiàn)有的事例分成幾類。比如有同種材料要分類裝入到各個倉庫中,這種材料有尺寸、色澤、密度等上百個指標(biāo),如果不熟悉材料的特性很難找到一種方法將材料分裝。
又例如,銀行剛開始信用卡業(yè)務(wù)時,沒有將客戶分類,所有的客戶都使用同一種信用卡。在客戶積累到一定的數(shù)量后,為了方便管理和制定市場策略,需要將客戶分類,讓不同類別的客戶使用不同的信用卡。但問題是,銀行該把客戶分成幾個類別,誰該屬于哪一類。
假定銀行僅僅要參照客戶的收入和使用信用卡銷售金額兩個指標(biāo)對客戶分類。通常情況下,僅僅是衡量這些指標(biāo)的高低來分類,如規(guī)定收入小于4000,且消費小于2000的客戶分成第一類;收入在4000至8000,消費在2000至4000的客戶分成第二類;收入在8000至12000,消費在4000至6000的客戶分成第三類;收入在12000以上,消費在6000以上分成第四類。下面的圖展示了這種分類。
圖中三角形的點代表客戶,圖中的紅色線條是對客戶的分類。可以看到這種不合理,第一類別沒有包含任何事例,而第四類也只有少量事例,而第二和第三類分界處聚集著大量事例。
觀測圖像,發(fā)現(xiàn)大部分客戶事例聚集在一起形成了三個簇,下圖中用三個橢圓標(biāo)出了這些簇。
同在一個簇中的客戶有著類似的消費行為,黑色簇中的客戶消費額與收入成正比;藍(lán)色簇中的客戶不習(xí)慣使用信用卡消費,可以對這類客戶發(fā)放一種低手續(xù)費的信用卡,鼓勵他們使用信用卡消費;綠色簇中的客戶消費額相對收入來說比較高,應(yīng)該為這類客戶設(shè)計一種低透支額度的信用卡。
聚類模型就是這種可以識別有著相似特征事例,把這些事例聚集在一起形成一個類別的算法。
聚類模型除了能將相似特征的事例歸為一類外,還常用來發(fā)現(xiàn)異常點。
像上圖中用紅圈標(biāo)出的點,這兩個客戶偏離了已有的簇,他們的消費行為異于一般人,消費遠(yuǎn)超出收入。意味他們有其他不公開的收入來源,這些客戶是有問題的。
科學(xué)試驗中,研究人員對異常點很感興趣,通過研究不尋常的現(xiàn)象提出新的理論。
聚類的另一個用途是發(fā)現(xiàn)屬性間隱含的關(guān)系。例如有30名學(xué)生考試成績:
學(xué)號 |
美術(shù) |
語文 |
物理 |
歷史 |
英語 |
音樂 |
數(shù)學(xué) |
化學(xué) |
31001 |
74 |
50 |
89 |
61 |
53 |
65 |
96 |
87 |
31002 |
70 |
65 |
88 |
55 |
50 |
65 |
92 |
87 |
31003 |
65 |
50 |
86 |
54 |
63 |
73 |
91 |
96 |
…… |
教師想知道學(xué)科之間是否有關(guān)聯(lián),如果學(xué)生某門學(xué)科成績優(yōu)秀,是否會在另一門學(xué)科上也有優(yōu)勢。
通過聚類后將30名學(xué)生分成了3個類:
變量 |
狀態(tài) |
總體(全部) |
分類 3 |
分類 2 |
分類 1 |
大小 |
|
30 |
10 |
10 |
10 |
語文 |
平均值 |
74 |
71.6 |
89.6 |
59.4 |
語文 |
13.39 |
4.38 |
3.95 |
5.46 |
|
英語 |
平均值 |
72 |
72.7 |
88.1 |
56.1 |
英語 |
14.27 |
4.4 |
6.9 |
4.46 |
|
音樂 |
平均值 |
78 |
89.1 |
74.4 |
71 |
音樂 |
9.71 |
7.31 |
4.12 |
5.27 |
|
物理 |
平均值 |
75 |
74 |
56.6 |
93.4 |
物理 |
15.96 |
|
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10