
凝聚層次聚類說明
層次聚類可以分成凝聚(agglomerative,自底向上)和分裂(divisive,自頂向下)兩種方法來構(gòu)建聚類層次,但不管采用那種算法,算法都需要距離的相似性度量來判斷對數(shù)據(jù)究竟是采取合并還是分裂處理。
凝聚層次聚類操作
采用層次聚類,將客戶數(shù)據(jù)集分成不同的組,從github上下載數(shù)據(jù):
https://github.com/ywchiu/ml_R_cookbook/tree/master/CH9下載
customer.csv文件
customer = read.csv("d:/R-TT/example/customer.csv")
head(customer,10)
ID Visit.Time Average.Expense Sex Age
1 1 3 5.7 0 10
2 2 5 14.5 0 27
3 3 16 33.5 0 32
4 4 5 15.9 0 30
5 5 16 24.9 0 23
6 6 3 12.0 0 15
7 7 12 28.5 0 33
8 8 14 18.8 0 27
9 9 6 23.8 0 16
10 10 3 5.3 0 11
檢查數(shù)據(jù)集結(jié)構(gòu):
str(customer)
'data.frame': 60 obs. of 5 variables:
$ ID : int 1 2 3 4 5 6 7 8 9 10 ...
$ Visit.Time : int 3 5 16 5 16 3 12 14 6 3 ...
$ Average.Expense: num 5.7 14.5 33.5 15.9 24.9 12 28.5 18.8 23.8 5.3 ...
$ Sex : int 0 0 0 0 0 0 0 0 0 0 ...
$ Age : int 10 27 32 30 23 15 33 27 16 11 ...
對客戶數(shù)據(jù)進行歸一化處理:
數(shù)據(jù)標準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理,以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:
一、min-max標準化(Min-Max Normalization)
也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下:
其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當有新數(shù)據(jù)加入時,可能導致max和min的變化,需要重新定義。
二、Z-score標準化方法
這種方法給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,轉(zhuǎn)化函數(shù)為:
其中為所有樣本數(shù)據(jù)的均值,為所有樣本數(shù)據(jù)的標準差。
此處采用方法二
customer = scale(customer[,-1])
customer
Visit.Time Average.Expense Sex Age
[1,] -1.20219054 -1.35237652 -1.4566845 -1.23134396
[2,] -0.75693479 -0.30460718 -1.4566845 0.59951732
[3,] 1.69197187 1.95762206 -1.4566845 1.13800594
[4,] -0.75693479 -0.13791661 -1.4566845 0.92261049
[5,] 1.69197187 0.93366567 -1.4566845 0.16872643
[6,] -1.20219054 -0.60226893 -1.4566845 -0.69285535
[7,] 0.80146036 1.36229858 -1.4566845 1.24570366
[8,] 1.24671612 0.20737101 -1.4566845 0.59951732
[9,] -0.53430691 0.80269450 -1.4566845 -0.58515763
[10,] -1.20219054 -1.40000240 -1.4566845 -1.12364624
使用自底向上的聚類方法處理數(shù)據(jù)集:
hc = hclust(dist(customer,method = "euclidean"),method = "ward.D2")
> hc
Call:
hclust(d = dist(customer, method = "euclidean"), method = "ward.D2")
Cluster method : ward.D2
Distance : euclidean
Number of objects: 60
最后,調(diào)用plot函數(shù)繪制聚類樹圖
plot(hc,hang = -0.01,cex =0.7)
使用離差平方和繪制聚類樹圖
還可以使用最短距離法(single)來生成層次聚類并比較以下兩者生成的聚類樹圖的差異:
hc2 = hclust(dist(customer),method = "single")
plot(hc2,hang = -0.01,cex = 0.7)
使用最短距離法繪制聚類樹圖
凝聚層次聚類原理
層次聚類是一種通過迭代來嘗試建立層次聚類的方法,通常可以采用以下兩種方式完成:
凝聚層次聚類
這是一個自底向上的聚類方法。算法開始時,每個觀測樣例都被劃分到單獨的簇中,算法計算得出每個簇之間的相似度(距離),并將兩個相似度最高的簇合成一個簇,然后反復迭代,直到所有的數(shù)據(jù)都被劃分到一個簇中。
分裂層次聚類
這是一種自頂向下的聚類算法,算法開始時,每個觀測樣例都被劃分同一個簇中,然后算法開始將簇分裂成兩個相異度最大的小簇,并反復迭代,直到每個觀測值屬于單獨一個簇。
在執(zhí)行層次聚類操作之前,我們需要確定兩個簇之間的相似度到底有多大,通常我們會使用一些距離計算公式:
最短距離法(single linkage),計算每個簇之間的最短距離:
dist(c1,c2) = min dist(a,b)
最長距離法(complete linkage),計算每個簇中兩點之間的最長距離:
dist(c1,c2) = max dist(a,b)
平均距離法(average linkage),計算每個簇中兩點之間的平均距離:
最小方差法(ward),計算簇中每個點到合并后的簇中心的距離差的平方和。
調(diào)用plot函數(shù)繪制聚類圖,樣例的hang值小于0,因此聚類樹將從底部顯示標簽,并使用cex將坐標軸上的標簽字體大小縮小為正常的70%,此外,為了比較最小方差法和最短距離法在層次聚類上的差異,我們還繪制了使用最短距離法得到的聚類樹圖。
分裂層次聚類
調(diào)用diana函數(shù)執(zhí)行分裂層次聚類
library(cluster)
dv = diana(customer,metric = "euclidean")
調(diào)用summary函數(shù)輸出模型特征信
summary(dv)
如果想構(gòu)建水平聚類樹
library(magrittr)
dend = customer %>% dist %>% hclust %>% as.dendrogram
dend %>% plot(horiz = TRUE,main = "Horizontal Dendrogram")
水平聚類樹
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03