
聚類分析的方法及應(yīng)用
通常,我們在研究與處理事物時,經(jīng)常需要將事物進行分類,例如地質(zhì)勘探中根據(jù)物探、化探的指標將樣本進行分類;古生物研究中根據(jù)挖掘出的骨骼形狀和尺寸將它們分類;大壩監(jiān)控中由于所得的觀測數(shù)據(jù)量十分龐大,有時亦需將它們分類歸并,獲得其典型代表再進行深入分析等,對事物進行分類,進而歸納并發(fā)現(xiàn)其規(guī)律已成為人們認識世界、改造世界的一種重要方法。
由于對象的復(fù)雜性,僅憑經(jīng)驗和專業(yè)知識有時不能確切地分類,隨著多元統(tǒng)計技術(shù)的發(fā)展和計算機技術(shù)的普及,利用數(shù)學方法進行更科學的分類不僅非常必要而且完全可能。
近些年來,數(shù)值分類學逐漸形成了一個新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數(shù)據(jù)集合,很多研究領(lǐng)域,如工程、生物、醫(yī)藥、語言、人類學、心理學和市場學等,都對聚類技術(shù)的發(fā)展和應(yīng)用起到了推動作用。
1、什么是聚類分析?
聚類分析也稱群分析或點群分析,它是研究多要素事物分類問題的數(shù)量方法,是一種新興的多元統(tǒng)計方法,是當代分類學與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進行聚類。
聚類分析是將分類對象置于一個多維空問中,按照它們空問關(guān)系的親疏程度進行分類。
通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。
聚類分析方法,是定量地研究地理事物分類問題和地理分區(qū)問題的重要方法,常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。
2、聚類分析方法的特征
(1)、聚類分析簡單、直觀。
(2)、聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。
(3)、不管實際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解。
(4)、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產(chǎn)生實質(zhì)性的影響。
(5)、研究者在使用聚類分析時應(yīng)特別注意可能影響結(jié)果的各個因素。
(6)、異常值和特殊的變量對聚類有較大影響,當分類變量的測量尺度不一致時,需要事先做標準化處理。
3、聚類分析的發(fā)展歷程
在過去的幾年中聚類分析發(fā)展方向有兩個:加強現(xiàn)有的聚類算法和發(fā)明新的聚類算法?,F(xiàn)在已經(jīng)有一些加強的算法用來處理大型數(shù)據(jù)庫和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類簇的質(zhì)量。
然而,對于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個“全能”的聚類算法是非常困難的。某些算法只能解決其中的兩個問題,同時能很好解決三個問題的算法還沒有,現(xiàn)在最大的困難是高維度(同時包含大量噪聲)數(shù)據(jù)的處理。
算法的可伸縮性是一個重要的指標,通過采用各種技術(shù),一些算法具有很好的伸縮性。這些技術(shù)包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。
CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點,信息濃縮技術(shù)在BIRCH方法和DECLIJE方法中得到應(yīng)用。
許多算法都使用了索引技術(shù),典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術(shù)。
但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。
最近馬海祥還發(fā)現(xiàn)了一些新的技術(shù)如:STING+方法引入動態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應(yīng)網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術(shù)處理高維度數(shù)據(jù)。
新技術(shù)的引進大大加強了聚類算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對于剛接觸數(shù)據(jù)分析的博友,可以先看下馬海祥博客的《解讀常用的10種可用性研究數(shù)據(jù)類型方法》相關(guān)介紹。
4、系統(tǒng)聚類分析法
系統(tǒng)聚類法(Hierarchical Clustering Method)是目前國內(nèi)外使用晟多的一種方法,有關(guān)它的研究極為豐富。其基本思想是:先將11個樣本各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離;然后選擇距離最小的一對并成一個新類,計算新類和其他類的距離;再將距離最小的兩類合并,這樣每次減少一類,直至所有的樣本都成為一類為止。
在馬海祥看來系統(tǒng)聚類法的優(yōu)點在于:利用樣本之問的距離最近原則進行聚類。這種系統(tǒng)歸類過程與所規(guī)定的歸類指數(shù)有關(guān),同時也與具體的歸類方法有關(guān)系,整個聚類過程可用一張聚類圖(樹)形象表示。
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準確性和可靠性,在地理分類和研究分區(qū)中,被聚類的對象常常是多個要素構(gòu)成的。
不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結(jié)果產(chǎn)生影響,因此當分類要素的對象確定之后,在進行聚類分析之前,首先要對數(shù)據(jù)要素進行處理。
在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種:
①、總和標準化
②、標準差標準化
③、極大值標準化
④、極差的標準化
經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。
距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。
5、聚類分析的3種方法
聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域,并提出了許多聚類算法。
(1)、直接聚類法
直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果,其基本步驟如下:
①、把各個分類對象單獨視為一類;
②、根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;
③、如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;
④、那么,經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖,直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失,因此,直接聚類法并不是最好的系統(tǒng)聚類方法。
(2)、最短距離聚類法
最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出 ,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣。
再從新的距離矩陣中選出最小者,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。
(3)、最遠距離聚類法
最遠距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。
6、系統(tǒng)聚類方法的步驟
(1)、對數(shù)據(jù)進行變換處理;(不是必須的,當數(shù)量級相差很大或指標變量具有不同單位時是必要的)
(2)、構(gòu)造n個類,每個類只包含一個樣本;
(3)、計算n個樣本兩兩間的距離;
(4)、合并距離最近的兩類為一新類;
(5)、計算新類與當前各類的距離,若類的個數(shù)等于1,轉(zhuǎn)到6;否則回4;
(6)、畫聚類圖;
(7)、決定類的個數(shù),從而得出分類結(jié)果。
7、聚類分析的主要應(yīng)用
對于聚類分析的應(yīng)用,馬海祥簡單的從以下6個領(lǐng)域為大家總結(jié)了一下:
(1)、商業(yè)
聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。
聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預(yù)處理。
(2)、生物
聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結(jié)構(gòu)的認識。
(3)、地理
聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性。
(4)、保險行業(yè)
聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組。
(5)、因特網(wǎng)
聚類分析被用來在網(wǎng)上進行文檔歸類來修復(fù)信息。
(6)、電子商務(wù)
聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類,聚類分析所使用方法的不同,常常會得到不同的結(jié)論,不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學習訓(xùn)練中的異常診斷與解決方案 在機器學習模型訓(xùn)練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11