聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機(jī)科學(xué),統(tǒng)計學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。
聚類與分類的不同在于,聚類所要求劃分的類是未知的。
聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
從統(tǒng)計學(xué)的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統(tǒng)計分析軟件包中,如SPSS、SAS等。
從機(jī)器學(xué)習(xí)的角度講,簇相當(dāng)于隱藏模式。聚類是搜索簇的無監(jiān)督學(xué)習(xí)過程。與分類不同,無監(jiān)督學(xué)習(xí)不依賴預(yù)先定義的類或帶類標(biāo)記的訓(xùn)練實例,需要由聚類學(xué)習(xí)算法自動確定標(biāo)記,而分類學(xué)習(xí)的實例或數(shù)據(jù)對象有類別標(biāo)記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。
從實際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。而且聚類能夠作為一個獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進(jìn)一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。








暫無數(shù)據(jù)