2018-10-22
閱讀量:
1512
常見的聚類算法
1. K-Means(K均值)聚類
算法步驟:
(1) 首先我們選擇一些類/組,并隨機(jī)初始化它們各自的中心點(diǎn)。中心點(diǎn)是與每個數(shù)據(jù)點(diǎn)向量長度相同的位置。這需要我們提前預(yù)知類的數(shù)量(即中心點(diǎn)的數(shù)量)。
(2) 計算每個數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,數(shù)據(jù)點(diǎn)距離哪個中心點(diǎn)最近就劃分到哪一類中。
(3) 計算每一類中中心點(diǎn)作為新的中心點(diǎn)。
(4) 重復(fù)以上步驟,直到每一類中心在每次迭代后變化不大為止。也可以多次隨機(jī)初始化中心點(diǎn),然后選擇運(yùn)行結(jié)果最好的一個。
優(yōu)點(diǎn):
速度快,計算簡便
缺點(diǎn):
我們必須提前知道數(shù)據(jù)有多少類/組。
K-Medians是K-Means的一種變體,是用數(shù)據(jù)集的中位數(shù)而不是均值來計算數(shù)據(jù)的中心點(diǎn)。
K-Medians的優(yōu)勢是使用中位數(shù)來計算中心點(diǎn)不受異常值的影響;缺點(diǎn)是計算中位數(shù)時需要對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行排序,速度相對于K-Means較慢。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論
0條評論