1.k-means原理:第一步選取K個(gè)點(diǎn)作為質(zhì)心;第二步計(jì)算所有樣本點(diǎn)到所有質(zhì)心的距離;第三步,把這些距離進(jìn)行排序,從中找出單個(gè)樣本點(diǎn)距離最近的質(zhì)心并把該樣本點(diǎn)劃分到最近質(zhì)心所代表的類中;第四步,計(jì)算得出剛聚成的各簇的真正質(zhì)心;第五步重新計(jì)算所有樣本點(diǎn)到各個(gè)新質(zhì)心的距離,依次重復(fù)上述過程知道最后無論怎樣迭代,所有的質(zhì)心和樣本點(diǎn)歸屬的類都不再發(fā)生變動(dòng),或者達(dá)到設(shè)定 的最大迭代次數(shù)或者每次質(zhì)心變動(dòng)的量小于設(shè)定值,迭代結(jié)束,聚類完成。
2.改進(jìn):a. kmeans++:初始隨機(jī)點(diǎn)選擇盡可能遠(yuǎn),避免陷入局部解。方法是n+1個(gè)中心點(diǎn)選擇時(shí),對(duì)于離前n個(gè)點(diǎn)更遠(yuǎn)的點(diǎn)被選擇到的概率更大b. mini batch kmeans:每次只用一個(gè)子集做重入類并找到類心(提高訓(xùn)練速度)c. ISODATA:對(duì)于難以確定k的時(shí)候,使用該方法。思路是當(dāng)類下的樣本小時(shí),剔除;類下樣本數(shù)量多時(shí),拆分d. kernel kmeans:kmeans用歐氏距離計(jì)算相似度,也可以使用kernel映射到高維空間再聚類








暫無數(shù)據(jù)