1. 層次聚類 vs 非層次聚類
– 不同類之間有無(wú)包含關(guān)系
2. 硬聚類 vs 軟聚類
– 硬聚類:每個(gè)對(duì)象只屬于一個(gè)類
– 軟聚類:每個(gè)對(duì)象以某個(gè)概率屬于每個(gè)類
3. 用向量表示對(duì)象
– 每個(gè)對(duì)象用一個(gè)向量表示,可以視為高維空間的一個(gè)點(diǎn)
– 所有對(duì)象形成數(shù)據(jù)空間(矩陣)
– 相似度計(jì)算:Cosine、點(diǎn)積、質(zhì)心距離
4. 用矩陣列出對(duì)象之間的距離、相似度

5. 用字典保存上述矩陣(節(jié)省空間)
D={(1,1):0,(1,2):2,(1,3):6...(5,5):0}
6. 評(píng)價(jià)方法
– 內(nèi)部評(píng)價(jià)法(Internal Evalution):
? 沒(méi)有外部標(biāo)準(zhǔn),非監(jiān)督式
? 同類是否相似,跨類是否相異

DB值越小聚類效果越好,反之,越不好
– 外部評(píng)價(jià)法(External Evalution):

? 準(zhǔn)確度(accuracy): (C11+C22) / (C11 + C12 + C21 + C22)
? 精度(Precision): C11 / (C11 + C21 )
? 召回(Recall): C11 / (C11 + C12 )
? Fβ值(F-measure):

β表示對(duì)精度P的重視程度,越大越重視,默認(rèn)設(shè)置為1,即變成了F1值,F(xiàn)1較高時(shí)則能說(shuō)明聚類效果較好。








暫無(wú)數(shù)據(jù)