99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2020-02-26 閱讀量: 1100
聚類算法中的距離度量有哪些,怎樣理解?

你知道聚類中度量距離的方法有哪些嗎?

1)歐式距離

歐氏距離是最易于理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。即兩點之間直線距離,公式比較簡單就不寫了

 應(yīng)用場景:適用于求解兩點之間直線的距離,適用于各個向量標準統(tǒng)一的情況

2)曼哈頓距離(Manhattan Distance)

從名字就可以猜出這種距離的計算方法了。想象你在曼哈頓要從一個十字路口開車到另外一個十字路口,實際駕駛距離就是這個“曼哈頓距離”。而這也是曼哈頓距離名稱的來源, 曼哈頓距離也稱為城市街區(qū)距離(City Block distance)

 應(yīng)用場景:主要應(yīng)用場景,如棋盤、城市里兩個點之間的距離等

 3)切比雪夫距離?(Chebyshev Distance )

國際象棋玩過么?國王走一步能夠移動到相鄰的8個方格中的任意一個(國王可以直行、橫行、斜行,但是每次只能動一個格。國王是生命的象征,國王死掉,棋局結(jié)束)。那么國王從格子(x1,y1)(x1,y1)走到格子(x1,y1)(x1,y1)最少需要多少步?自己走走試試。你會發(fā)現(xiàn)最少步數(shù)總是max(|x2?x1|,|y2?y1|)max(|x2?x1|,|y2?y1|)步 。有一種類似的一種距離度量方法叫切比雪夫距離,公式是:

Cdist=max(|xi?yi))Cdist=max(|xi?yi))

 應(yīng)用場景:計算國際象棋中國王走步

4)?夾角余弦相似度(Cosine)

夾角越小越相似,cosθ=aTb|a||b|cosθ=aTb|a||b|

 應(yīng)用場景:常用于文本識別,比如新聞的挖掘

舉例:

文本1中詞語a,b分別出現(xiàn)100,50次,向量表示為(100,50)

  文本2中詞語a,b分別出現(xiàn)50,25次,向量表示為(50,25)

  文本3中詞語a,b分別出現(xiàn)10,0次,向量表示為(10,0)

  文本4中詞語a,b分別出現(xiàn)2,0次,向量表示為(2,0)

  可以得知,1,2點向量平行(詞頻比例相同),3,4點向量平行,那么是不是可以判斷1,2文本更相似,3,4文本更相似呢?

5)Pearson相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)考察兩個變量的關(guān)系,值越大,兩個變量越近強相關(guān),即距離越近,所以距離:dist(X,Y)=1?ρX,Ydist(X,Y)=1?ρX,Y

ρX,Y=Cov(X,Y)/σXσY=E((X?μX)(Y?μY))/σXσYρX,Y=Cov(X,Y)/σXσY=E((X?μX)(Y?μY))/σXσY

6)馬氏距離

用來度量一個樣本點P與數(shù)據(jù)分布為D的集合的距離。

 假設(shè)一個樣點P為:x=(x1,x2,x3,...,xN)Tx=(x1,x2,x3,...,xN)T

數(shù)據(jù)集D均值為:μ=(μ123,...,μN)Tμ=(μ1,μ2,μ3,...,μN)T,協(xié)方差矩陣是SS

 則這個樣本點P與數(shù)據(jù)集合D的馬氏距離為:DM(x)=(x?μ)TS?1(x?μ)????????????????√DM(x)=(x?μ)TS?1(x?μ)

馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性,其中x和y是向量:d(x,y)=(x?y)TS?1(x?y)???????????????√d(x,y)=(x?y)TS?1(x?y)

當樣本集合的協(xié)方差矩陣是單位矩陣時,即樣本的各個維度上的方差均為1.馬氏距離就等于歐式距離相等。?

不難發(fā)現(xiàn),如果去掉馬氏距離中的協(xié)方差矩陣,就退化為歐氏距離。那么我們就需要探究這個多出來的因子究竟有什么含義

例子:

  如果我們以厘米為單位來測量人的身高,以克(g)為單位測量人的體重。每個人被表示為一個兩維向量,如一個人身高173cm,體重50000g,表示為(173,50000),根據(jù)身高體重的信息來判斷體型的相似程度。

  我們已知小明(160,60000);小王(160,59000);小李(170,60000)。根據(jù)常識可以知道小明和小王體型相似。但是如果根據(jù)歐幾里得距離來判斷,小明和小王的距離要遠遠大于小明和小李之間的距離,即小明和小李體型相似。這是因為不同特征的度量標準之間存在差異而導致判斷出錯。

  以克(g)為單位測量人的體重,數(shù)據(jù)分布比較分散,即方差大,而以厘米為單位來測量人的身高,數(shù)據(jù)分布就相對集中,方差小。馬氏距離的目的就是把方差歸一化,使得特征之間的關(guān)系更加符合實際情況。

  圖(a)展示了三個數(shù)據(jù)集的初始分布,看起來豎直方向上的那兩個集合比較接近。在我們根據(jù)數(shù)據(jù)的協(xié)方差歸一化空間之后,如圖(b),實際上水平方向上的兩個集合比較接近

為什么馬氏距離是與尺度無關(guān)的?

也許你認為那只要將數(shù)據(jù)標準化后,不就可以計算距離了嗎?但是如果是單純使每個變量先標準化,然后再計算距離,可能會出現(xiàn)某種錯誤,原因是可能在有些多維空間中,某個兩個維之間可能是線性相關(guān)的,協(xié)方差矩陣的引入可以去除特征的線性相關(guān)性。

7)海明距離

  在信息領(lǐng)域,兩個長度相等的字符串的海明距離是在相同位置上不同的字符的個數(shù),也就是將一個字符串替換成另一個字符串需要的替換的次數(shù)。

  例如:

   "toned" and "roses" is 3

1011101 and 1001001 is 2

2173896 and 2233796 is 3

  海明距離若用于分類變量,如果X與Y的值相同,距離D為0,否則D為1:

DH=∑ni=1|xi?yi|DH=∑i=1n|xi?yi|

x=y=>D=0x=y=>D=0

x≠y=>D=1x≠y=>D=1

32.7545
1
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子