
作者 | 我的智慧生活
來源 | 咪付
生活中,距離通常是用于形容兩個(gè)地方或兩個(gè)物體之間的遠(yuǎn)近。在人工智能機(jī)器學(xué)習(xí)領(lǐng)域,常使用距離來衡量兩個(gè)樣本之間的相似度。
“物以類聚”
我們知道“物以類聚”通常用于比喻同類的東西經(jīng)常聚在一起。機(jī)器學(xué)習(xí)中,距離就是遵循物以類聚的思想。通過兩個(gè)樣本特征數(shù)據(jù)進(jìn)行距離計(jì)算后,得到的距離值越小,代表兩者的相似度越高,屬于同一類的可能性就越高。換句話說,距離能夠決定樣本的歸屬。
例如,在下圖中,對于機(jī)器學(xué)習(xí)來說存在著兩種距離:
(1)一是人物的空間位置距離;
(2)二是人物的性格愛好距離。
對第1種距離來說,A與C較A與B近;而對第2種距離來說,則是A與B較近(愛打球)。A與B的愛好距離可通過如下計(jì)算:
我們用0—10分來表征每個(gè)人對打球的喜好程度,分?jǐn)?shù)越高代表越愛打球,假設(shè)A、B、C三人的分值分別如下:
可以看出,A、B兩人的分?jǐn)?shù)較接近,A、B兩人的分?jǐn)?shù)差小于A、C兩人的分?jǐn)?shù)差,這個(gè)分?jǐn)?shù)差值也就是機(jī)器學(xué)習(xí)中要計(jì)算的距離。通過比較得出,A、B兩者的距離小,容易歸為一類。當(dāng)然,這里僅僅分析了愛打球這一個(gè)特征屬性,機(jī)器學(xué)習(xí)中通常涉及多個(gè)屬性進(jìn)行綜合計(jì)算和判斷,也就是多維度分析。
物理幾何空間距離
機(jī)器學(xué)習(xí)中,計(jì)算兩個(gè)樣本點(diǎn)之間的距離有多種不同的距離衡量方法,其中最常見的就是采用物理幾何空間距離進(jìn)行衡量。所謂物理幾何空間距離就是點(diǎn)到點(diǎn)之間在物理空間中的真實(shí)距離。通俗地說,這類距離看得見、摸得著。常見的物理幾何空間距離有:
歐氏距離
(Euclidean Distance)
曼哈頓距離
(Manhattan Distance)
切比雪夫距離
(Chebyshev Distance)
閔氏距離
(Minkowski Distance)
夾角余弦
(Cosine)
這幾類物理幾何空間距離的應(yīng)用非常多,尤其是歐氏距離。
曼哈頓距離
我們首先從曼哈頓距離來形象了解機(jī)器學(xué)習(xí)中的距離,曼哈頓距離也是機(jī)器學(xué)習(xí)中常采用的一種距離。
我們知道曼哈頓是“世界的十字路口”,那里有非常多的十字交叉路口。
曼哈頓距離,說的是從街區(qū)中的一個(gè)十字路口到另一個(gè)十字路口所經(jīng)過的街區(qū)距離,因此也稱為城市街區(qū)距離。下圖中給出了曼哈頓距離的形象說明,當(dāng)我們開車從街區(qū)的一個(gè)十字路口(O)到了另一個(gè)十字路口(E)所經(jīng)過的街區(qū)距離為:a+b,這就是曼哈頓距離。
O、E兩點(diǎn)之間直線段距離是我們生活中常說的兩個(gè)地方(O、E)之間的距離,而在實(shí)際街區(qū)中的情形,車輛無法從O沿直線開到E,除非具備像蜘蛛俠一樣的飛行本領(lǐng)可以穿越其中的大樓,這就是曼哈頓距離的由來。
一圖看清“歐曼雪”
下面我們再從簡單的二維平面坐標(biāo)圖來對比了解歐氏距離、曼哈頓距離和切比雪夫距離(以下簡稱“歐曼雪”)這三種距離的區(qū)別。
上圖是由X和Y組成的二維平面坐標(biāo),現(xiàn)有A、B兩個(gè)二維樣本值,其投影坐標(biāo)點(diǎn)分別為:
A(X1,Y1)、B(X2,Y2)
A、B兩點(diǎn)之間的直線段距離(圖中的c)就是A、B兩個(gè)樣本的歐氏距離。因此,歐氏距離就是兩個(gè)樣本值投影在其坐標(biāo)空間上的兩點(diǎn)之間的直線距離。
如何計(jì)算A與B之間的歐氏距離?
從圖中可以看出,A、B兩點(diǎn)之間的直線段(c)與其橫坐標(biāo)差值線段:
a=X2-X1
縱坐標(biāo)差值線段:
b=Y2-Y1
構(gòu)成了一個(gè)直角三角形,根據(jù)勾股定理的關(guān)系可知:
c2=a2+b2
因此,我們可以根據(jù)坐標(biāo)點(diǎn)A(X1,Y1)、B(X2,Y2),求得c值。即計(jì)算式為:
c2=a2+b2=(X2-X1)2+(Y2-Y1)2
A與B之間的曼哈頓距離又是怎樣的距離呢?
上圖中曼哈頓距離是由A沿直線走到C,再由C沿直線走到B,總共經(jīng)過的距離,即為:
a+b=|X1-X2|+|Y1-Y2|
再來看切比雪夫距離,在上述二維平面坐標(biāo)示意圖中,A與B之間的切比雪夫距離則是選取a、b中值最大的,若a>b,切比雪夫距離即等于a,其計(jì)算表達(dá)式為:
Max(|X1-X2|,|Y1-Y2|)
由此可看出,上述“歐曼雪”三種距離的實(shí)質(zhì)分別如下:
- 歐氏距離 -
兩個(gè)樣本同一特征分量值差值的平方之和,再開平方根
- 曼哈頓距離 -
兩個(gè)樣本同一特征分量值差值的絕對值之和
- 切比雪夫距離 -
兩個(gè)樣本同一特征分量值差值的絕對值中的最大值
假如現(xiàn)在有三個(gè)人A、B和C(即樣本A、樣本B和樣本C),我們需要以性格、愛好這兩個(gè)屬性為依據(jù)來判斷他們的相似度,A、B、C的綜合屬性值則表示為:A(性格1,愛好1)、B(性格2,愛好2)、C(性格3,愛好3)。
我們設(shè)定上述性格、愛好等每個(gè)分量特征屬性的取值范圍為0—10分。以性格活潑、愛好打球具體屬性為例,若性格很活潑,分值為10,若性格不活潑,分值則為0分,其余介于很活潑和不活潑之間的,則取0—10之間的分值;同理,若很愛打球,分值為10分,不愛打球,分值則為0分,其余介于很愛打球和不愛打球之間的,則取0—10之間的分值。
針對性格活潑、愛好打球的兩項(xiàng)特征,假設(shè)A、B、C三人的取值分別如下:
我們現(xiàn)以上述A、B、C三個(gè)樣本A(4,4)、B(9,5)、C(6,1)投影到二維坐標(biāo)上,分別計(jì)算A、B樣本之間和A、C樣本之間各自的歐氏距離、曼哈頓距離和切比雪夫距離,參照二維坐標(biāo)投影圖,計(jì)算結(jié)果如下:
從上表結(jié)果可知,A、C兩個(gè)樣本的歐氏距離、曼哈頓距離和切比雪夫距離均小于A、B兩個(gè)樣本,因此,A與C的相似度較高。這一結(jié)果與二維坐標(biāo)圖上的直觀顯示相符(即線段AC<AB)。這也很容易理解,兩點(diǎn)之間的直線距離越小,當(dāng)然就越靠近,如果兩點(diǎn)完全重合,那就是零距離。
閔氏距離
由上述例子的計(jì)算結(jié)果可知,盡管歐氏距離、曼哈頓距離和切比雪夫距離各自的定義和計(jì)算都不相同,但它們最終衡量的結(jié)果是相一致的。這三類距離也可歸為閔氏距離。
閔氏距離也稱閔可夫斯基距離,根據(jù)其變參數(shù)p的不同,可以歸為不同類型的距離,比如:曼哈頓距離(p=1);歐氏距離(p=2);切比雪夫距離(p→∞)。
我們已經(jīng)知道歐氏距離的實(shí)質(zhì)是兩個(gè)樣本同一特征分量值差值的平方和,然后再開平方根,這里的平方指數(shù)就是閔氏距離的變參數(shù)p取2,如果平方指數(shù)(即2次方)換成其他次方(比如1,3,4次方等等),那就是其他類閔氏距離。
因此,也可以將閔氏距離看成是歐氏距離指數(shù)的推廣距離,兩者實(shí)質(zhì)特點(diǎn)對比如下:
可見,閔氏距離不僅涵蓋了“歐曼雪”三種距離,實(shí)則也是歐氏距離指數(shù)的推廣(指數(shù)范圍擴(kuò)大到任意整數(shù))距離。
當(dāng)然,以上僅考慮了性格、愛好這兩個(gè)特征屬性來分析判斷兩個(gè)人的相似度。但是如果僅憑性格、愛好兩個(gè)方面來預(yù)估兩人的相似度,似乎有點(diǎn)過于簡單粗暴,通常情況下,我們還要結(jié)合更多的特征因素來綜合考慮,例如人生觀、價(jià)值觀、家庭背景等,從而得出更加準(zhǔn)確的歸類判斷結(jié)果。如果在性格、愛好兩個(gè)特征的基礎(chǔ)上增加人生觀這一特征因素來評判,A、B兩人的綜合屬性值則表示為:A(性格1,愛好1,人生觀1)、B(性格2,愛好2,人生觀2),其具體特征值假設(shè)為:A(4,4,3)、B(9,5,6),在計(jì)算各類距離時(shí),則相應(yīng)增加人生觀這一特征的差值。例如:
曼哈頓距離計(jì)算為:
|4-9|+|4-5|+|3-6|=9;
切比雪夫距離計(jì)算為:
Max(|4-9|,|4-5|,|3-6|)=Max(5,1,3)=5;
歐氏距離計(jì)算為:
(4-9)2+(4-5)2+(3-6)2 =52+12+32=35,再開平方根所得。
對比上表中兩維的計(jì)算式,可見,增加了|3-6|或(3-6)2這一項(xiàng)差值。
同理,如果在性格、愛好、人生觀這三個(gè)特征屬性的基礎(chǔ)上,還需考慮價(jià)值觀、家庭背景這兩個(gè)特征屬性,總共就變成了五個(gè)分量特征,那就是五維的情形。在計(jì)算上述各類距離時(shí),則相應(yīng)增加價(jià)值觀、家庭背景這兩個(gè)分量特征的差值。
可見,每增加一個(gè)分量特征,維度就增加一個(gè),計(jì)算距離時(shí)則相應(yīng)增加該維度分量特征的差值。人工智能機(jī)器學(xué)習(xí)中,為了達(dá)到更準(zhǔn)確的分類目的,往往要涉及非常多的維度,因而其計(jì)算量也相應(yīng)增大。例如我們熟悉的人臉識(shí)別應(yīng)用中通常采用512維特征向量,即有512個(gè)分量特征,以更好地區(qū)別出每一個(gè)人。
假設(shè)分別用兩個(gè)特征向量:
A(X1, X2,....,X511, X512)
B(Y1, Y2,....,Y511, Y512)
來表示兩個(gè)512維人臉特征數(shù)據(jù),則該兩個(gè)人臉樣本之間的歐氏距離為:
( (Y1-X1) 2+(Y2-X2) 2 +......+(Y511-X511) 2 +(Y512-X512) 2)
計(jì)算求得512個(gè)分量值差的平方和,再開平方根,即為兩者的歐氏距離。這就是高維歐氏距離的計(jì)算。
夾角余弦
除了以上各類常見的閔氏距離,還有一種較常用的距離,那就是夾角余弦。夾角余弦根據(jù)兩個(gè)樣本向量的夾角余弦值大小來確定樣本的相似性。余弦值越接近1,余弦夾角就越接近0度,兩個(gè)向量越相似。
現(xiàn)我們?nèi)砸院唵蔚钠矫娑S坐標(biāo)的來了解夾角余弦的本質(zhì)。以上述A、B、C三個(gè)樣本A(4,4)、B(9,5)、C(6,1)為例,其在二維平面坐標(biāo)的投影點(diǎn)如下圖所示,從坐標(biāo)原點(diǎn)O出發(fā)分別指向A、B、C三個(gè)點(diǎn)的線段(OA、OB、OC)則為A、B、C三個(gè)樣本點(diǎn)的向量,A、B之間的向量夾角則為θ1,A、C之間的向量夾角則為θ2,根據(jù)三角形AOB的邊長可計(jì)算出θ1的余弦值,根據(jù)三角形AOC的邊長可計(jì)算出θ2的余弦值。θ1、θ2夾角示意圖及其計(jì)算式如下表所示:
夾角余弦計(jì)算公式(二維)
根據(jù)兩個(gè)樣本的坐標(biāo)值計(jì)算
余弦值取值范圍為[-1,1]。余弦值越大,夾角越小。
A、B樣本夾角余弦值
向量OA與OB之間的夾角余弦值
A、C樣本夾角余弦值
向量OA與OC之間的夾角余弦值
可以得出θ1<θ2,從而得出A和B相似度高。
通過對比發(fā)現(xiàn),以上夾角余弦相似度的判斷結(jié)果與歐氏距離等的判斷結(jié)果正好相反。這是為什么呢?這是因?yàn)闅W氏距離和余弦相似度各自的計(jì)算方式和衡量角度不相同,歐氏距離關(guān)注的是兩點(diǎn)之間的絕對距離,而夾角余弦相似度注重的是兩個(gè)向量在方向上的差異,而非距離。如下二維坐標(biāo)圖中,有A、C兩個(gè)樣本,歐氏距離關(guān)注的是AC兩點(diǎn)的直線段距離,與OA、OC線段長度密切相關(guān);而夾角余弦則是關(guān)注OA線段與OC線段重合需掃過的角度(θ)大小,與OA、OC線段長度無關(guān)。因此,夾角余弦相似度是整體方向性上的判斷,而歐氏距離則是各分量特征的絕對差值判斷。
我們還可以用兩個(gè)等邊三角形的例子來具體了解兩者的實(shí)質(zhì)差別。假設(shè)有兩個(gè)等邊三角形T1和T2,其邊長分別為8和4,現(xiàn)以三個(gè)邊長為分量特征屬性來表征三角形,其在三維空間的投影坐標(biāo)點(diǎn)分別為T1(8, 8, 8)、T2(4, 4, 4)。由邊長數(shù)值可知,兩個(gè)等邊三角形雖然邊長差距大,但形狀完全相似。從其投影坐標(biāo)點(diǎn)可知,由于T1、T2各個(gè)邊長分量差值相同,兩個(gè)坐標(biāo)點(diǎn)在三維空間坐標(biāo)上投影方向完全相同。對T1、T2之間的歐氏距離及夾角余弦作對比如下:
從以上對比分析可以看出,歐氏距離和余弦相似度各自的評判標(biāo)準(zhǔn)不同,得出的結(jié)論也可能完全不同,因此,兩者可根據(jù)適用的場合選擇采用。歐氏距離適用于需要從每個(gè)分量特征差距中體現(xiàn)差異的分析,如通過用戶行為指標(biāo)分析用戶價(jià)值相似度。余弦相似度更適用于綜合性的導(dǎo)向評價(jià),如通過用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度等,余弦相似度也常用于計(jì)算兩個(gè)文本之間的相似度。
以上各類常見的物理幾何空間距離不僅容易理解,而且方便好用,在樣本各個(gè)維度數(shù)據(jù)完整好的情況下具有較理想的預(yù)判效果。但同時(shí)這幾類距離也存在著一些明顯的不足,如缺乏考慮各分量之間的相關(guān)性影響、各分量特征側(cè)重排序等。
例如上述的例子中,也許需要對性格、愛好、人生觀、價(jià)值觀、家庭背景等分量特征進(jìn)行側(cè)重排序,又或者人生觀這一分量特征會(huì)對價(jià)值觀、愛好等分量特征有影響。如需考慮分量相關(guān)性、個(gè)體相對于總體的比重等相關(guān)因素,更多則是采用基于概率統(tǒng)計(jì)的分布距離,較常用的有:馬氏距離、巴氏距離、杰卡德相似系數(shù)、皮爾遜系數(shù)等。這些距離的計(jì)算多涉及統(tǒng)計(jì)學(xué)及概率論知識(shí),因而相對較復(fù)雜。
但無論是物理幾何空間距離,還是基于概率統(tǒng)計(jì)的分布距離,它們的中心思想都是統(tǒng)一的,那就是距離越近越相似。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03