2018-10-17
閱讀量:
1201
怎么理解one-hot?
在機(jī)器學(xué)習(xí)的算法中,特征不僅有連續(xù)值,也有離散值,比如大學(xué)的專業(yè),此處舉出三個(gè)[計(jì)算機(jī),市場營銷,化工]。離散值數(shù)字化的時(shí)候可以采用序列化映射的方式,即[計(jì)算機(jī):1,市場營銷:2,化工:3],這樣計(jì)算出三者之間距離的結(jié)果分別是1,1,2。
wait a minute!憑什么'化工-計(jì)算機(jī)'之間的距離會(huì)大于'市場營銷-計(jì)算機(jī)'的距離?這顯然不合理,特征之間距離或相似度的計(jì)算應(yīng)該基于歐式空間的距離。所以這時(shí)需要使用one-hot編碼,將離散特征的取值擴(kuò)展到歐式空間,離散特征的某個(gè)取值就對應(yīng)歐式空間的某個(gè)點(diǎn)。
One-Hot編碼,又稱為獨(dú)熱碼或一位有效編碼,主要是采用N位狀態(tài)寄存器來對N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有獨(dú)立的寄存器位,并且在任意時(shí)候只有一位有效。那么上面的特征就變成了[計(jì)算機(jī):[1,0,0],市場營銷:[0,1,0],化工:[0,0,1]],這樣計(jì)算出來,各專業(yè)之間的距離才是相同的。






評論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評論
0條評論
0條評論