2021-03-30
閱讀量:
883
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),應(yīng)該怎樣處理類別型特征?
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),應(yīng)該怎樣處理類別型特征?
1, 序號(hào)編碼
序號(hào)編碼通常用于處理類別間具有大小關(guān)系的數(shù)據(jù) 。 例如成績(jī) ,可
以分為低、中、高三擋 ,并且存在“高 > 中 > 低”的排序關(guān)系 。 序號(hào)
編碼會(huì)按照大小關(guān)系對(duì)類別型特征賦予一個(gè)數(shù)值 ID ,例如高表示為 3 、
中表示為 2 、低表示為 1 ,轉(zhuǎn)換后依然保留了大小關(guān)系 。
2,獨(dú)熱編碼
獨(dú)熱編碼通常用于處理類別間不具有大小關(guān)系的特征 。 例如血型,
一共有 4 個(gè)取值( A 型血、 B 型血、 AB 型血 、 o型血) ,獨(dú)熱編碼會(huì)
(1)使用稀疏向量來節(jié)省空間 。 在獨(dú)熱編碼下, 特征向量只有某
一維取值為 1 ,其他位置取值均為 0 。 因此可以利用向量的稀疏表示有
效地節(jié)省空間,并且目前大部分的算法均接受稀疏向量形式的輸入 。
( 2 )配合特征選擇來降低維度 。 高維度特征會(huì)帶來幾方面的問題 。
一是在 K 近鄰算法中,高維空間下兩點(diǎn)之間的距離很難得到高效的衡量;
二是在邏輯回歸模型中,參數(shù)的數(shù)量會(huì)隨著維度的增高而增加,容易引
起過擬合問題;三是通常只有部分維度是對(duì)分類、預(yù)測(cè)有幫助,因此可
以考慮配合特征選擇來降低維度 。
3, 二進(jìn)制編碼
二進(jìn)制編碼主要分為兩步 , 先用序號(hào)編碼給每個(gè)類別賦予一個(gè)類別
ID ,然后將類別 ID 對(duì)應(yīng)的二進(jìn)制編碼作為結(jié)果 。 以 A 、 B 、 AB 、 o
血型為例。 A 型血的 ID 為 1 ,二進(jìn)制表
示為 001; B 型血的 ID 為 2 ,二進(jìn)制表示為 010,以此類推可以得到
AB 型血 和 o型血的二進(jìn)制表示 。 可以看出,二進(jìn)制編碼本質(zhì)上是利用
二進(jìn)制對(duì) ID 進(jìn)行哈希映射,最終得到 0/1 特征向量 ,且維數(shù)少于獨(dú)熱
編碼,節(jié)省了存儲(chǔ)空間。
1, 序號(hào)編碼
序號(hào)編碼通常用于處理類別間具有大小關(guān)系的數(shù)據(jù) 。 例如成績(jī) ,可
以分為低、中、高三擋 ,并且存在“高 > 中 > 低”的排序關(guān)系 。 序號(hào)
編碼會(huì)按照大小關(guān)系對(duì)類別型特征賦予一個(gè)數(shù)值 ID ,例如高表示為 3 、
中表示為 2 、低表示為 1 ,轉(zhuǎn)換后依然保留了大小關(guān)系 。
2,獨(dú)熱編碼
獨(dú)熱編碼通常用于處理類別間不具有大小關(guān)系的特征 。 例如血型,
一共有 4 個(gè)取值( A 型血、 B 型血、 AB 型血 、 o型血) ,獨(dú)熱編碼會(huì)
把血型變成一個(gè) 4 維稀疏向 量, A 型血表示為( 1, 0, 0, 0 ) , B 型血
表示為( 0, 1 , 0, 0 ) , AB 型表示為( 0, 0,1, 0 ) , o 型血表示為( 0, 0,
0, 1 ) 。 對(duì)于類別取值較多的情況下使用獨(dú)熱編碼需要注意以下問題。(1)使用稀疏向量來節(jié)省空間 。 在獨(dú)熱編碼下, 特征向量只有某
一維取值為 1 ,其他位置取值均為 0 。 因此可以利用向量的稀疏表示有
效地節(jié)省空間,并且目前大部分的算法均接受稀疏向量形式的輸入 。
( 2 )配合特征選擇來降低維度 。 高維度特征會(huì)帶來幾方面的問題 。
一是在 K 近鄰算法中,高維空間下兩點(diǎn)之間的距離很難得到高效的衡量;
二是在邏輯回歸模型中,參數(shù)的數(shù)量會(huì)隨著維度的增高而增加,容易引
起過擬合問題;三是通常只有部分維度是對(duì)分類、預(yù)測(cè)有幫助,因此可
以考慮配合特征選擇來降低維度 。
3, 二進(jìn)制編碼
二進(jìn)制編碼主要分為兩步 , 先用序號(hào)編碼給每個(gè)類別賦予一個(gè)類別
ID ,然后將類別 ID 對(duì)應(yīng)的二進(jìn)制編碼作為結(jié)果 。 以 A 、 B 、 AB 、 o
血型為例。 A 型血的 ID 為 1 ,二進(jìn)制表
示為 001; B 型血的 ID 為 2 ,二進(jìn)制表示為 010,以此類推可以得到
AB 型血 和 o型血的二進(jìn)制表示 。 可以看出,二進(jìn)制編碼本質(zhì)上是利用
二進(jìn)制對(duì) ID 進(jìn)行哈希映射,最終得到 0/1 特征向量 ,且維數(shù)少于獨(dú)熱
編碼,節(jié)省了存儲(chǔ)空間。






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論