97人妻天天爽夜夜爽二区,国产成人精品精品日本亚洲

數(shù)據(jù)無量綱化：

歸一化：對異常值敏感（preprocessing.MinMaxScaler實現(xiàn)歸一化，參數(shù)feature_range控制數(shù)據(jù)壓縮的范圍，默認(rèn)是[0,1]
標(biāo)準(zhǔn)化：標(biāo)準(zhǔn)化（preprocessing.StandardScale實現(xiàn)標(biāo)準(zhǔn)化）

歸一化和標(biāo)準(zhǔn)化不會改變數(shù)據(jù)集的分布和信息，線性的處理不會改變數(shù)據(jù)集的分布
sklearn中標(biāo)準(zhǔn)化、歸一化的包必須要在數(shù)據(jù)變?yōu)槎S數(shù)組的時候才可以帶進(jìn)去運(yùn)算，其實幾乎所有的包都需要是二位數(shù)組才可以帶入，除了對標(biāo)簽進(jìn)行離散化的包外（LabelEncoder）
相比歸一化，標(biāo)準(zhǔn)化的結(jié)果更加準(zhǔn)確，更加清晰。利用標(biāo)準(zhǔn)化的公式簡化了算法，從而得到一個比較好的效果，因為標(biāo)準(zhǔn)化用到了均值和方差。
數(shù)據(jù)的無量綱化可以是線性的，也可以是非線性的，線性的無量綱化包括中心化處理或縮放處理。中心化的本質(zhì)是讓所有記錄減去一個固定值，即讓數(shù)據(jù)樣本數(shù)據(jù)平移到某個位置?？s放的本質(zhì)是通過除以一個固定值，將數(shù)據(jù)固定在某個范圍之中，取對數(shù)也算是一種縮放處理。
對于連續(xù)型的變量最好是都做一下去量綱的操作

缺失值處理：

離散型變量的編碼：

preprocessing.LabelEncoder，專門對標(biāo)簽進(jìn)行編碼，LabelEncoder這個是一個特例，不要求傳入?yún)?shù)為二維數(shù)組
preprocessing.LabelEncoder包中，對訓(xùn)練集進(jìn)行學(xué)習(xí)之后的模型，可以在calsses_中查看標(biāo)簽和編碼的對應(yīng)，標(biāo)簽按照順序編0,1,2……
preprocessing.OrdinalEncoder，特征專用的庫，可以對多個特征同時進(jìn)行轉(zhuǎn)換，categories_中記錄編碼的順序
對于名義變量必須需要使用獨(dú)熱編碼的形式，使特征的每個取值之間相互獨(dú)立。
順序變量可以不做獨(dú)熱編碼，做普通編碼即可
在不確定變量的特征的時候，可以直接全部做獨(dú)熱編碼，可能會對模型的運(yùn)算效果有影響，但是計算的結(jié)果很精確

連續(xù)型變量的離散化：

連續(xù)型變量編碼可以進(jìn)行二值化（需要通過觀察分布來判斷），或者采用分箱的方式進(jìn)行（等頻分享或者等距分箱或者k-means）
連續(xù)型變量在進(jìn)行離散化之前不需要先對特征進(jìn)行去量綱的操作，因為去量綱的操作不改變數(shù)據(jù)的分布，因此可以在原始數(shù)據(jù)的基礎(chǔ)上直接進(jìn)行離散化

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www