99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-23 閱讀量: 921
如何進(jìn)行特征選擇?

特征選擇是一個(gè)重要的數(shù)據(jù)預(yù)處理過程,主要有兩個(gè)原因,首先在現(xiàn)實(shí)任務(wù)中我們會(huì)遇到維數(shù)災(zāi)難的問題(樣本密度非常稀疏),若能從中選擇一部分特征,那么這個(gè)問題能大大緩解,另外就是去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度,增加模型的泛化能力。冗余特征指該特征包含的信息可以從其他特征中推演出來,但是這并不代表該冗余特征一定沒有作用,例如在欠擬合的情況下也可以用過加入冗余特征,增加簡單模型的復(fù)雜度。

在理論上如果沒有任何領(lǐng)域知識(shí)作為先驗(yàn)假設(shè)那么只能遍歷所有可能的子集。但是這顯然是不可能的,因?yàn)樾枰闅v的數(shù)量是組合爆炸的。一般我們分為子集搜索和子集評(píng)價(jià)兩個(gè)過程,子集搜索一般采用貪心算法,每一輪從候選特征中添加或者刪除,分別成為前向和后先搜索?;蛘邇烧呓Y(jié)合的雙向搜索。子集評(píng)價(jià)一般采用信息增益,對(duì)于連續(xù)數(shù)據(jù)往往排序之后選擇中點(diǎn)作為分割點(diǎn)。

常見的特征選擇方式有過濾式,包裹式和嵌入式,filter,wrapper和embedding。Filter類型先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器。Wrapper直接把最終學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則,一般通過不斷候選子集,然后利用cross-validation過程更新候選特征,通常計(jì)算量比較大。嵌入式特征選擇將特征選擇過程和訓(xùn)練過程融為了一體,在訓(xùn)練過程中自動(dòng)進(jìn)行了特征選擇,例如L1正則化更易于獲得稀疏解,而L2正則化更不容易過擬合。L1正則化可以通過PGD,近端梯度下降進(jìn)行求解。

0.0000
5
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無數(shù)據(jù)
推薦帖子