99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2020-08-23 閱讀量: 1478
卡方分箱

分箱的原因:

1、模型穩(wěn)定:在一般情況下建立分類模型是,需要對(duì)連續(xù)變量進(jìn)行離散化,離散后的特征能夠去除噪聲,對(duì)異常值不再敏感,使得模型可以更加的穩(wěn)定。

2、簡(jiǎn)化模型:降低樣本中的個(gè)別信息對(duì)模型的影響,降低過擬合的風(fēng)險(xiǎn)。


分箱的目的:

1、離散特征的增加和減少很容易,易于模型的快速迭代。

2、稀疏向量?jī)?nèi)積乘法運(yùn)算速度快,計(jì)算結(jié)果方便存儲(chǔ),容易擴(kuò)展。

3、列表內(nèi)容離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性?!倦x散化后的,減少異常數(shù)據(jù)對(duì)模型干擾】

4、列表內(nèi)容邏輯回歸屬于廣義線性模型,表達(dá)能力受限;單變量離散化為N個(gè)后,每個(gè)變量都有單獨(dú)的權(quán)重,相當(dāng)于為模型引入了非線性,能夠提升模型表達(dá)能力,加大擬合。

5、離散化后可以進(jìn)行特征交叉,有M+N變量變成M*N個(gè)變量,進(jìn)一步引入非線性,提高表達(dá)能力。

6、列表內(nèi)容特征離散化后,模型更加穩(wěn)定,且起到簡(jiǎn)化模型的作用,降低模型過擬合的風(fēng)險(xiǎn)。

7、將所有變量變換到相似的尺度上。


卡方分箱原理:

卡方值的計(jì)算公式的意義是衡量觀測(cè)值與理論值的距離,如果卡方值小,說明觀測(cè)值和理論值差距很小,也就說明特征無(wú)論取x1或x2,類別的分布是相似的。

因?yàn)閷?duì)于精確的離散化,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致。 因此如果兩個(gè)相鄰 的區(qū)間具有非常類似的類分布,則這兩個(gè)區(qū)間可以合并,即當(dāng)越低卡方值,說明他們具有越相似的類分布。


卡方分箱步驟:

1、設(shè)定卡方的閾值

2、初始化

根據(jù)離散化的屬性對(duì)實(shí)例進(jìn)行排序:每個(gè)實(shí)例屬于一個(gè)區(qū)間

3、合并區(qū)間

①計(jì)算每一相鄰區(qū)間的卡方值

②將卡方值最小的一對(duì)區(qū)間合并


卡方閾值的確定

1、根據(jù)顯著性水平和自由度確定

2、自由度=(行數(shù)-1)*(列數(shù)-1)?!咀杂啥葹?的90%置信度(10%置信水平)下,卡方的值為4.6】

3、類別和屬性相互獨(dú)立時(shí),有90% 的可能計(jì)算得到的卡方值會(huì)小于4.6,當(dāng)大于閾值4.6時(shí),說明類別和屬性不是相互獨(dú)立的,不能合并。

4、閾值選擇過大,則區(qū)間合并會(huì)進(jìn)行很多次,使得區(qū)間數(shù)量少,區(qū)間大。

37.4817
0
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子