99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-25 閱讀量: 1077
數據挖掘模型中的IV

1、IV的用途

IV的全稱是Information?Value,中文意思是信息價值,或者信息量。

我們在用邏輯回歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們有200個候選自變量,通常情況下,不會直接把200個變量直接放到模型中去進行擬合訓練,而是會用一些方法,從這200個自變量中挑選一些出來,放進模型,形成入模變量列表。那么我們怎么去挑選入模變量呢?

挑選入模變量過程是個比較復雜的過程,需要考慮的因素很多,比如:變量的預測能力,變量之間的相關性,變量的簡單性(容易生成和使用),變量的強壯性(不容易被繞過),變量在業(yè)務上的可解釋性(被挑戰(zhàn)時可以解釋的通)等等。但是,其中最主要和最直接的衡量標準是變量的預測能力。

“變量的預測能力”這個說法很籠統(tǒng),很主觀,非量化,在篩選變量的時候我們總不能說:“我覺得這個變量預測能力很強,所以他要進入模型”吧?我們需要一些具體的量化指標來衡量每自變量的預測能力,并根據這些量化指標的大小,來確定哪些變量進入模型。IV就是這樣一種指標,他可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼系數等等。

我們可以理解為:我們假設在一個分類問題中,目標變量的類別有兩類:Y1,Y2。對于一個待預測的個體A,要判斷A屬于Y1還是Y2,我們是需要一定的信息的,假設這個信息總量是I,而這些所需要的信息,就蘊含在所有的自變量C1,C2,C3,……,Cn中,那么,對于其中的一個變量Ci來說,其蘊含的信息越多,那么它對于判斷A屬于Y1還是Y2的貢獻就越大,Ci的信息價值就越大,Ci的IV就越大,它就越應該進入到入模變量列表中。

2、IV的計算

對于分組i,IV值的計算公式如下:

有了一個變量各分組的IV值,我們就可以計算整個變量的IV值,方法很簡單,就是把各分組的IV相加:

其中,n為變量分組個數。

3、IV的極端情況以及處理方式

變量的任何分組中,不應該出現響應數=0或非響應數=0的情況。

原因很簡單,當變量一個分組中,響應數=0時,此時對應的IVi為+∞。

而當變量一個分組中,沒有響應的數量?=?0時,此時的IVi為+∞。

IVi無論等于負無窮還是正無窮,都是沒有意義的。

由上述問題我們可以看到,使用IV其實有一個缺點,就是不能自動處理變量的分組中出現響應比例為0或100%的情況。

那么,遇到響應比例為0或者100%的情況,我們應該怎么做呢?建議如下:

(1)如果可能,直接把這個分組做成一個規(guī)則,作為模型的前置條件或補充條件;

(2)重新對變量進行離散化或分組,使每個分組的響應比例都不為0且不為100%,尤其是當一個分組個體數很小時(比如小于100個),強烈建議這樣做,因為本身把一個分組個體數弄得很小就不是太合理。

(3)如果上面兩種方法都無法使用,建議人工把該分組的響應數和非響應的數量進行一定的調整。如果響應數原本為0,可以人工調整響應數為1,如果非響應數原本為0,可以人工調整非響應數為1.

0.0000
2
關注作者
收藏
評論(0)

發(fā)表評論

暫無數據
推薦帖子