WOE的全稱是“Weight?of?Evidence”,即證據(jù)權(quán)重。WOE是對原始自變量的一種編碼形式。
要對一個(gè)變量進(jìn)行WOE編碼,需要首先把這個(gè)變量進(jìn)行分組處理(也叫離散化、分箱等等,說的都是一個(gè)意思)。
分組后,對于第i組,WOE的計(jì)算公式如下:

其中,pyi是這個(gè)組中響應(yīng)客戶(風(fēng)險(xiǎn)模型中,對應(yīng)的是違約客戶,總之,指的是模型中預(yù)測變量取值為“是”或者說1的個(gè)體)占所有樣本中所有響應(yīng)客戶的比例,pni是這個(gè)組中未響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例,#yi是這個(gè)組中響應(yīng)客戶的數(shù)量,#ni是這個(gè)組中未響應(yīng)客戶的數(shù)量,#yT是樣本中所有響應(yīng)客戶的數(shù)量,#nT是樣本中所有未響應(yīng)客戶的數(shù)量。
從這個(gè)公式中我們可以體會到,WOE表示的實(shí)際上是“當(dāng)前分組中響應(yīng)客戶占所有響應(yīng)客戶的比例”和“當(dāng)前分組中沒有響應(yīng)的客戶占所有沒有響應(yīng)的客戶的比例”的差異。
對這個(gè)公式做一個(gè)簡單變換,可以得到:

變換以后我們可以看出,WOE也可以這么理解,他表示的是當(dāng)前這個(gè)組中響應(yīng)的客戶和未響應(yīng)客戶的比值,和所有樣本中這個(gè)比值的差異。這個(gè)差異是用這兩個(gè)比值的比值,再取對數(shù)來表示的。WOE越大,這種差異越大,這個(gè)分組里的樣本響應(yīng)的可能性就越大,WOE越小,差異越小,這個(gè)分組里的樣本響應(yīng)的可能性就越小。








暫無數(shù)據(jù)