混淆矩陣是ROC曲線繪制的基礎(chǔ),同時它也是衡量分類型模型準確度中最基本,最直觀,計算最簡單的方法。混淆矩陣是評判模型結(jié)果的指標,屬于模型評估的一部分。此外,混淆矩陣多用于判斷分類器(Classifier)的優(yōu)劣,適用于分類型的數(shù)據(jù)模型,如分類樹(Classification Tree)、邏輯回歸(Logistic Regression)、線性判別分析(Linear Discriminant Analysis)等方法。
在分類型模型評判的指標中,常見的方法有如下三種:
1、混淆矩陣(也稱誤差矩陣,Confusion Matrix)
2、ROC曲線
3、AUC面積
混淆矩陣的定義
混淆矩陣(Confusion Matrix),它的本質(zhì)遠沒有它的名字聽上去那么拉風(fēng)。矩陣,可以理解為就是一張表格,混淆矩陣其實就是一張表格而已。
以分類模型中最簡單的二分類為例,對于這種問題,我們的模型最終需要判斷樣本的結(jié)果是0還是1,或者說是positive還是negative。
我們通過樣本的采集,能夠直接知道真實情況下,哪些數(shù)據(jù)結(jié)果是positive,哪些結(jié)果是negative。同時,我們通過用樣本數(shù)據(jù)跑出分類型模型的結(jié)果,也可以知道模型認為這些數(shù)據(jù)哪些是positive,哪些是negative。
因此,我們就能得到這樣四個基礎(chǔ)指標,我稱他們是一級指標(最底層的):
真實值是positive,模型認為是positive的數(shù)量(True Positive=TP)
真實值是positive,模型認為是negative的數(shù)量(False Negative=FN):這就是統(tǒng)計學(xué)上的第二類錯誤(Type II Error)
真實值是negative,模型認為是positive的數(shù)量(False Positive=FP):這就是統(tǒng)計學(xué)上的第一類錯誤(Type I Error)
真實值是negative,模型認為是negative的數(shù)量(True Negative=TN)





