
機器學(xué)習(xí)模型評價指標(biāo)及R實現(xiàn)
1.ROC曲線
考慮一個二分問題,即將實例分成正類(positive)或負(fù)類(negative)。對一個二分問題來說,會出現(xiàn)四種情況。如果一個實例是正類并且也被
預(yù)測成正類,即為真正類(True positive),如果實例是負(fù)類被預(yù)測成正類,稱之為假正類(False
positive)。相應(yīng)地,如果實例是負(fù)類被預(yù)測成負(fù)類,稱之為真負(fù)類(True negative),正類被預(yù)測成負(fù)類則為假負(fù)類(false
negative)。
列聯(lián)表如下表所示,1代表正類,0代表負(fù)類。
真正類率(true positive rate ,TPR), 也稱為 Sensitivity,計算公式為TPR=TP/ (TP+ FN),刻畫的是分類器所識別出的 正實例占所有正實例的比例。
假正類率(false positive rate, FPR),計算公式為FPR= FP / (FP + TN),計算的是分類器錯認(rèn)為正類的負(fù)實例占所有負(fù)實例的比例。
真負(fù)類率(True Negative Rate,TNR),也稱為specificity,計算公式為TNR=TN/ (FP+ TN) = 1 - FPR。 在一個二分類模型中,對于所得到的連續(xù)結(jié)果,假設(shè)已確定一個閾值,比如說 0.6,大于這個值的實例劃歸為正類,小于這個值則劃到負(fù)類中。如果減小閾值,減到0.5,固然能識別出更多的正類,也就是提高了識別出的正例占所有正例的比例,即TPR,但同時也將更多的負(fù)實例當(dāng)作了正實例,即提高了FPR。為了形象化這一變化,在此引入ROC。
ROC曲線正是由兩個變量1-specificity(x軸) 和 Sensitivity(y軸)繪制的,其中1-specificity為FPR,Sensitivity為TPR。隨著閾值的改變,就能得到每個閾值所對應(yīng)的1-specificity和Sensitivity,最后繪制成圖像。
該圖像的面積如果越接近1,那么我們則認(rèn)為該分類器效果越好。從直覺上來說,假設(shè)我們的預(yù)測全部100%正確,那么不管閾值怎么變(除了閾值等于0和1時),我們的Sensitivity(真正類)率永遠(yuǎn)等于1,1-specificity(1-真負(fù)類率)永遠(yuǎn)等于0,所以該圖就是個正方形,面積為1,效果最好。
樣例數(shù)據(jù)集:
library(ROCR)
data(ROCR.simple)
ROCR.simple<-as.data.frame(ROCR.simple)
head(ROCR.simple)
# predictions labels
# 1 0.6125478 1
# 2 0.3642710 1
# 3 0.4321361 0
# 4 0.1402911 0
# 5 0.3848959 0
# 6 0.2444155 1
繪制ROC圖:
pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
perf <- performance(pred,"tpr","fpr")
plot(perf,colorize=TRUE)
2.AUC值
AUC值就是ROC曲線下的面積,可以通過以下代碼計算:
pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
auc.tmp <- performance(pred,"auc")
auc <- as.numeric(auc.tmp@y.values)
3.Recall-Precision(PR)曲線
同樣是一個二分類的模型的列聯(lián)表,我們可以定義:
然后我們通過計算不同的閾值,以Recall為X軸,Precision為Y軸繪制圖像。
PR圖可以有這樣的應(yīng)用,引用一個例子[1]:
1. 地震的預(yù)測
對于地震的預(yù)測,我們希望的是RECALL非常高,也就是說每次地震我們都希望預(yù)測出來。這個時候我們可以犧牲PRECISION。情愿發(fā)出1000次警報,把10次地震都預(yù)測正確了;也不要預(yù)測100次對了8次漏了兩次。
2. 嫌疑人定罪
基于不錯怪一個好人的原則,對于嫌疑人的定罪我們希望是非常準(zhǔn)確的。及時有時候放過了一些罪犯(recall低),但也是值得的。
對于分類器來說,本質(zhì)上是給一個概率,此時,我們再選擇一個CUTOFF點(閥值),高于這個點的判正,低于的判負(fù)。那么這個點的選擇就需要結(jié)合你的具體場景去選擇。反過來,場景會決定訓(xùn)練模型時的標(biāo)準(zhǔn),比如第一個場景中,我們就只看RECALL=99.9999%(地震全中)時的PRECISION,其他指標(biāo)就變得沒有了意義。
繪制代碼:
pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
RP.perf <- performance(pred, "prec", "rec")
plot (RP.perf)
#查看閾值為0.1,0.5,0.9下的召回率和精確率
plot(RP.perf, colorize=T, colorkey.pos="top",
print.cutoffs.at=c(0.1,0.5,0.9), text.cex=1,
text.adj=c(1.2, 1.2), lwd=2)
一般這曲線越靠上,則認(rèn)為模型越好。對于這個曲線的評價,我們可以使用F分?jǐn)?shù)來描述它。就像ROC使用AUC來描述一樣。
4.F1分?jǐn)?shù)
Fβ
分?jǐn)?shù)定義如下:
我們可以使用R計算F1分?jǐn)?shù):
pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
f.perf <- performance(pred, "f")
plot(f.perf) #橫坐標(biāo)為閾值的取值
5.均方根誤差RMSE
回歸模型中最常用的評價模型便是RMSE(root mean square error,平方根誤差),其又被稱為RMSD(root mean square deviation),其定義如下:
其中,yi是第i個樣本的真實值,y^i是第i個樣本的預(yù)測值,n是樣本的個數(shù)。該評價指標(biāo)使用的便是歐式距離。
??RMSE雖然廣為使用,但是其存在一些缺點,因為它是使用平均誤差,而平均值對異常點(outliers)較敏感,如果回歸器對某個點的回歸值很不理性,那么它的誤差則較大,從而會對RMSE的值有較大影響,即平均值是非魯棒的。 所以有的時候我們會先剔除掉異常值,然后再計算RMSE。
R語言中RMSE計算代碼如下:
pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
rmse.tmp<-performance(pred, "rmse")
rmse<-rmse.tmp@y.values
6.SAR
SAR是一個結(jié)合了各類評價指標(biāo),想要使得評價更具有魯棒性的指標(biāo)。(cf. Caruana R., ROCAI2004):
其中準(zhǔn)確率(Accuracy)是指在分類中,使用測試集對模型進(jìn)行分類,分類正確的記錄個數(shù)占總記錄個數(shù)的比例:
pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
sar.perf<-performance(pred, "sar")
7.多分類的AUC[5]
將二類 AUC 方法直接擴展到多類分類評估中, 存在表述空間維數(shù)高、復(fù)雜性大的問題。 一般采用將多類分類轉(zhuǎn)成多個二類分類的思想, 用二類 AUC 方法來評估多類分類器的性能。Fawcett 根據(jù)這種思想提出了 F- AUC 方法[4], 該評估模型如下
其中AUC(i,rest)是計算 用 ” 1- a- r”方 法 得 到 的 每 個 二 類 分 類器的 AUC 值,“ 1- a- r”方法思想是 k 類分類問題構(gòu)造 k 個二類分類器, 第 i 個二類分類器中用第 i 類的訓(xùn)練樣本作為正例, 其他所有樣本作為負(fù)例。 p ( i) 是計算每個類在所有樣本中占有的比例,
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03