
變量選擇是模型構(gòu)建的一個重要方面,每個分析人員都必須學習。畢竟,它有助于排除相關(guān)變量、偏見和不必要噪音的限制來建立預測模型。
許多分析新手認為,保持所有(或更多)的變量就能產(chǎn)生最佳的模型,因為你不會丟失任何信息??杀氖牵麄冨e了!
從模型中刪除一個變量,增加了模型的精度,這種事情你遇到過多少次?
至少,我已經(jīng)碰到過很多次。這樣的變量往往被發(fā)現(xiàn)是相關(guān)的,而且會妨礙實現(xiàn)更高的模型精度。今天,我們就來學習如何在R中擺脫這樣的變量的方式之一。我必須強調(diào)的是,R有一個令人難以置信的公式庫。在所有的軟件包中,我們進行變量選擇的軟件包就是Boruta包。
在這篇文章中,我們將重點放在理解相關(guān)理論和Boruta包的使用上。我將用一個循序漸進的方法來幫助你更好地理解它。
另外,我還進行了Boruta與其他傳統(tǒng)特征選擇算法的比較。通過這個比較,你對特征的理解能夠達到一個更有意義的新高度,它能為建立一個強大的預測模型奠定基礎(chǔ)。“特征”、“變量”和“屬性”這些術(shù)語會被多次使用,不要混淆喲!
什么是boruta算法?為什么它會有這么奇怪的名字?
Boruta是一種特征選擇算法。精確地說,它是隨機森林周圍的一種包裝算法。這個包的名字來源是斯拉夫神話中一個居住在松林的惡魔。
我們知道,特征選擇是預測模型中很關(guān)鍵的一步。當構(gòu)建一個數(shù)據(jù)集包含多個變量的模型時,這個步驟尤為重要。
當你有興趣了解變量相關(guān)性的價值,而不是只局限于建立一個具有良好的預測精度黑盒的預測模型時候,用boruta算法來處理這些數(shù)據(jù)集無疑是最佳選擇。
它是如何工作的?
下面是boruta算法運行的步驟:
1.首先,它通過創(chuàng)建混合副本的所有特征(即陰影特征)為給定的數(shù)據(jù)集增加了隨機性。
2.然后,它訓練一個隨機森林分類的擴展數(shù)據(jù)集,并采用一個特征重要性措施(默認設(shè)定為平均減少精度),以評估的每個特征的重要性,越高則意味著越重要。
3.在每次迭代中,它檢查一個真實特征是否比最好的陰影特征具有更高的重要性(即該特征是否比最大的陰影特征得分更高)并且不斷刪除它視為非常不重要的特征。
4.最后,當所有特征得到確認或拒絕,或算法達到隨機森林運行的一個規(guī)定的限制時,算法停止。
是什么使它與傳統(tǒng)的特征選擇算法不同?
Boruta遵循所有相關(guān)的特征選擇方法,它可以捕獲結(jié)果變量有關(guān)的所有的特征。相比之下,大多數(shù)傳統(tǒng)的特征選擇算法都遵循一個最小的優(yōu)化方法,它們依賴于特征的一個小的子集,會在選擇分類上產(chǎn)生最小錯誤。
在對數(shù)據(jù)集進行隨機森林模型的擬合時,你可以遞歸地處理每個迭代過程中表現(xiàn)不佳的特征。該方法最大限度地減少了隨機森林模型的誤差,這將最終形成一個最小化最優(yōu)特征子集。這通過選擇一個輸入數(shù)據(jù)集的過度精簡版本發(fā)生,反過來,會丟失一些相關(guān)的特征。
另一方面,Boruta找到所有的特征,無論其與決策變量的相關(guān)性強弱與否。這使得它非常適合被應用于生物醫(yī)學領(lǐng)域,一部分人會感興趣了解哪些人類的基因(特征)與某種程度上的特定的醫(yī)療條件(目標變量)相關(guān)。
R中Boruta的應用(實踐)
到此,我們已經(jīng)了解了Boruta包的理論知識。但這是不夠的。真正的挑戰(zhàn)現(xiàn)在才開始。讓我們學習在R中運用這個包。
第一件事,讓我們安裝和調(diào)用這個包。
> install.packages("Boruta")
> library(Boruta)
現(xiàn)在,我們來加載數(shù)據(jù)集。本教程中我的數(shù)據(jù)集選自Practice Problem Loan Prediction
讓我們來看看數(shù)據(jù)。
> setwd("../Data/Loan_Prediction")
> traindata <- read.csv("train.csv", header = T, stringsAsFactors = F)
gsub() 功能被用來將一種表達式用另一種方式代替。在這里我用underscore(_) 替代了blank(“”).
> str(traindata)
> names(traindata) <- gsub("_", "", names(traindata))
讓我們來檢查一下這個數(shù)據(jù)集是否有缺失值。
> summary(traindata)
我們發(fā)現(xiàn),許多變量有缺失值。處理缺失值的優(yōu)先級對實施boruta包是很重要的。此外,該數(shù)據(jù)集還具有空白值。讓我們來清理這個數(shù)據(jù)集。
現(xiàn)在我們將用NA代替所有的空白。這將有助于我一次性處理所有的NA。
> traindata[traindata == “”] <- NA
在這里,我將用處理缺失值的最簡單方法,即成列刪除。更先進的缺失值插補的方法和包可以在這里找到。
> traindata <- traindata[complete.cases(traindata),]
讓我們將分類變量轉(zhuǎn)換為因子數(shù)據(jù)類型。
> convert <- c(2:6, 11:13)
> traindata[,convert] <- data.frame(apply(traindata[convert], 2, as.factor))
現(xiàn)在要實施和檢查Boruta包的性能。Boruta語法類似于回歸(LM)方法。
> set.seed(123)
> boruta.train <- Boruta(Loan_Status~.-Loan_ID, data = traindata, doTrace = 2)
> print(boruta.train)
Boruta performed 99 iterations in 18.80749 secs.
5 attributes confirmed important: ApplicantIncome, CoapplicantIncome,
CreditHistory, LoanAmount, LoanAmountTerm.
4 attributes confirmed unimportant: Dependents, Education, Gender, SelfEmployed.
2 tentative attributes left: Married, PropertyArea.
Boruta對變量數(shù)據(jù)集中的意義給出了明確的命令。在這種情況下,11種屬性中的4個被拒絕,5個被確認,2個屬性被指定為暫定。暫定屬性的重要性非常接近最好的陰影屬性,以至于Boruta無法對隨機森林運行的默認數(shù)量作出有強烈信心的判定。
現(xiàn)在,我們用圖表展示Boruta變量的重要性。
默認情況下,由于缺乏空間,Boruta繪圖功能添加屬性值到橫的X軸會導致所有的屬性值都無法顯示。在這里我把屬性添加到直立的X軸。
> plot(boruta.train, xlab = "", xaxt = "n")
> lz<-lapply(1:ncol(boruta.train$ImpHistory),function(i)
boruta.train$ImpHistory[is.finite(boruta.train$ImpHistory[,i]),i])
> names(lz) <- colnames(boruta.train$ImpHistory)
> Labels <- sort(sapply(lz,median))
> axis(side = 1,las=2,labels = names(Labels),
at = 1:ncol(boruta.train$ImpHistory), cex.axis = 0.7)
藍色的盒狀圖對應一個陰影屬性的最小、平均和最大Z分數(shù)。紅色、黃色和綠色的盒狀圖分別代表拒絕、暫定和確認屬性的Z分數(shù)。
現(xiàn)在我們對實驗性屬性進行判定。實驗性屬性將通過比較屬性的Z分數(shù)中位數(shù)和最佳陰影屬性的Z分數(shù)中位數(shù)被歸類為確認或拒絕。讓我們開始吧。
> final.boruta <- TentativeRoughFix(boruta.train)
> print(final.boruta)
Boruta performed 99 iterations in 18.399 secs.
Tentatives roughfixed over the last 99 iterations.
6 attributes confirmed important: ApplicantIncome, CoapplicantIncome,
CreditHistory, LoanAmount, LoanAmountTerm and 1 more.
5 attributes confirmed unimportant: Dependents, Education, Gender, PropertyArea,
SelfEmployed.
對屬性進行初步分類后的Boruta結(jié)果圖
現(xiàn)在我們要得出結(jié)果了。讓我們獲取確認屬性的列表。
> getSelectedAttributes(final.boruta, withTentative = F)
[1] "Married" "ApplicantIncome" "CoapplicantIncome" "LoanAmount"
[5] "LoanAmountTerm" "CreditHistory"
我們將創(chuàng)建一個來自Boruta最終結(jié)果的數(shù)據(jù)框架。
> boruta.df <- attStats(final.boruta)
> class(boruta.df)
[1] "data.frame"
> print(boruta.df)
meanImp medianImp minImp maxImp normHits decision
Gender 1.04104738 0.9181620 -1.9472672 3.767040 0.01010101 Rejected
Married 2.76873080 2.7843600 -1.5971215 6.685000 0.56565657 Confirmed
Dependents 1.15900910 1.0383850 -0.7643617 3.399701 0.01010101 Rejected
Education 0.64114702 0.4747312 -1.0773928 3.745441 0.03030303 Rejected
SelfEmployed -0.02442418 -0.1511711 -0.9536783 1.495992 0.00000000 Rejected
ApplicantIncome 6.05487791 6.0311639 2.9801751 9.197305 0.94949495 Confirmed
CoapplicantIncome 5.76704389 5.7920332 1.9322989 10.184245 0.97979798 Confirmed
LoanAmount 5.19167613 5.3606935 1.7489061 8.855464 0.88888889 Confirmed
LoanAmountTerm 5.50553498 5.3938036 2.0361781 9.025020 0.90909091 Confirmed
CreditHistory 59.57931404 60.2352549 51.7297906 69.721650 1.00000000 Confirmed
PropertyArea 2.77155525 2.4715892 -1.2486696 8.719109 0.54545455 Rejected
讓我們了解用于Boruta 的參數(shù):
maxRuns:隨機森林運行的最大次數(shù)。如果暫時屬性被保留,你可以考慮增加這個參數(shù)。默認為100。
doTrace:它指的是詳細程度。0指不跟蹤。1指一旦屬性被清除就作出報告決定。2意味著所有的1另加上報告每一次迭代。默認為0。
holdHistory:存儲重要性運行的全部歷史,當其設(shè)置為TRUE(默認)時。當plotImpHistory 功能被喚醒時生成一個分類器運行vs.重要性的表格。
更復雜的參數(shù)請參閱Boruta包文件。
Boruta VS傳統(tǒng)特征選擇算法
到這里,我們已經(jīng)學習了在R里實現(xiàn)Boruta包的有關(guān)概念和步驟。
如果我們使用一個傳統(tǒng)的特征選擇算法,如對相同的數(shù)據(jù)集進行遞歸特征消除,我們是否最終獲得相同的重要性特征?讓我們來看看。
現(xiàn)在,我們將學習用于實現(xiàn)遞歸特征消除(RFE)的步驟。在R中,RFE算法可以通過使用插入包的方法實現(xiàn)。
讓我們從定義一個可用于RFE算法的控制功能開始。我們加載所需的庫:
> library(caret)
> library(randomForest)
> set.seed(123)
> control <- rfeControl(functions=rfFuncs, method="cv", number=10)
在這里,我們通過rfFuncs選項指定了一個隨機森林選擇功能(也是Boruta中的底層算法)。
現(xiàn)在讓我們實現(xiàn)RFE算法。
> rfe.train <- rfe(traindata[,2:12], traindata[,13], sizes=1:12, rfeControl=control)
我確定這是一目了然的。traindata[,2:12],指選擇ID變量和自變量以外的所有列。traindata[,13],只選擇因變量。它可能需要花費一些時間來運行。
我們還可以檢查該算法的結(jié)果。
> rfe.train
Recursive feature selection
Outer resampling method: Cross-Validated (10 fold)
Resampling performance over subset size:
Variables Accuracy Kappa AccuracySD KappaSD Selected
1 0.8083 0.4702 0.03810 0.1157 *
2 0.8041 0.4612 0.03575 0.1099
3 0.8021 0.4569 0.04201 0.1240
4 0.7896 0.4378 0.03991 0.1249
5 0.7978 0.4577 0.04557 0.1348
6 0.7957 0.4471 0.04422 0.1315
7 0.8061 0.4754 0.04230 0.1297
8 0.8083 0.4767 0.04055 0.1203
9 0.7897 0.4362 0.05044 0.1464
10 0.7918 0.4453 0.05549 0.1564
11 0.8041 0.4751 0.04419 0.1336
The top 1 variables (out of 1):
CreditHistory
這個算法對Credit History給出了最高權(quán)重。現(xiàn)在我們將圖表化RFE算法的結(jié)果,得到一個變量重要性的圖表。
> plot(rfe.train, type=c("g", "o"), cex = 1.0, col = 1:11)
讓我們來提取所選擇的功能。我相信這會反映在Credit History中。
> predictors(rfe.train)
[1] "CreditHistory"
因此,我們看到遞歸特征消除算法在數(shù)據(jù)集的11個特征中選取了“信用記錄”作為唯一重要特征。
相比傳統(tǒng)的特征選擇算法,Boruta能夠返回變量重要性的更好結(jié)果,也很容易解釋!我覺得一個人能接觸到許多神奇的R語言包是極好的。我相信肯定會有許多其他的特征選擇包。我特別想了解它們。
結(jié)束語
Boruta是一個易用的軟件包,它沒有許多需要調(diào)整/記憶的參數(shù)。在使用Boruta的時候不要使用有缺失值的數(shù)據(jù)集或極端值檢查重要變量。它會直接報錯。您可以使用此算法來處理手上的任何分類/回歸問題以得出有意義的特征。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03