99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀利用R語言的Boruta包進行特征選擇
利用R語言的Boruta包進行特征選擇
2017-06-09
收藏

利用R語言的Boruta包進行特征選擇

變量選擇是模型構(gòu)建的一個重要方面,每個分析人員都必須學習。畢竟,它有助于排除相關(guān)變量、偏見和不必要噪音的限制來建立預測模型。

許多分析新手認為,保持所有(或更多)的變量就能產(chǎn)生最佳的模型,因為你不會丟失任何信息??杀氖牵麄冨e了!

從模型中刪除一個變量,增加了模型的精度,這種事情你遇到過多少次?

至少,我已經(jīng)碰到過很多次。這樣的變量往往被發(fā)現(xiàn)是相關(guān)的,而且會妨礙實現(xiàn)更高的模型精度。今天,我們就來學習如何在R中擺脫這樣的變量的方式之一。我必須強調(diào)的是,R有一個令人難以置信的公式庫。在所有的軟件包中,我們進行變量選擇的軟件包就是Boruta包。

在這篇文章中,我們將重點放在理解相關(guān)理論和Boruta包的使用上。我將用一個循序漸進的方法來幫助你更好地理解它。

另外,我還進行了Boruta與其他傳統(tǒng)特征選擇算法的比較。通過這個比較,你對特征的理解能夠達到一個更有意義的新高度,它能為建立一個強大的預測模型奠定基礎(chǔ)。“特征”、“變量”和“屬性”這些術(shù)語會被多次使用,不要混淆喲!

什么是boruta算法?為什么它會有這么奇怪的名字?

Boruta是一種特征選擇算法。精確地說,它是隨機森林周圍的一種包裝算法。這個包的名字來源是斯拉夫神話中一個居住在松林的惡魔。

我們知道,特征選擇是預測模型中很關(guān)鍵的一步。當構(gòu)建一個數(shù)據(jù)集包含多個變量的模型時,這個步驟尤為重要。

當你有興趣了解變量相關(guān)性的價值,而不是只局限于建立一個具有良好的預測精度黑盒的預測模型時候,用boruta算法來處理這些數(shù)據(jù)集無疑是最佳選擇。

它是如何工作的?

下面是boruta算法運行的步驟:

1.首先,它通過創(chuàng)建混合副本的所有特征(即陰影特征)為給定的數(shù)據(jù)集增加了隨機性。

2.然后,它訓練一個隨機森林分類的擴展數(shù)據(jù)集,并采用一個特征重要性措施(默認設(shè)定為平均減少精度),以評估的每個特征的重要性,越高則意味著越重要。

3.在每次迭代中,它檢查一個真實特征是否比最好的陰影特征具有更高的重要性(即該特征是否比最大的陰影特征得分更高)并且不斷刪除它視為非常不重要的特征。

4.最后,當所有特征得到確認或拒絕,或算法達到隨機森林運行的一個規(guī)定的限制時,算法停止。

是什么使它與傳統(tǒng)的特征選擇算法不同?

Boruta遵循所有相關(guān)的特征選擇方法,它可以捕獲結(jié)果變量有關(guān)的所有的特征。相比之下,大多數(shù)傳統(tǒng)的特征選擇算法都遵循一個最小的優(yōu)化方法,它們依賴于特征的一個小的子集,會在選擇分類上產(chǎn)生最小錯誤。

在對數(shù)據(jù)集進行隨機森林模型的擬合時,你可以遞歸地處理每個迭代過程中表現(xiàn)不佳的特征。該方法最大限度地減少了隨機森林模型的誤差,這將最終形成一個最小化最優(yōu)特征子集。這通過選擇一個輸入數(shù)據(jù)集的過度精簡版本發(fā)生,反過來,會丟失一些相關(guān)的特征

另一方面,Boruta找到所有的特征,無論其與決策變量的相關(guān)性強弱與否。這使得它非常適合被應用于生物醫(yī)學領(lǐng)域,一部分人會感興趣了解哪些人類的基因(特征)與某種程度上的特定的醫(yī)療條件(目標變量)相關(guān)。

R中Boruta的應用(實踐)

到此,我們已經(jīng)了解了Boruta包的理論知識。但這是不夠的。真正的挑戰(zhàn)現(xiàn)在才開始。讓我們學習在R中運用這個包。

第一件事,讓我們安裝和調(diào)用這個包。

> install.packages("Boruta")

> library(Boruta)

現(xiàn)在,我們來加載數(shù)據(jù)集。本教程中我的數(shù)據(jù)集選自Practice Problem Loan Prediction

讓我們來看看數(shù)據(jù)。

> setwd("../Data/Loan_Prediction")

> traindata <- read.csv("train.csv", header = T, stringsAsFactors = F)

gsub() 功能被用來將一種表達式用另一種方式代替。在這里我用underscore(_) 替代了blank(“”).

> str(traindata)

> names(traindata) <- gsub("_", "", names(traindata))

讓我們來檢查一下這個數(shù)據(jù)集是否有缺失值。

> summary(traindata)

我們發(fā)現(xiàn),許多變量有缺失值。處理缺失值的優(yōu)先級對實施boruta包是很重要的。此外,該數(shù)據(jù)集還具有空白值。讓我們來清理這個數(shù)據(jù)集。

現(xiàn)在我們將用NA代替所有的空白。這將有助于我一次性處理所有的NA。

> traindata[traindata == “”] <- NA

在這里,我將用處理缺失值的最簡單方法,即成列刪除。更先進的缺失值插補的方法和包可以在這里找到。

> traindata <- traindata[complete.cases(traindata),]

讓我們將分類變量轉(zhuǎn)換為因子數(shù)據(jù)類型。

> convert <- c(2:6, 11:13)

> traindata[,convert] <- data.frame(apply(traindata[convert], 2, as.factor))

現(xiàn)在要實施和檢查Boruta包的性能。Boruta語法類似于回歸(LM)方法。

> set.seed(123)

> boruta.train <- Boruta(Loan_Status~.-Loan_ID, data = traindata, doTrace = 2)

> print(boruta.train)

Boruta performed 99 iterations in 18.80749 secs.

5 attributes confirmed important: ApplicantIncome, CoapplicantIncome,

CreditHistory, LoanAmount, LoanAmountTerm.

4 attributes confirmed unimportant: Dependents, Education, Gender, SelfEmployed.

2 tentative attributes left: Married, PropertyArea.

Boruta對變量數(shù)據(jù)集中的意義給出了明確的命令。在這種情況下,11種屬性中的4個被拒絕,5個被確認,2個屬性被指定為暫定。暫定屬性的重要性非常接近最好的陰影屬性,以至于Boruta無法對隨機森林運行的默認數(shù)量作出有強烈信心的判定。

現(xiàn)在,我們用圖表展示Boruta變量的重要性。

默認情況下,由于缺乏空間,Boruta繪圖功能添加屬性值到橫的X軸會導致所有的屬性值都無法顯示。在這里我把屬性添加到直立的X軸。

> plot(boruta.train, xlab = "", xaxt = "n")

> lz<-lapply(1:ncol(boruta.train$ImpHistory),function(i)

boruta.train$ImpHistory[is.finite(boruta.train$ImpHistory[,i]),i])

> names(lz) <- colnames(boruta.train$ImpHistory)

> Labels <- sort(sapply(lz,median))

> axis(side = 1,las=2,labels = names(Labels),

at = 1:ncol(boruta.train$ImpHistory), cex.axis = 0.7)

藍色的盒狀圖對應一個陰影屬性的最小、平均和最大Z分數(shù)。紅色、黃色和綠色的盒狀圖分別代表拒絕、暫定和確認屬性的Z分數(shù)。

現(xiàn)在我們對實驗性屬性進行判定。實驗性屬性將通過比較屬性的Z分數(shù)中位數(shù)和最佳陰影屬性的Z分數(shù)中位數(shù)被歸類為確認或拒絕。讓我們開始吧。

> final.boruta <- TentativeRoughFix(boruta.train)

> print(final.boruta)

Boruta performed 99 iterations in 18.399 secs.

Tentatives roughfixed over the last 99 iterations.

6 attributes confirmed important: ApplicantIncome, CoapplicantIncome,

CreditHistory, LoanAmount, LoanAmountTerm and 1 more.

5 attributes confirmed unimportant: Dependents, Education, Gender, PropertyArea,

SelfEmployed.

對屬性進行初步分類后的Boruta結(jié)果圖

現(xiàn)在我們要得出結(jié)果了。讓我們獲取確認屬性的列表。

> getSelectedAttributes(final.boruta, withTentative = F)

[1] "Married" "ApplicantIncome" "CoapplicantIncome" "LoanAmount"

[5] "LoanAmountTerm" "CreditHistory"

我們將創(chuàng)建一個來自Boruta最終結(jié)果的數(shù)據(jù)框架。

> boruta.df <- attStats(final.boruta)

> class(boruta.df)

[1] "data.frame"

> print(boruta.df)

meanImp medianImp minImp maxImp normHits decision

Gender 1.04104738 0.9181620 -1.9472672 3.767040 0.01010101 Rejected

Married 2.76873080 2.7843600 -1.5971215 6.685000 0.56565657 Confirmed

Dependents 1.15900910 1.0383850 -0.7643617 3.399701 0.01010101 Rejected

Education 0.64114702 0.4747312 -1.0773928 3.745441 0.03030303 Rejected

SelfEmployed -0.02442418 -0.1511711 -0.9536783 1.495992 0.00000000 Rejected

ApplicantIncome 6.05487791 6.0311639 2.9801751 9.197305 0.94949495 Confirmed

CoapplicantIncome 5.76704389 5.7920332 1.9322989 10.184245 0.97979798 Confirmed

LoanAmount 5.19167613 5.3606935 1.7489061 8.855464 0.88888889 Confirmed

LoanAmountTerm 5.50553498 5.3938036 2.0361781 9.025020 0.90909091 Confirmed

CreditHistory 59.57931404 60.2352549 51.7297906 69.721650 1.00000000 Confirmed

PropertyArea 2.77155525 2.4715892 -1.2486696 8.719109 0.54545455 Rejected

讓我們了解用于Boruta 的參數(shù):

maxRuns:隨機森林運行的最大次數(shù)。如果暫時屬性被保留,你可以考慮增加這個參數(shù)。默認為100。

doTrace:它指的是詳細程度。0指不跟蹤。1指一旦屬性被清除就作出報告決定。2意味著所有的1另加上報告每一次迭代。默認為0。

holdHistory:存儲重要性運行的全部歷史,當其設(shè)置為TRUE(默認)時。當plotImpHistory 功能被喚醒時生成一個分類器運行vs.重要性的表格。

更復雜的參數(shù)請參閱Boruta包文件。

Boruta VS傳統(tǒng)特征選擇算法

到這里,我們已經(jīng)學習了在R里實現(xiàn)Boruta包的有關(guān)概念和步驟。

如果我們使用一個傳統(tǒng)的特征選擇算法,如對相同的數(shù)據(jù)集進行遞歸特征消除,我們是否最終獲得相同的重要性特征?讓我們來看看。

現(xiàn)在,我們將學習用于實現(xiàn)遞歸特征消除(RFE)的步驟。在R中,RFE算法可以通過使用插入包的方法實現(xiàn)。

讓我們從定義一個可用于RFE算法的控制功能開始。我們加載所需的庫:

> library(caret)

> library(randomForest)

> set.seed(123)

> control <- rfeControl(functions=rfFuncs, method="cv", number=10)

在這里,我們通過rfFuncs選項指定了一個隨機森林選擇功能(也是Boruta中的底層算法)。

現(xiàn)在讓我們實現(xiàn)RFE算法。

> rfe.train <- rfe(traindata[,2:12], traindata[,13], sizes=1:12, rfeControl=control)

我確定這是一目了然的。traindata[,2:12],指選擇ID變量和自變量以外的所有列。traindata[,13],只選擇因變量。它可能需要花費一些時間來運行。

我們還可以檢查該算法的結(jié)果。

> rfe.train

Recursive feature selection

Outer resampling method: Cross-Validated (10 fold)

Resampling performance over subset size:

Variables Accuracy Kappa AccuracySD KappaSD Selected

1 0.8083 0.4702 0.03810 0.1157 *

2 0.8041 0.4612 0.03575 0.1099

3 0.8021 0.4569 0.04201 0.1240

4 0.7896 0.4378 0.03991 0.1249

5 0.7978 0.4577 0.04557 0.1348

6 0.7957 0.4471 0.04422 0.1315

7 0.8061 0.4754 0.04230 0.1297

8 0.8083 0.4767 0.04055 0.1203

9 0.7897 0.4362 0.05044 0.1464

10 0.7918 0.4453 0.05549 0.1564

11 0.8041 0.4751 0.04419 0.1336

The top 1 variables (out of 1):

CreditHistory

這個算法對Credit History給出了最高權(quán)重。現(xiàn)在我們將圖表化RFE算法的結(jié)果,得到一個變量重要性的圖表。

> plot(rfe.train, type=c("g", "o"), cex = 1.0, col = 1:11)

讓我們來提取所選擇的功能。我相信這會反映在Credit History中。

> predictors(rfe.train)

[1] "CreditHistory"

因此,我們看到遞歸特征消除算法在數(shù)據(jù)集的11個特征中選取了“信用記錄”作為唯一重要特征。

相比傳統(tǒng)的特征選擇算法,Boruta能夠返回變量重要性的更好結(jié)果,也很容易解釋!我覺得一個人能接觸到許多神奇的R語言包是極好的。我相信肯定會有許多其他的特征選擇包。我特別想了解它們。

結(jié)束語

Boruta是一個易用的軟件包,它沒有許多需要調(diào)整/記憶的參數(shù)。在使用Boruta的時候不要使用有缺失值的數(shù)據(jù)集或極端值檢查重要變量。它會直接報錯。您可以使用此算法來處理手上的任何分類/回歸問題以得出有意義的特征。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }