
變量選擇之SCAD算法
本文提出了一種用于同時(shí)達(dá)到選擇變量和預(yù)測(cè)模型系數(shù)的目的的方法——SCAD。這種方法的罰函數(shù)是對(duì)稱(chēng)且非凹的,并且可處理奇異陣以產(chǎn)生稀疏解。此外,本文提出了一種算法用于優(yōu)化對(duì)應(yīng)的帶懲罰項(xiàng)的似然函數(shù)。這種方法具有廣泛的適用性,可以應(yīng)用于廣義線性模型,強(qiáng)健的回歸模型。借助于波和樣條,還可用于非參數(shù)模型。更進(jìn)一步地,本文證明該方法具有Oracle性質(zhì)。模擬的結(jié)果顯示該方法相比主流的變量選擇模型具有優(yōu)勢(shì)。并且,模型的預(yù)測(cè)誤差公式顯示,該方法實(shí)用性較強(qiáng)。
SCAD的理論理解
在總結(jié)了現(xiàn)有模型的一些缺點(diǎn)之后,本文提出構(gòu)造罰函數(shù)的一些目標(biāo):
罰函數(shù)是奇異的(singular)
連續(xù)地壓縮系數(shù)
對(duì)較大的系數(shù)產(chǎn)生無(wú)偏的估計(jì)
SCAD模型的Oracle性質(zhì),使得它的預(yù)測(cè)效果跟真實(shí)模型別無(wú)二致。
并且,這種方法可以應(yīng)用于高維非參數(shù)建模。
SCAD的目標(biāo)函數(shù)如下:
SCAD的罰函數(shù)與$theta$的(近似)關(guān)系如下圖所示。
可見(jiàn),罰函數(shù)可以用二階泰勒展開(kāi)逼近。
Hard Penality,lasso,SCAD的系數(shù)壓縮情況VS系數(shù)真實(shí)值的情況如下圖所示。
可以看到,lasso壓縮系數(shù)是始終有偏的,Hard penality是無(wú)偏的,但壓縮系數(shù)不連續(xù)。而SCAD既能連續(xù)的壓縮系數(shù),也能在較大的系數(shù)取得漸近無(wú)偏的估計(jì)。
這使得SCAD具有Oracle性質(zhì)。
SCAD的缺點(diǎn)
模型形式過(guò)于復(fù)雜
迭代算法運(yùn)行速度較慢
在low noise level的情況下表現(xiàn)較優(yōu),但在high noise level的情況下表現(xiàn)較差。
SCAD的實(shí)現(xiàn)
SCAD迭代公式
SCAD的目標(biāo)函數(shù)如下:
時(shí),罰函數(shù)可以用二階泰勒展開(kāi)逼近。
從而,有如下迭代公式:
根據(jù)以上公式,代入迭代步驟,即可實(shí)現(xiàn)算法。
SCAD的R實(shí)現(xiàn)
##------數(shù)據(jù)模擬--------
library(MASS)
##mvrnorm()
##定義一個(gè)產(chǎn)生多元正態(tài)分布的隨機(jī)向量協(xié)方差矩陣
Simu_Multi_Norm<-function(x_len, sd = 1, pho = 0.5){
#初始化協(xié)方差矩陣
V <- matrix(data = NA, nrow = x_len, ncol = x_len)
#mean及sd分別為隨機(jī)向量x的均值和方差
#對(duì)協(xié)方差矩陣進(jìn)行賦值pho(i,j) = pho^|i-j|
for(i in 1:x_len){ ##遍歷每一行
for(j in 1:x_len){ ##遍歷每一列
V[i,j] <- pho^abs(i-j)
}
}
V<-(sd^2) * V
return(V)
}
##產(chǎn)生模擬數(shù)值自變量X
set.seed(123)
X<-mvrnorm(n = 200, mu = rep(0,10), Simu_Multi_Norm(x_len = 10,sd = 1, pho = 0.5))
##產(chǎn)生模擬數(shù)值:響應(yīng)變量y
beta<-c(1,2,0,0,3,0,0,0,-2,0)
#alpha<-0
#prob<-exp(alpha + X %*% beta)/(1+exp(alpha + X %*% beta))
prob<-exp( X %*% beta)/(1+exp( X %*% beta))
y<-rbinom(n = 200, size = 1,p = prob)
##產(chǎn)生model matrix
mydata<-data.frame(X = X, y = y)
#X<-model.matrix(y~., data = mydata)
##包含截矩項(xiàng)的系數(shù)
#b_real<-c(alpha,beta)
b_real<-beta
########----定義懲罰項(xiàng)相關(guān)的函數(shù)-----------------
##定義懲罰項(xiàng)
####運(yùn)行發(fā)現(xiàn),若lambda設(shè)置為2,則系數(shù)全被壓縮為0.
####本程序根據(jù)rcvreg用CV選出來(lái)的lambda設(shè)置一個(gè)較為合理的lambda。
p_lambda<-function(theta,lambda = 0.025){
p_lambda<-sapply(theta, function(x){
if(abs(x)< lambda){
return(lambda^2 - (abs(x) - lambda)^2)
}else{
return(lambda^2)
}
}
)
return(p_lambda)
}
##定義懲罰項(xiàng)導(dǎo)數(shù)
p_lambda_d<-function(theta,a = 3.7,lambda = 0.025){
if(abs(theta) > lambda){
if(a * lambda > theta){
return((a * lambda - theta)/(a - 1))
}else{
return(0)
}
}else{
return(lambda)
}
}
# ##當(dāng)beta_j0不等于0,定義懲罰項(xiàng)導(dǎo)數(shù)近似
# p_lambda_d_apro<-function(beta_j0,beta_j,a = 3.7, lambda = 2){
# return(beta_j * p_lambda_d(beta = beta_j0,a = a, lambda = lambda)/abs(beta_j0))
# }
#
#
# ##當(dāng)beta_j0 不等于0,指定近似懲罰項(xiàng),使用泰勒展開(kāi)逼近
# p_lambda_apro<-function(beta_j0,beta_j,a = 3.7, lambda = 2){
# if(abs(beta_j0)< 1e-16){
# return(0)
# }else{
# p_lambda<-p_lambda(theta = beta_j0, lambda = lambda) +
# 0.5 * (beta_j^2 - beta_j0^2) * p_lambda_d(theta = beta_j0, a = a, lambda = lambda)/abs(beta_j0)
# }
# }
#define the log-likelihood function
loglikelihood_SCAD<-function(X, y, b){
linear_comb<-as.vector(X %*% b)
ll<-sum(y*linear_comb) + sum(log(1/(1+exp(linear_comb)))) - nrow(X)*sum(p_lambda(theta = b))
return (ll)
}
##初始化系數(shù)
#b0<-rep(0,length(b_real))
#b0<- b_real+rnorm(length(b_real), mean = 0, sd = 0.1)
##將無(wú)懲罰時(shí)的優(yōu)化結(jié)果作為初始值
b.best_GS<-b.best
b0<-b.best_GS
##b1用于記錄更新系數(shù)
b1<-b0
##b.best用于存放歷史最大似然值對(duì)應(yīng)系數(shù)
b.best_SCAD<-b0
# the initial value of loglikelihood
ll.old<-loglikelihood_SCAD(X = X,y = y, b = b0)
# initialize the difference between the two steps of theta
diff<-1
#record the number of iterations
iter<-0
#set the threshold to stop iterations
epsi<-1e-10
#the maximum iterations
max_iter<-100000
#初始化一個(gè)列表用于存放每一次迭代的系數(shù)結(jié)果
b_history<-list(data.frame(b0))
#初始化列表用于存放似然值
ll_list<-list(ll.old)
#######-------SCAD迭代---------
while(diff > epsi & iter < max_iter){
for(j in 1:length(b_real)){
if(abs(b0[j]) < 1e-06){
next()
}else{
#線性部分
linear_comb<-as.vector(X %*% b0)
#分子
nominator<-sum(y*X[,j] - X[,j] * exp(linear_comb)/(1+exp(linear_comb))) +
nrow(X)*b0[j]*p_lambda_d(theta = b0[j])/abs(b0[j])
#分母,即二階導(dǎo)部分
denominator<- -sum(X[,j]^2 * exp(linear_comb)/(1+exp(linear_comb))^2) +
nrow(X)*p_lambda_d(theta = b0[j])/abs(b0[j])
#2-(3) :更新b0[j]
b0[j]<-b0[j] - nominator/denominator
#2-(4)
if(abs(b0[j]) < 1e-06){
b0[j] <- 0
}
# #更新似然值
# ll.new<- loglikelihood_SCAD(X = X, y = y, b = b0)
#
#
#
# #若似然值有所增加,則將當(dāng)前系數(shù)保存
# if(ll.new > ll.old){
# #更新系數(shù)
# b.best_SCAD[j]<-b0[j]
# }
#
# #求差異
# diff<- abs((ll.new - ll.old)/ll.old)
# ll.old <- ll.new
# iter<- iter+1
# b_history[[iter]]<-data.frame(b0)
# ll_list[[iter]]<-ll.old
# ##當(dāng)達(dá)到停止條件時(shí),跳出循環(huán)
# if(diff < epsi){
# break
# }
#
}
}
#更新似然值
ll.new<- loglikelihood_SCAD(X = X, y = y, b = b0)
#若似然值有所增加,則將當(dāng)前系數(shù)保存
if(ll.new > ll.old){
#更新系數(shù)
b.best_SCAD<-b0
}
#求差異
diff<- abs((ll.new - ll.old)/ll.old)
ll.old <- ll.new
iter<- iter+1
b_history[[iter]]<-data.frame(b0)
ll_list[[iter]]<-ll.old
}
b_hist<-do.call(rbind,b_history)
#b_hist
ll_hist<-do.call(rbind,ll_list)
#ll_hist
#
iter
##
ll.best<-max(ll_hist)
ll.best
##
b.best_SCAD
##對(duì)比
cbind(coeff_glm,b.best,b.best_SCAD,b_real)
##----------ncvreg驗(yàn)證-----------
library(ncvreg)
my_ncvreg<-ncvreg(X,y,family = c("binomial"),penalty = c("SCAD"),lambda = 2)
my_ncvreg$beta
my_ncvreg<-ncvreg(X,y,family = c("binomial"),penalty = c("SCAD"))
summary(my_ncvreg)
my_ncvreg$beta
###用cv找最優(yōu)的lambda
scad_cv<-cv.ncvreg(X,y,family = c("binomial"),penalty='SCAD')
scad_cv$lambda.min
mySCAD=ncvreg(X,y,family = c("binomial"),penalty='SCAD',lambda=scad_cv$lambda.min)
summary(mySCAD)
ncv_SCAD<-mySCAD$beta[-1]
##對(duì)比
myFinalResults<-cbind(無(wú)懲罰項(xiàng)回歸=coeff_glm, GS迭代 = b.best,
GS_SCAD迭代 = b.best_SCAD, ncvreg = ncv_SCAD,真實(shí)值 = b_real)
save(myFinalResults,file = "myFinalResults.rda")
想深入學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí),為數(shù)據(jù)分析筑牢根基?那快來(lái)看看統(tǒng)計(jì)學(xué)極簡(jiǎn)入門(mén)課程!
學(xué)習(xí)入口:https://edu.cda.cn/goods/show/3386?targetId=5647&preview=0
課程由專(zhuān)業(yè)數(shù)據(jù)分析師打造,完全免費(fèi),60 天有效期且隨到隨學(xué)。它用獨(dú)特思路講重點(diǎn),從數(shù)據(jù)種類(lèi)到統(tǒng)計(jì)學(xué)體系,內(nèi)容通俗易懂。學(xué)完它,能讓你輕松入門(mén)統(tǒng)計(jì)學(xué),還能提升數(shù)據(jù)分析能力。趕緊點(diǎn)擊鏈接開(kāi)啟學(xué)習(xí),讓自己在數(shù)據(jù)領(lǐng)域更上一層樓!
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03