
R語言-選擇“最佳”的回歸模型
嘗試獲取一個回歸方程時,實(shí)際上你就面對著從眾多可能的模型中做選擇的問題。是不是所有的變量都要包括?抑或去掉那個對預(yù)測貢獻(xiàn)不顯著的變量?還是需要添加多項(xiàng)式項(xiàng)和/或交互項(xiàng)來提高擬合度?最終回歸模型的選擇總是會涉及預(yù)測精度(模型盡可能地擬合數(shù)據(jù))與模型簡潔度(一個簡單且能復(fù)制的模型)的調(diào)和問題。如果有兩個幾乎相同預(yù)測精度的模型,你肯定喜歡簡單的那個。本節(jié)討論的問題,就是如何在候選模型中進(jìn)行篩選。注意,“最佳”是打了引號的,因?yàn)闆]有做評價的唯一標(biāo)準(zhǔn),最終的決定需要調(diào)查者的評判。
8.6.1 模型比較
用基礎(chǔ)安裝中的anova()函數(shù)可以比較兩個嵌套模型的擬合優(yōu)度。所謂嵌套模型,即它的一些項(xiàng)完全包含在另一個模型中。在states的多元回歸模型中,我們發(fā)現(xiàn)Income和Frost的回歸系數(shù)不顯著,此時你可以檢驗(yàn)不含這兩個變量的模型與包含這兩項(xiàng)的模型預(yù)測效果是否一樣好(見代碼清單8-11)。
此處,模型1嵌套在模型2中。 anova()函數(shù)同時還對是否應(yīng)該添加Income和Frost到線性模型中進(jìn)行了檢驗(yàn)。由于檢驗(yàn)不顯著(p=0.994),因此我們可以得出結(jié)論:不需要將這兩個變量添加到線性模型中,可以將它們從模型中刪除。
AIC(Akaike
Information Criterion,赤池信息準(zhǔn)則)也可以用來比較模型,它考慮了模型的統(tǒng)計擬合度以及用來擬合的參數(shù)數(shù)目。
AIC值越小的模型要優(yōu)先選擇,它說明模型用較少的參數(shù)獲得了足夠的擬合度。該準(zhǔn)則可用AIC()函數(shù)實(shí)現(xiàn)(見代碼清單8-12)。
此處AIC值表明沒有Income和Frost的模型更佳。注意, ANOVA需要嵌套模型,而AIC方法不需要。比較兩模型相對來說更為直接,但如果有4個、 10個,或者100個可能的模型怎么辦呢?這便是下節(jié)的主題。
8.6.2 變量選擇
從大量候選變量中選擇最終的預(yù)測變量有以下兩種流行的方法:逐步回歸法(stepwise method)和全子集回歸(all-subsets regression)。
1. 逐步回歸
逐步回歸中,模型會一次添加或者刪除一個變量,直到達(dá)到某個判停準(zhǔn)則為止。例如,
向前逐步回歸(forward stepwise)每次添加一個預(yù)測變量到模型中,直到添加變量不會使模型有所改進(jìn)為止。
向后逐步回歸(backward
stepwise)從模型包含所有預(yù)測變量開始,一次刪除一個變量直到會降低模型質(zhì)量為止。而向前向后逐步回歸(stepwise
stepwise,通常稱作逐步回歸,以避免聽起來太冗長),結(jié)合了向前逐步回歸和向后逐步回歸的方法,變量每次進(jìn)入一個,但是每一步中,變量都會被重新評價,對模型沒有貢獻(xiàn)的變量將會被刪除,預(yù)測變量可能會被添加、刪除好幾次,直到獲得最優(yōu)模型為止。
逐步回歸法的實(shí)現(xiàn)依據(jù)增刪變量的準(zhǔn)則不同而不同。 MASS包中的stepAIC()函數(shù)可以實(shí)現(xiàn)逐步回歸模型(向前、向后和向前向后),依據(jù)的是精確AIC準(zhǔn)則。代碼清單8-13中,我們應(yīng)用的是向后回歸。
開始時模型包含4個(全部)預(yù)測變量,然后每一步中,
AIC列提供了刪除一個行中變量后模型的AIC值, <none>中的AIC值表示沒有變量被刪除時模型的AIC。第一步,
Frost被刪除, AIC從97.75降低到95.75;第二步, Income被刪除,
AIC繼續(xù)下降,成為93.76,然后再刪除變量將會增加AIC,因此終止選擇過程。
逐步回歸法其實(shí)存在爭議,雖然它可能會找到一個好的模型,但是不能保證模型就是最佳模型,因?yàn)椴皇敲恳粋€可能的模型都被評價了。為克服這個限制,便有了全子集回歸法。
2. 全子集回歸
全子集回歸,顧名思義,即所有可能的模型都會被檢驗(yàn)。分析員可以選擇展示所有可能的結(jié)果,也可以展示n 個不同子集大?。ㄒ粋€、兩個或多個預(yù)測變量)的最佳模型。 例如, 若nbest=2,先展示兩個最佳的單預(yù)測變量模型,然后展示兩個最佳的雙預(yù)測變量模型,以此類推,直到包含所有的預(yù)測變量。全子集回歸可用leaps包中的regsubsets()函數(shù)實(shí)現(xiàn)。你能通過R平方、調(diào)整R平方或Mallows Cp統(tǒng)計量等準(zhǔn)則來選擇“最佳”模型。
R平方含義是預(yù)測變量解釋響應(yīng)變量的程度;調(diào)整R平方與之類似,但考慮了模型的參數(shù)數(shù)目。
R平方總會隨著變量數(shù)目的增加而增加。當(dāng)與樣本量相比,預(yù)測變量數(shù)目很大時,容易導(dǎo)致過擬合。R平方很可能會丟失數(shù)據(jù)的偶然變異信息,而調(diào)整R平方則提供了更為真實(shí)的R平方估計。另外,
Mallows Cp統(tǒng)計量也用來作為逐步回歸的判停規(guī)則。廣泛研究表明,對于一個好的模型,它的Cp統(tǒng)計量非常接近于模型的參數(shù)數(shù)目(包括截距項(xiàng))。
在代碼清單8-14中,我們對states數(shù)據(jù)進(jìn)行了全子集回歸。結(jié)果可用leaps包中的plot()函數(shù)繪制(如圖8-17所示),或者用car包中的subsets()函數(shù)繪制(如圖8-18所示)。
初看圖8-17可能比較費(fèi)解。第一行中(圖底部開始),可以看到含intercept(截距項(xiàng))和Income的模型調(diào)整R平方為0.33,含intercept和Population的模型調(diào)整R平方為0.1。跳至第12行,你會看到含intercept、
Population、 Illiteracy和Income的模型調(diào)整R平方值為0.54,而僅含intercept、
Population和Illiteracy的模型調(diào)整R平方為0.55。此處,你會發(fā)現(xiàn)含預(yù)測變量越少的模型調(diào)整R平方越大(對于非調(diào)整的R平方,這是不可能的)。圖形表明,雙預(yù)測變量模型(Population和Illiteracy)是最佳模型。
在圖8-18中,你會看到對于不同子集大小,基于Mallows
Cp統(tǒng)計量的四個最佳模型。越好的模型離截距項(xiàng)和斜率均為1的直線越近。圖形表明,你可以選擇這幾個模型,其余可能的模型都可以不予考慮:含Population和Illiteracy的雙變量模型;含Population、
Illiteracy和Frost的三變量模型,或Population、
Illiteracy和Income的三變量模型(它們在圖形上重疊了,不易分辨) ;含Population、 Illiteracy、
Income和Frost的四變量模型。
大部分情況中,全子集回歸要優(yōu)于逐步回歸,因?yàn)榭紤]了更多模型。但是,當(dāng)有大量預(yù)測變量時,全子集回歸會很慢。一般來說,變量自動選擇應(yīng)該被看做是對模型選擇的一種輔助方法,而不是直接方法。擬合效果佳而沒有意義的模型對你毫無幫助,主題背景知識的理解才能最終指引你獲得理想的模型。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03