
使用R對(duì)共線性檢驗(yàn)
高維數(shù)據(jù)常會(huì)出現(xiàn)共線性 、變量選擇等問(wèn)題 。如何消除共線性確定最佳模型,是回歸分析的一個(gè)重點(diǎn)。 傳統(tǒng)的最小二乘估計(jì)在處理多重共線性問(wèn)題上 往往有令人不太滿意的地方, 主要有兩點(diǎn): 一是 預(yù)測(cè)準(zhǔn)確性,二是模型可解釋性。 目前處理嚴(yán)重共線性的常用方法有以下幾種: 主成分回歸、逐步回歸、嶺回歸等, 這些方法有各自的優(yōu)缺點(diǎn) 多重共線性的Lasso 方法兼有子集選擇和嶺估計(jì)的優(yōu)點(diǎn),同時(shí)進(jìn)行變 量選擇與未知參數(shù)估計(jì)。選擇最佳模型的標(biāo)準(zhǔn)有 Cp、AIC、BIC準(zhǔn)則,它們也有各自的適用范圍。(Mallows Cp 統(tǒng)計(jì)量用來(lái)作為逐步回歸的判停規(guī)則,對(duì)于一個(gè)好的模型,它的Cp統(tǒng)計(jì)量非常接近于模型的參數(shù)數(shù)目)
Robert
Tibshirani (就是R中MASS以及 The Elements of Statistical Learning的作者之一)于 1996
年提出了一種新的變 量選擇技術(shù)Lasso,即 Least Absolute Shrinkage and Selection Operator
就是翻譯過(guò)來(lái)頗顯別扭的套索回歸, lasso方法用模型系數(shù)的絕對(duì)值 函數(shù)作為懲罰來(lái)壓縮模型系數(shù),使一些回歸系數(shù)變
小,甚至使一些絕對(duì)值較小的系數(shù)直接變?yōu)? 。
本文先從普通回歸說(shuō)起:
R語(yǔ)句如下
[plain] view plain copy
library(car)
D=read.csv("/Users/Documents/train_test_model/ridgereg1.csv",sep=",") # 加載數(shù)據(jù)
a=lm(y~., data=D);summary(a) # 定義模型,summary為輸出匯總
vif(a) # 輸出模型匯總
得到一下擬合檢驗(yàn)參數(shù)
[plain] view plain copy
Call:
lm(formula = y ~ ., data = D)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.011694 1.718393 6.408 4.94e-06 ***
long 1.692736 0.369589 4.580 0.000232 ***
touwei -2.158831 0.535513 -4.031 0.000783 ***
weight 0.007472 0.001144 6.531 3.87e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.163 on 18 degrees of freedom
Multiple R-squared: 0.9754, Adjusted R-squared: 0.9713
F-statistic: 238.1 on 3 and 18 DF, p-value: 1.14e-14
long
200.013181140721
touwei
209.429825510575
weight
9.68788132590006
通過(guò)vif方差膨脹因子可以知道上面三個(gè)變量存在嚴(yán)重的共線性,有書(shū)中規(guī)定超過(guò)10就算存在嚴(yán)重共線性同時(shí)分析回歸系數(shù),嬰兒的頭圍越大,年齡應(yīng)該越大才對(duì),不應(yīng)該是負(fù)向預(yù)測(cè)關(guān)系,從這里也可以看出一些端倪以上是我們依據(jù)數(shù)據(jù)診斷出多元回歸中自變量存在嚴(yán)重共線性,當(dāng)然在spss中也是可以直接選擇,杜賓-瓦特森檢驗(yàn),也是統(tǒng)計(jì)分析中常用的一種檢驗(yàn)序列一階自相關(guān)最常用的方法。所以不能直接使用常規(guī)ols方法。于是請(qǐng)看下面的解決辦法。#我們進(jìn)一步的對(duì)檢測(cè)回歸分析的另一個(gè)前提--即方差齊性
[plain] view plain copy
library(MASS)
install.packages("gvlma") #導(dǎo)入gvlma包
library(gvlma)
gvmodel <- gvlma(a)
summary(gvmodel)
得到如下參數(shù)
[plain] view plain copy
Call:
lm(formula = y ~ ., data = D)
Residuals:
Min 1Q Median 3Q Max
-1.87262 -0.69499 -0.09376 0.74618 2.80676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.011694 1.718393 6.408 4.94e-06 ***
long 1.692736 0.369589 4.580 0.000232 ***
touwei -2.158831 0.535513 -4.031 0.000783 ***
weight 0.007472 0.001144 6.531 3.87e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Call:
gvlma(x = a)
Value p-value Decision
Global Stat 6.6421 0.15605 Assumptions acceptable.
Skewness 0.7794 0.37733 Assumptions acceptable.
Kurtosis 0.1147 0.73484 Assumptions acceptable.
Link Function 1.7108 0.19088 Assumptions acceptable.
Heteroscedasticity 4.0372 0.04451 Assumptions NOT satisfied!
可以得出,異方差性違反,也違反了普通最小二乘建模的前提。如果還是不死心,我們來(lái)看看殘差分析吧。
#建模試試,看是否存在異常
[plain] view plain copy
lm.sol<-lm(y~.,data=D)
summary(lm.sol)
#可視化,殘差與預(yù)測(cè)散點(diǎn)圖
plot(fitted(lm.sol), resid(lm.sol),
cex=1.2, pch=21, col="red", bg="orange"
xlab="Fitted Value", ylab="Residuals")
當(dāng)描繪的點(diǎn)圍繞殘差等于0的直線上下隨機(jī)散布,說(shuō)明回歸直線對(duì)原觀測(cè)值的擬合情況良好。否則,說(shuō)明回歸直線對(duì)原觀測(cè)值的擬合不理想。
在標(biāo)準(zhǔn)化殘差圖中,大約有95.45%的殘差在-2到+2之間 同時(shí),也可以識(shí)別異常點(diǎn),標(biāo)準(zhǔn)化殘差小于-3或者大于+3時(shí),就可以判斷為異常值。
那么最后大概是可以相信這個(gè)模型用最小二乘法是并不合適。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03