2020-05-22
閱讀量:
4008
線性回歸建模的流程
步驟一:明確需求
- 明確因變量Y
步驟二:數(shù)據(jù)清洗
- 缺失值處理
- 異常值處理:三倍標準差以外的數(shù)值
- 分類變量
步驟三:相關性分析
- 探索所有自變量與因變量的相關性,得出相關系數(shù),并畫出散點圖
步驟四:分割測試集訓練集
- 20%的數(shù)據(jù)作為測試集
- 80%的數(shù)據(jù)作為訓練集
步驟五:回歸
- F檢驗
- T檢驗
- R^2:一元線性回歸,看R^2:多元線性回歸,看調整R^2
步驟六:模型調優(yōu)
- 殘差服從正態(tài)分布
- 含義:殘差服從正態(tài)分布
- 檢驗方法
(1)SW (n<5000):原假設:H0:殘差是正態(tài)分布
(2) KS (n>5000):原假設:H0:殘差是正態(tài)分布
- 解決措施(若殘差不符合正態(tài)分布)
(1)對y取自然對數(shù) ln
(2)Box-cox變換:---缺點:把不屬于正態(tài)分布扭成正態(tài)分布,可能會導致數(shù)據(jù)失真
2.殘差具有同方差性
- 含義:如果殘差有喇叭狀或非線性波懂歸類等,則明顯具有異方差性
- 檢驗方法
(1)BP檢驗:任何時候都可以用;原假設:殘差是同方差
(2)WHITE檢驗:精確度高,會用掉大量自由度,一般樣本量大的時候可以用;原假設:殘差是同方差
- 解決措施(若殘差具有異方差性)
(1)對y取自然對數(shù) ln
(2)加權最小二乘
3.內生性
- 含義
(1)殘差的條件均值為0:cov(u,x)=0
(2)內生性:自變量和殘差相關,遺漏重要變量
- 檢驗方法:
(1)Hanseman
- 解決措施(若殘差具有內生性):工具變量
- 備注:在實際工作中,內生性問題可以先暫時忽略,如果要用到,可以利用上面的檢驗方法和解決措施
4.自變量X具有線性相關性
- 含義:自變量不存在完全共線性
- 檢驗方法:VIF
- 解決措施(若VIF普遍偏高):
(1)主成分分析---缺點:會改變變量的屬性
(2)嶺回歸/lasso---缺點:無法保證無偏性
5.序列相關性
- 含義
(1)殘差無序列相關
(2)數(shù)學描述:lim cov(t,t-h)=lim f(h)=0 [h-->正無窮]
- 檢驗:時間序列分析
步驟七:繼續(xù)調項
步驟八:逐步回歸、交叉驗證
步驟九:模型測試






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
1條評論