步驟一:明確需求
- 明確因變量Y
步驟二:數(shù)據(jù)清洗
- 缺失值處理
- 異常值處理:三倍標(biāo)準(zhǔn)差以外的數(shù)值
- 分類變量
步驟三:相關(guān)性分析
- 探索所有自變量與因變量的相關(guān)性,得出相關(guān)系數(shù),并畫出散點圖
步驟四:分割測試集訓(xùn)練集
- 20%的數(shù)據(jù)作為測試集
- 80%的數(shù)據(jù)作為訓(xùn)練集
步驟五:回歸
- F檢驗
- T檢驗
- R^2:一元線性回歸,看R^2:多元線性回歸,看調(diào)整R^2
步驟六:模型調(diào)優(yōu)
- 殘差服從正態(tài)分布
- 含義:殘差服從正態(tài)分布
- 檢驗方法
(1)SW (n<5000):原假設(shè):H0:殘差是正態(tài)分布
(2) KS (n>5000):原假設(shè):H0:殘差是正態(tài)分布
- 解決措施(若殘差不符合正態(tài)分布)
(1)對y取自然對數(shù) ln
(2)Box-cox變換:---缺點:把不屬于正態(tài)分布扭成正態(tài)分布,可能會導(dǎo)致數(shù)據(jù)失真
2.殘差具有同方差性
- 含義:如果殘差有喇叭狀或非線性波懂歸類等,則明顯具有異方差性
- 檢驗方法
(1)BP檢驗:任何時候都可以用;原假設(shè):殘差是同方差
(2)WHITE檢驗:精確度高,會用掉大量自由度,一般樣本量大的時候可以用;原假設(shè):殘差是同方差
- 解決措施(若殘差具有異方差性)
(1)對y取自然對數(shù) ln
(2)加權(quán)最小二乘
3.內(nèi)生性
- 含義
(1)殘差的條件均值為0:cov(u,x)=0
(2)內(nèi)生性:自變量和殘差相關(guān),遺漏重要變量
- 檢驗方法:
(1)Hanseman
- 解決措施(若殘差具有內(nèi)生性):工具變量
- 備注:在實際工作中,內(nèi)生性問題可以先暫時忽略,如果要用到,可以利用上面的檢驗方法和解決措施
4.自變量X具有線性相關(guān)性
- 含義:自變量不存在完全共線性
- 檢驗方法:VIF
- 解決措施(若VIF普遍偏高):
(1)主成分分析---缺點:會改變變量的屬性
(2)嶺回歸/lasso---缺點:無法保證無偏性
5.序列相關(guān)性
- 含義
(1)殘差無序列相關(guān)
(2)數(shù)學(xué)描述:lim cov(t,t-h)=lim f(h)=0 [h-->正無窮]
- 檢驗:時間序列分析
步驟七:繼續(xù)調(diào)項
步驟八:逐步回歸、交叉驗證
步驟九:模型測試








暫無數(shù)據(jù)