1.明確需求(因變量Y)
2.數(shù)據(jù)清洗(重復(fù)值,缺失值,異常值,數(shù)據(jù)編碼)
重復(fù)值針對行,可能是因為數(shù)據(jù)來源于多個系統(tǒng)
缺失值:1.刪除所在行
2.填補(所在列為連續(xù)型數(shù)據(jù)用均值填補;所在列為分類型數(shù)據(jù)用分數(shù)填補或者直接將缺失值單獨做一類)
異常值:錯誤值 數(shù)據(jù)治理SQL
離群值 學(xué)術(shù) 清洗階段處理離群值(小樣本)
業(yè)界 殘差的離群值(大樣本)
數(shù)據(jù)編碼:將一些不方便提取信息的東西編碼變成易提取的數(shù)字
3.變量篩選(憑借業(yè)務(wù)知識去篩選,相關(guān)分析(相關(guān)系數(shù),散點圖)逐步回歸(向前法))變量選擇以本人意愿為準
變量變換 (非線性,PCA,卷積(圖)/詞模型(文本))
4.分割 測試集 訓(xùn)練集(預(yù)測) Y 連續(xù)型:直接切分
Y 分類型:樣本不平衡
5.回歸(F檢驗,t檢驗,adjusted R^20
6.模型調(diào)優(yōu)(線性性,序列相關(guān)性,共線性,內(nèi)生性,同方差,正態(tài)性)
7.繼續(xù)優(yōu)化(季節(jié)變量,高次項,交互項,啞變量...)
8.模型測試(交叉驗證,測試集)








暫無數(shù)據(jù)