1.明確需求(因變量Y)
2.數(shù)據(jù)清洗(重復(fù)值,缺失值,異常值,數(shù)據(jù)編碼)
重復(fù)值針對(duì)行,可能是因?yàn)閿?shù)據(jù)來源于多個(gè)系統(tǒng)
缺失值:1.刪除所在行
2.填補(bǔ)(所在列為連續(xù)型數(shù)據(jù)用均值填補(bǔ);所在列為分類型數(shù)據(jù)用分?jǐn)?shù)填補(bǔ)或者直接將缺失值單獨(dú)做一類)
異常值:錯(cuò)誤值 數(shù)據(jù)治理SQL
離群值 學(xué)術(shù) 清洗階段處理離群值(小樣本)
業(yè)界 殘差的離群值(大樣本)
數(shù)據(jù)編碼:將一些不方便提取信息的東西編碼變成易提取的數(shù)字
3.變量篩選(憑借業(yè)務(wù)知識(shí)去篩選,相關(guān)分析(相關(guān)系數(shù),散點(diǎn)圖)逐步回歸(向前法))變量選擇以本人意愿為準(zhǔn)
變量變換 (非線性,PCA,卷積(圖)/詞模型(文本))
4.分割 測試集 訓(xùn)練集(預(yù)測) Y 連續(xù)型:直接切分
Y 分類型:樣本不平衡
5.回歸(F檢驗(yàn),t檢驗(yàn),adjusted R^20
6.模型調(diào)優(yōu)(線性性,序列相關(guān)性,共線性,內(nèi)生性,同方差,正態(tài)性)
7.繼續(xù)優(yōu)化(季節(jié)變量,高次項(xiàng),交互項(xiàng),啞變量...)
8.模型測試(交叉驗(yàn)證,測試集)








暫無數(shù)據(jù)