2022-09-02
閱讀量:
2769
建立線性回歸模型的步驟
1明確需求
2采集數(shù)據(jù)
3數(shù)據(jù)清洗: a.重復(fù)值的處理 b.缺失值的處理 c.異常值的處理 d.數(shù)據(jù)編碼的處理
其中缺失值的處理可以用均值或眾數(shù)等描述數(shù)據(jù)集中趨勢(shì)的進(jìn)行填補(bǔ),異常值中的錯(cuò)誤值直接手動(dòng)刪除,離群值的 處理要具體看業(yè)務(wù)(通常通過畫箱線圖,或者3西格瑪法則判斷),數(shù)據(jù)編碼的處理,對(duì)于男女這種二分類變量可以用 0和1轉(zhuǎn)化,最好的是在此基礎(chǔ)上加上交叉列(改斜率),多分類變量如學(xué)歷這種,可以采用獨(dú)熱編碼或啞變量轉(zhuǎn)換,其 中的某列得刪除,避免和線性回歸模型中的常量在矩陣化時(shí)有相關(guān)性
4變量的篩選:查看X與Y的相關(guān)系數(shù),查看散點(diǎn)圖
5分割測(cè)試集訓(xùn)練集(做預(yù)測(cè))
6回歸建模(F檢驗(yàn),T檢驗(yàn),調(diào)整R^2)
7模型調(diào)優(yōu)
8模型精修(交叉項(xiàng),高次項(xiàng),季節(jié)趨勢(shì))
9逐步回歸
10模型測(cè)試






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論