問:
建立模型過程中進(jìn)行特征篩選有哪些需要注意的點(diǎn)?
答:
(1)方法
通過經(jīng)驗(yàn)法從業(yè)務(wù)上判斷變量重要性, 這樣有助于與業(yè)務(wù)環(huán)境相契合, 不至于模型脫節(jié)
于業(yè)務(wù),造成與同事、 老板的經(jīng)驗(yàn)不一致。
(2)維度
維度分析的整體規(guī)律是從低維到多維。描述性統(tǒng)計(jì)側(cè)重于單維分析,并通過圖形過渡到
對(duì)雙變量的處理, 將雙維問題推廣到多維,這是統(tǒng)計(jì)分析的一般性流程。
(3)變量重要性
業(yè)務(wù)導(dǎo)向和(第三步)相關(guān)分析都是通過業(yè)務(wù)準(zhǔn)則判斷變量重要性, 此處篩選出的變量
比較少,需要執(zhí)行的時(shí)間很久;而第二步的簡單回歸和第四步的動(dòng)態(tài)回歸是,依回歸系數(shù)檢
驗(yàn)大幅刪除變量的方式進(jìn)行的,可以有效地節(jié)省時(shí)間。
第五步的主成分分析是一種壓縮變量的技術(shù),在壓縮過程中會(huì)損失變量信息, 因此盡量
不要對(duì)重要變量壓縮, 又因?yàn)閴嚎s過程需要借助變量間的相關(guān)性, 所以不重要的變量間又很難產(chǎn)生這種相關(guān), 通常也不會(huì)有理想的結(jié)果。
(4)共線性
特征選擇本身具有處理內(nèi)生性問題,選擇合適的自變量,避免自變量和殘差間的相關(guān),
也正因?yàn)樯婕暗蕉鄠€(gè)自變量, 共線性問題也是繞不開的話題, 因此加入對(duì)共線性的處理。








暫無數(shù)據(jù)