
多重共線性問題的幾種解決方法
在多元線性回歸模型經(jīng)典假設(shè)中,其重要假定之一是回歸模型的解釋變量之間不存在線性關(guān)系,也就是說,解釋變量X1,X2,……,Xk中的任何一個都不能是其他解釋變量的線性組合。如果違背這一假定,即線性回歸模型中某一個解釋變量與其他解釋變量間存在線性關(guān)系,就稱線性回歸模型中存在多重共線性。多重共線性違背了解釋變量間不相關(guān)的古典假設(shè),將給普通最小二乘法帶來嚴重后果。
這里,我們總結(jié)了8個處理多重共線性問題的可用方法,大家在遇到多重共線性問題時可作參考:
1、保留重要解釋變量,去掉次要或可替代解釋變量
2、用相對數(shù)變量替代絕對數(shù)變量
3、差分法
4、逐步回歸分析
5、主成份分析
6、偏最小二乘回歸
7、嶺回歸
8、增加樣本容量
這次我們主要研究逐步回歸分析方法是如何處理多重共線性問題的。
逐步回歸分析方法的基本思想是通過相關(guān)系數(shù)r 、擬合優(yōu)度R2 和標準誤差三個方面綜合判斷一系列回歸方程的優(yōu)劣,從而得到最優(yōu)回歸方程。具體方法分為兩步:
第一步,先將被解釋變量y對每個解釋變量作簡單回歸:
對每一個回歸方程進行統(tǒng)計檢驗分析(相關(guān)系數(shù)r 、擬合優(yōu)度R2 和標準誤差),并結(jié)合經(jīng)濟理論分析選出最優(yōu)回歸方程,也稱為基本回歸方程。
第二步,將其他解釋變量逐一引入到基本回歸方程中,建立一系列回歸方程,根據(jù)每個新加的解釋變量的標準差和復(fù)相關(guān)系數(shù)來考察其對每個回歸系數(shù)的影響,一般根據(jù)如下標準進行分類判別:
1.如果新引進的解釋變量使R2 得到提高,而其他參數(shù)回歸系數(shù)在統(tǒng)計上和經(jīng)濟理論上仍然合理,則認為這個新引入的變量對回歸模型是有利的,可以作為解釋變量予以保留。
2.如果新引進的解釋變量對R2 改進不明顯,對其他回歸系數(shù)也沒有多大影響,則不必保留在回歸模型中。
3.如果新引進的解釋變量不僅改變了R2 ,而且對其他回歸系數(shù)的數(shù)值或符號具有明顯影響,則認為該解釋變量為不利變量,引進后會使回歸模型出現(xiàn)多重共線性問題。不利變量未必是多余的,如果它可能對被解釋變量是不可缺少的,則不能簡單舍棄,而是應(yīng)研究改善模型的形式,尋找更符合實際的模型,重新進行估計。如果通過檢驗證明回歸模型存在明顯線性相關(guān)的兩個解釋變量中的其中一個可以被另一個很好地解釋,則可略去其中對被解釋變量影響較小的那個變量,模型中保留影響較大的那個變量。
下邊我們通過實例來說明逐步回歸分析方法在解決多重共線性問題上的具體應(yīng)用過程。
具體實例
例1 設(shè)某地10年間有關(guān)服裝消費、可支配收入、流動資產(chǎn)、服裝類物價指數(shù)、總物價指數(shù)的調(diào)查數(shù)據(jù)如表1,請建立需求函數(shù)模型。
表1 服裝消費及相關(guān)變量調(diào)查數(shù)據(jù)
年份 |
服裝開支 C (百萬元) |
可支配收入 Y (百萬元) |
流動資產(chǎn) L (百萬元) |
服裝類物價指數(shù)Pc 1992年=100 |
總物價指數(shù) P0 1992年=100 |
1988 |
8.4 |
82.9 |
17.1 |
92 |
94 |
1989 |
9.6 |
88.0 |
21.3 |
93 |
96 |
1990 |
10.4 |
99.9 |
25.1 |
96 |
97 |
1991 |
11.4 |
105.3 |
29.0 |
94 |
97 |
1992 |
12.2 |
117.7 |
34.0 |
100 |
100 |
1993 |
14.2 |
131.0 |
40.0 |
101 |
101 |
1994 |
15.8 |
148.2 |
44.0 |
105 |
104 |
1995 |
17.9 |
161.8 |
49.0 |
112 |
109 |
1996 |
19.3 |
174.2 |
51.0 |
112 |
111 |
1997 |
20.8 |
184.7 |
53.0 |
112 |
111 |
(1)設(shè)對服裝的需求函數(shù)為
用最小二乘法估計得估計模型:
模型的檢驗量得分,R2=0.998,D·W=3.383,F(xiàn)=626.4634
(2)求各解釋變量的基本相關(guān)系數(shù)
上述基本相關(guān)系數(shù)表明解釋變量間高度相關(guān),也就是存在較嚴重的多重共線性。
(3)為檢驗多重共線性的影響,作如下簡單回歸:
各方程下邊括號內(nèi)的數(shù)字分別表示的是對應(yīng)解釋變量系數(shù)的t檢驗值。
觀察以上四個方程,根據(jù)經(jīng)濟理論和統(tǒng)計檢驗(t檢驗值=41.937最大,擬合優(yōu)度也最高),收入Y是最重要的解釋變量,從而得出最優(yōu)簡單回歸方程。
(4)將其余變量逐個引入,計算結(jié)果如下表2:
表2 服裝消費模型的估計
結(jié)果分析:
①在最優(yōu)簡單回歸方程中引入變量Pc,使R2由0.9955提高到0.9957;根據(jù)經(jīng)濟理論分析,
正號,
負號是合理的。然而t檢驗
不顯著(
),而從經(jīng)濟理論分析,Pc應(yīng)該是重要因素。雖然Y與Pc高度相關(guān),但并不影響收入Y回歸系數(shù)
的顯著性和穩(wěn)定性。依照第1條判別標準,Pc可能是“有利變量”,暫時給予保留。
②模型中引入變量L ,R2 由0.9957提高到0.9959, 值略有提高。一方面,雖然Y 與L ,Pc與L 均高度相關(guān),但是L 的引入對回歸系數(shù)、
的影響不大(其中
的值由0.1257變?yōu)?.1387,
值由-0.0361變?yōu)?0.0345,變化很?。?;另一方面,根據(jù)經(jīng)濟理論的分析,L與服裝支出C之間應(yīng)該是正相關(guān)關(guān)系,即
的符號應(yīng)該為正號而非負號,依照第2條判別標準,解釋變量L不必保留在模型中。
③舍去變量L ,加入變量P0 ,使R2 由0.9957提高到0.9980,R2 值改進較大。、
、
均顯著(這三個回歸系數(shù)的t檢驗值絕對值均大于
),從經(jīng)濟意義上看也是合理的(服裝支出C與Y,P0之間呈正相關(guān),而與服裝價格Pc之間呈負相關(guān)關(guān)系)。根據(jù)判別標準第1條,可以認為Pc、P0皆為“有利變量”,給予保留。
④最后再引入變量L ,此時R2 =0.9980沒有增加(或幾乎沒有增加),新引入變量對其他三個解釋變量的參數(shù)系數(shù)也沒有產(chǎn)生多大影響,可以確定L 是多余變量,根據(jù)判別標準第2條,解釋變量L 不必保留在模型中。
因此我們得到如下結(jié)論:回歸模型為最優(yōu)模型。
通過以上案例的分析,我們從理論和實際問題兩方面具體了解了逐步回歸分析是如何對多重共線性問題進行處理的。事實上,一般統(tǒng)計軟件如SPSS,在回歸模型的窗口中都會提供變量逐步進入的選項,勾選后實際上就是選擇了運用逐步回歸的思想來構(gòu)建回歸模型。運用SPSS軟件不需要我們懂得其背后的運行規(guī)律,然而作為分析師,了解并理解模型背后的理論知識,將更有助于我們理解模型、解釋結(jié)論背后的內(nèi)在含義,從而達到更好地分析問題的目的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03