廣義上說共線性指的自變量之間的相關(guān)性,那么相關(guān)性有雙變量間的相關(guān),也有多變量間的相關(guān),由此可以進(jìn)一步區(qū)分為共線性和多重共線性。下文首先從共線性的闡述逐步過渡到多重共線性。假設(shè)我們需要擬合包含了兩個影響因素線性回歸,并且假設(shè)x_1和x_2的相關(guān)系數(shù)為r_12,

k 表示自變量數(shù)??梢妳⑴cβ ?計(jì)算的是由3部分統(tǒng)計(jì)量組成,分子的殘差平方和、分母的自變量方差、自變量間的相關(guān)性。殘差平方和可以看成是來自于因變量的信息,方差可以看成是來自于自變量的信息,相關(guān)系數(shù)來自于自變量之間的信息。
如果我們假設(shè)變量之間的相關(guān)性為0,回歸系數(shù)β ?的方差是最小的。當(dāng)然,這在數(shù)學(xué)上看起來很完美,但并不符合實(shí)際應(yīng)用,因?yàn)樵诨貧w分析中,所有影響因素可以看成是共享同一個因變量,如果能夠共享同一個潛在的因變量,影響因素之間沒有任何關(guān)系,則違反普通的理論或業(yè)務(wù)假定,所以相關(guān)系數(shù)為零,表示完全無共線性,在理論上行得通,但實(shí)際應(yīng)用比較少。
如果相關(guān)系數(shù)取最大值1,會導(dǎo)致整個回歸系數(shù)方差變得不可估計(jì),我們把這種現(xiàn)象稱之為完全共線性。完全共線性的場景,在小數(shù)據(jù)中極為少見,甚至不會出現(xiàn),但在大數(shù)據(jù)中,由于數(shù)據(jù)鏈的存在,幾乎不可避免,但常見的方法論可以事先篩選掉這類問題。不過一旦出現(xiàn)完全共線性問題,并不會同時將涉及共線性的變量放入方程,因?yàn)檫@樣仍會帶來如過擬合、速度、冗余等問題。總體來說無需傾注太多關(guān)注。
因此我們最常見的場景是介于0到1之間的相關(guān)性。理論統(tǒng)計(jì)研究顯示變量間出現(xiàn)適度的相關(guān)性,不會帶來嚴(yán)重的統(tǒng)計(jì)估計(jì)問題,但如果相關(guān)性很高,嚴(yán)重的估計(jì)問題就會出現(xiàn),這是不容忽視的。如下圖所示,R方取值越大,對應(yīng)的系數(shù)估計(jì)方差的倍數(shù)越大,如果R方等于0.9,系數(shù)方差是原來(R方取值0)的10倍,0.95對應(yīng)的是20倍的方差。理論研究顯示 系數(shù)方差超出10倍,則對系數(shù)估計(jì)穩(wěn)定性造成一定程度的影響。由此得出的結(jié)論是將R方為0.9視作為出現(xiàn)共線性診斷的標(biāo)準(zhǔn)之一,如果R方超過0.95則存在嚴(yán)重的共線性。









暫無數(shù)據(jù)