
一、殘差方差齊性判斷
1. 殘差方差齊性
回顧一下前面介紹過的殘差方差齊性,即殘差ei的大小不隨預(yù)測值水平的變化而變化。我們在進(jìn)行殘差分析時(shí),可以通過繪制標(biāo)準(zhǔn)化殘差和標(biāo)準(zhǔn)化預(yù)測值的散點(diǎn)圖來進(jìn)行判斷。若殘差滿足方差齊性,則標(biāo)準(zhǔn)化殘差的散點(diǎn)會在一定區(qū)域內(nèi),圍繞標(biāo)準(zhǔn)化殘差ei=0這條直線的上下兩側(cè)均勻分布,不隨標(biāo)準(zhǔn)化預(yù)測值的變化而變化,如圖1所示。
圖1. 標(biāo)準(zhǔn)化殘差散點(diǎn)圖(方差齊性)
2. 殘差方差不齊
但有時(shí)殘差不滿足方差齊性的假設(shè),其標(biāo)準(zhǔn)化殘差散點(diǎn)圖顯示,殘差的變異程度隨著變量取值水平的變化而發(fā)生變化,如圖2(a)顯示標(biāo)準(zhǔn)化殘差的分布隨變量取值的增大而呈現(xiàn)擴(kuò)散趨勢,圖2(b)顯示標(biāo)準(zhǔn)化殘差的分布隨變量取值的增大而呈現(xiàn)收斂趨勢,說明殘差不滿足方差齊性的條件。
圖2. 標(biāo)準(zhǔn)化殘差散點(diǎn)圖(方差不齊)
二、加權(quán)最小二乘法
在多重線性回歸模型中,我們采用的是普通最小二乘法(Ordinary Least Square,OLS)來對參數(shù)進(jìn)行估計(jì),即要求每個(gè)觀測點(diǎn)的實(shí)際值與預(yù)測值之間的殘差平方和最小,對于模型中的每個(gè)觀測點(diǎn)是同等看待的,殘差滿足方差齊性的假設(shè)。
但是在有些研究問題中,例如調(diào)查某種疾病的發(fā)病率,以地區(qū)為觀測單位,很顯然地區(qū)人數(shù)越多,所得到的率就越穩(wěn)定,變異程度越小,而地區(qū)人數(shù)越少,所得到的率的變異就越大。在這種情況下,因變量的變異程度會隨著自身數(shù)值或其他變量的變化而變化,殘差不滿足方差齊性的條件。此時(shí)如果繼續(xù)采用OLS方法進(jìn)行模型估計(jì),則擬合結(jié)果就會受到變異程度較大的數(shù)據(jù)的影響,在這種情況下構(gòu)建的回歸模型就會發(fā)生偏差,預(yù)測精度降低,甚至預(yù)測功能失效。
為了解決這一問題,我們可以采用加權(quán)最小二乘法(Weighted Least Squares,WLS)的方法來進(jìn)行模型估計(jì),即在模型擬合時(shí),根據(jù)數(shù)據(jù)變異程度的大小賦予不同的權(quán)重,對于變異程度較小、測量更精確的數(shù)據(jù)賦予較大的權(quán)重,對于變異程度較大、測量不穩(wěn)定的數(shù)據(jù)賦予較小的權(quán)重,從而使得加權(quán)后回歸直線的殘差平方和最小,保證擬合的模型具有更好的預(yù)測價(jià)值。
三、SPSS操作
1. 研究問題
某研究人員擬研究PM2.5濃度與癌癥發(fā)病率之間的關(guān)聯(lián)性,以地區(qū)為觀測單位,收集了40個(gè)地區(qū)的癌癥發(fā)病率(/10萬),PM2.5年平均濃度(μg/m3),人口數(shù)量(萬),地區(qū)來源(0=農(nóng)村,1=城市)等信息。(注:數(shù)據(jù)為模擬數(shù)據(jù),不代表真實(shí)情況)
2. 判斷殘差是否滿足方差齊性
參考多重線性回歸的SPSS操作步驟,結(jié)果顯示采用普通最小二乘法方法擬合的線性回歸模型具有統(tǒng)計(jì)學(xué)意義(P<0.001),決定系數(shù)R Square為0.798,PM2.5平均濃度、不同地區(qū)來源(District)和不同人口數(shù)量對癌癥發(fā)病率的影響有統(tǒng)計(jì)學(xué)顯著性(P<0.05)。
殘差散點(diǎn)圖顯示,標(biāo)準(zhǔn)化殘差的變異程度會隨著標(biāo)準(zhǔn)化預(yù)測值的增大而增大,呈現(xiàn)擴(kuò)散趨勢,表明殘差不滿足方差齊性的假設(shè)。
3. 權(quán)重估計(jì)
根據(jù)專業(yè)知識和經(jīng)驗(yàn)判斷,人口數(shù)量(Population)可能為導(dǎo)致殘差不滿足方差齊性的一個(gè)重要因素,下面對人口數(shù)量進(jìn)行權(quán)重估計(jì)。
(1)選擇Analyze → Regression → Weight Estimation,在Weight Estimation對話框中,將Cancer選入Dependent,將District和PM2.5選入Independent(s)中。
(2)將擬加權(quán)的變量Population選入Weight Variable中,系統(tǒng)將按照1/(權(quán)重變量)的power次冪對每條記錄進(jìn)行加權(quán)。
(3)Power range用于定義權(quán)重變量的指數(shù),默認(rèn)為-2~2,步長為0.5,即將擬合指數(shù)分為-2、-1.5、-1、-0.5、0、0.5、1、1.5和2一共構(gòu)建9個(gè)方程中,并從中選取效果最佳的一個(gè)擬合指數(shù)。本例中標(biāo)準(zhǔn)化殘差隨著標(biāo)準(zhǔn)化預(yù)測值的增大而增大,因此Power range為正值,此處設(shè)定Power range的范圍為0~5,步長為0.5。
(4)點(diǎn)擊Option,選擇Save best weight as new variable,生成一個(gè)新的變量用以保存效果最佳的權(quán)重。最后點(diǎn)擊Continue回到Weight Estimation主對話框,點(diǎn)擊OK完成操作。
(5)結(jié)果匯總
Log-Likelihood Values表中輸出了在給定步長下每個(gè)指數(shù)值對應(yīng)的對數(shù)似然值,選取對數(shù)似然值最大的一項(xiàng)為最優(yōu)指數(shù),因此本例中最終確定的最優(yōu)指數(shù)值為3,即權(quán)重按照1/population3的函數(shù)關(guān)系來計(jì)算權(quán)重。同時(shí)系統(tǒng)會在確定最優(yōu)指數(shù)的情況下,自動生成一個(gè)名為WGT_1的變量用于保存權(quán)重系數(shù)。
4. 最小二乘法操作
(1)選擇Analyze → Regression → Linear,在Linear Regression對話框中,將Cancer選入Dependent,將District、PM2.5、Population選入Independent(s)中,將新生成的變量Weight for Cancer from WLS(WGT_1)選入WLS Weight中。
(2)點(diǎn)擊Save選項(xiàng),在Predicted Values和Residuals框下均選擇Unstandardized。最后點(diǎn)擊Continue回到Linear Regression主對話框,點(diǎn)擊OK完成操作。
(3)繪制殘差散點(diǎn)圖
由于在SPSS中使用WLS模型無法直接繪制加權(quán)殘差散點(diǎn)圖,SPSS會給出相應(yīng)的警示(如下圖所示),因此我們需要按照SPSS提示中提供的計(jì)算公式,對加權(quán)預(yù)測值和加權(quán)殘差值進(jìn)行一定的轉(zhuǎn)換,然后再繪制轉(zhuǎn)換后的加權(quán)殘差散點(diǎn)圖。
選擇Transform → Compute Variable,利用前幾步操作生成的權(quán)重值(WGT_1)、加權(quán)預(yù)測值(PRE_1)和加權(quán)殘差值(RES_1)來計(jì)算生成兩個(gè)新變量,即轉(zhuǎn)換的加權(quán)預(yù)測值wgtpred = PRE_1 * sqrt(WGT_1)和轉(zhuǎn)換的加權(quán)殘差值wgtresid = RES_1 * sqrt(WGT_1)。
然后選擇Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter,將wtgpred選入X Axis,將wtgresid選入Y Axis,點(diǎn)擊OK繪制散點(diǎn)圖。
5. 結(jié)果匯總
(1)結(jié)果顯示,采用加權(quán)最小二乘法擬合的線性回歸模型仍具有統(tǒng)計(jì)學(xué)意義(P<0.001),決定系數(shù)R Square為0.779。由于決定系數(shù)計(jì)算方法本身的問題,在加權(quán)線性回歸里會出現(xiàn)一定的偏差,導(dǎo)致加權(quán)方法計(jì)算得到的R2往往要小于普通最小二乘法的R2,但這并不代表加權(quán)的模型比普通模型的擬合效果差,兩者不能簡單相比。
(2)模型結(jié)果顯示,PM2.5平均濃度、不同地區(qū)來源(District)和不同人口數(shù)對癌癥發(fā)病率的影響有統(tǒng)計(jì)學(xué)顯著性(P<0.05),且偏回歸系數(shù)較普通最小二乘法更為穩(wěn)健。
(3)轉(zhuǎn)換后的加權(quán)殘差散點(diǎn)圖顯示,殘差的散點(diǎn)圍繞ei=0這條直線的上下兩側(cè)均勻分布,不隨預(yù)測值的變化而變化,說明經(jīng)過加權(quán)校正后,殘差已滿足方差齊性的條件,達(dá)到了加權(quán)校正的目的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10