
一、殘差方差齊性判斷
1. 殘差方差齊性
回顧一下前面介紹過的殘差方差齊性,即殘差ei的大小不隨預(yù)測值水平的變化而變化。我們在進行殘差分析時,可以通過繪制標準化殘差和標準化預(yù)測值的散點圖來進行判斷。若殘差滿足方差齊性,則標準化殘差的散點會在一定區(qū)域內(nèi),圍繞標準化殘差ei=0這條直線的上下兩側(cè)均勻分布,不隨標準化預(yù)測值的變化而變化,如圖1所示。
2. 殘差方差不齊
但有時殘差不滿足方差齊性的假設(shè),其標準化殘差散點圖顯示,殘差的變異程度隨著變量取值水平的變化而發(fā)生變化,如圖2(a)顯示標準化殘差的分布隨變量取值的增大而呈現(xiàn)擴散趨勢,圖2(b)顯示標準化殘差的分布隨變量取值的增大而呈現(xiàn)收斂趨勢,說明殘差不滿足方差齊性的條件。
二、加權(quán)最小二乘法
在多重線性回歸模型中,我們采用的是普通最小二乘法(Ordinary Least Square,OLS)來對參數(shù)進行估計,即要求每個觀測點的實際值與預(yù)測值之間的殘差平方和最小,對于模型中的每個觀測點是同等看待的,殘差滿足方差齊性的假設(shè)。
但是在有些研究問題中,例如調(diào)查某種疾病的發(fā)病率,以地區(qū)為觀測單位,很顯然地區(qū)人數(shù)越多,所得到的率就越穩(wěn)定,變異程度越小,而地區(qū)人數(shù)越少,所得到的率的變異就越大。在這種情況下,因變量的變異程度會隨著自身數(shù)值或其他變量的變化而變化,殘差不滿足方差齊性的條件。此時如果繼續(xù)采用OLS方法進行模型估計,則擬合結(jié)果就會受到變異程度較大的數(shù)據(jù)的影響,在這種情況下構(gòu)建的回歸模型就會發(fā)生偏差,預(yù)測精度降低,甚至預(yù)測功能失效。
為了解決這一問題,我們可以采用加權(quán)最小二乘法(Weighted Least Squares,WLS)的方法來進行模型估計,即在模型擬合時,根據(jù)數(shù)據(jù)變異程度的大小賦予不同的權(quán)重,對于變異程度較小、測量更精確的數(shù)據(jù)賦予較大的權(quán)重,對于變異程度較大、測量不穩(wěn)定的數(shù)據(jù)賦予較小的權(quán)重,從而使得加權(quán)后回歸直線的殘差平方和最小,保證擬合的模型具有更好的預(yù)測價值。
三、SPSS操作
1. 研究問題
某研究人員擬研究PM2.5濃度與癌癥發(fā)病率之間的關(guān)聯(lián)性,以地區(qū)為觀測單位,收集了40個地區(qū)的癌癥發(fā)病率(/10萬),PM2.5年平均濃度(μg/m3),人口數(shù)量(萬),地區(qū)來源(0=農(nóng)村,1=城市)等信息。(注:數(shù)據(jù)為模擬數(shù)據(jù),不代表真實情況)
2. 判斷殘差是否滿足方差齊性
參考多重線性回歸的SPSS操作步驟,結(jié)果顯示采用普通最小二乘法方法擬合的線性回歸模型具有統(tǒng)計學意義(P<0.001),決定系數(shù)R Square為0.798,PM2.5平均濃度、不同地區(qū)來源(District)和不同人口數(shù)量對癌癥發(fā)病率的影響有統(tǒng)計學顯著性(P<0.05)。
殘差散點圖顯示,標準化殘差的變異程度會隨著標準化預(yù)測值的增大而增大,呈現(xiàn)擴散趨勢,表明殘差不滿足方差齊性的假設(shè)。
3. 權(quán)重估計
根據(jù)專業(yè)知識和經(jīng)驗判斷,人口數(shù)量(Population)可能為導(dǎo)致殘差不滿足方差齊性的一個重要因素,下面對人口數(shù)量進行權(quán)重估計。
(1)選擇Analyze → Regression → Weight Estimation,在Weight Estimation對話框中,將Cancer選入Dependent,將District和PM2.5選入Independent(s)中。
(2)將擬加權(quán)的變量Population選入Weight Variable中,系統(tǒng)將按照1/(權(quán)重變量)的power次冪對每條記錄進行加權(quán)。
(3)Power range用于定義權(quán)重變量的指數(shù),默認為-2~2,步長為0.5,即將擬合指數(shù)分為-2、-1.5、-1、-0.5、0、0.5、1、1.5和2一共構(gòu)建9個方程中,并從中選取效果最佳的一個擬合指數(shù)。本例中標準化殘差隨著標準化預(yù)測值的增大而增大,因此Power range為正值,此處設(shè)定Power range的范圍為0~5,步長為0.5。
(4)點擊Option,選擇Save best weight as new variable,生成一個新的變量用以保存效果最佳的權(quán)重。最后點擊Continue回到Weight Estimation主對話框,點擊OK完成操作。
(5)結(jié)果匯總
Log-Likelihood Values表中輸出了在給定步長下每個指數(shù)值對應(yīng)的對數(shù)似然值,選取對數(shù)似然值最大的一項為最優(yōu)指數(shù),因此本例中最終確定的最優(yōu)指數(shù)值為3,即權(quán)重按照1/population3的函數(shù)關(guān)系來計算權(quán)重。同時系統(tǒng)會在確定最優(yōu)指數(shù)的情況下,自動生成一個名為WGT_1的變量用于保存權(quán)重系數(shù)。
4. 最小二乘法操作
(1)選擇Analyze → Regression → Linear,在Linear Regression對話框中,將Cancer選入Dependent,將District、PM2.5、Population選入Independent(s)中,將新生成的變量Weight for Cancer from WLS(WGT_1)選入WLS Weight中。
(2)點擊Save選項,在Predicted Values和Residuals框下均選擇Unstandardized。最后點擊Continue回到Linear Regression主對話框,點擊OK完成操作。
(3)繪制殘差散點圖
由于在SPSS中使用WLS模型無法直接繪制加權(quán)殘差散點圖,SPSS會給出相應(yīng)的警示(如下圖所示),因此我們需要按照SPSS提示中提供的計算公式,對加權(quán)預(yù)測值和加權(quán)殘差值進行一定的轉(zhuǎn)換,然后再繪制轉(zhuǎn)換后的加權(quán)殘差散點圖。
選擇Transform → Compute Variable,利用前幾步操作生成的權(quán)重值(WGT_1)、加權(quán)預(yù)測值(PRE_1)和加權(quán)殘差值(RES_1)來計算生成兩個新變量,即轉(zhuǎn)換的加權(quán)預(yù)測值wgtpred = PRE_1 * sqrt(WGT_1)和轉(zhuǎn)換的加權(quán)殘差值wgtresid = RES_1 * sqrt(WGT_1)。
然后選擇Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter,將wtgpred選入X Axis,將wtgresid選入Y Axis,點擊OK繪制散點圖。
5. 結(jié)果匯總
(1)結(jié)果顯示,采用加權(quán)最小二乘法擬合的線性回歸模型仍具有統(tǒng)計學意義(P<0.001),決定系數(shù)R Square為0.779。由于決定系數(shù)計算方法本身的問題,在加權(quán)線性回歸里會出現(xiàn)一定的偏差,導(dǎo)致加權(quán)方法計算得到的R2往往要小于普通最小二乘法的R2,但這并不代表加權(quán)的模型比普通模型的擬合效果差,兩者不能簡單相比。
(2)模型結(jié)果顯示,PM2.5平均濃度、不同地區(qū)來源(District)和不同人口數(shù)對癌癥發(fā)病率的影響有統(tǒng)計學顯著性(P<0.05),且偏回歸系數(shù)較普通最小二乘法更為穩(wěn)健。
(3)轉(zhuǎn)換后的加權(quán)殘差散點圖顯示,殘差的散點圍繞ei=0這條直線的上下兩側(cè)均勻分布,不隨預(yù)測值的變化而變化,說明經(jīng)過加權(quán)校正后,殘差已滿足方差齊性的條件,達到了加權(quán)校正的目的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03