
SPSS大戰(zhàn)多元回歸分析
使用多元回歸進(jìn)行數(shù)據(jù)分析,分析軟件供選擇的比較多,主要有Eviews、Spss、Stata、Sas、Gretel等。多元回歸分析應(yīng)用于各個(gè)領(lǐng)域,主要有經(jīng)濟(jì)、醫(yī)學(xué)、農(nóng)學(xué)等。今天小編為大家分享一篇SPSS大戰(zhàn)多元回歸的數(shù)據(jù)分析實(shí)例。線性回歸數(shù)據(jù)來自于國泰安數(shù)據(jù)服務(wù)中心的經(jīng)濟(jì)研究數(shù)據(jù)庫。數(shù)據(jù)名稱為:全國各地區(qū)能源消耗量與產(chǎn)量,該數(shù)據(jù)的年度標(biāo)識(shí)為2006年,地區(qū)包括我國30個(gè)省,直轄市,自治區(qū)(西藏地區(qū)無數(shù)據(jù))。
1.1數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括的內(nèi)容非常廣泛,包括數(shù)據(jù)清理和描述性數(shù)據(jù)匯總,數(shù)據(jù)集成和變換,數(shù)據(jù)歸約,數(shù)據(jù)離散化等。本文主要涉及的數(shù)據(jù)預(yù)處理只包括數(shù)據(jù)清理和描述性數(shù)據(jù)匯總。一般意義的數(shù)據(jù)預(yù)處理包括缺失值填寫和噪聲數(shù)據(jù)的處理。于此我們只對(duì)數(shù)據(jù)做缺失值填充,但是依然將其統(tǒng)稱數(shù)據(jù)清理。
1.1.1 數(shù)據(jù)導(dǎo)入與定義
單擊“打開數(shù)據(jù)文檔”,將xls格式的全國各地區(qū)能源消耗量與產(chǎn)量的數(shù)據(jù)導(dǎo)入SPSS中,如圖1-1所示。
(圖1-1 導(dǎo)入數(shù)據(jù))
導(dǎo)入過程中,各個(gè)字段的值都被轉(zhuǎn)化為字符串型(String),我們需要手動(dòng)將相應(yīng)的字段轉(zhuǎn)回?cái)?shù)值型。單擊菜單欄的“”-->“
”將所選的變量改為數(shù)值型。如圖1-2所示:
(圖1-2 定義變量數(shù)據(jù)類型)
1.1.2 數(shù)據(jù)清理
數(shù)據(jù)清理包括缺失值的填寫和還需要使用SPSS分析工具來檢查各個(gè)變量的數(shù)據(jù)完整性。單擊“”-->“
”,將檢查所輸入的數(shù)據(jù)的缺失值個(gè)數(shù)以及百分比等。如圖1-3所示:
(圖1-3缺失值分析)
能源數(shù)據(jù)缺失值分析結(jié)果如表1-1所示:
SPSS提供了填充缺失值的工具,點(diǎn)擊菜單欄“”-->“”,即可以使用軟件提供的幾種填充缺失值工具,包括序列均值,臨近點(diǎn)中值,臨近點(diǎn)中位數(shù)等。結(jié)合本次實(shí)習(xí)數(shù)據(jù)的具體情況,我們不使用SPSS軟件提供的替換缺失值工具,主要是手動(dòng)將缺失值用零值來代替。
1.1.3 描述性數(shù)據(jù)匯總
描述性數(shù)據(jù)匯總技術(shù)用來獲得數(shù)據(jù)的典型性質(zhì),我們關(guān)心數(shù)據(jù)的中心趨勢和離中趨勢,根據(jù)這些統(tǒng)計(jì)值,可以初步得到數(shù)據(jù)的噪聲和離群點(diǎn)。中心趨勢的量度值包括:均值(mean),中位數(shù)(median),眾數(shù)(mode)等。離中趨勢量度包括四分位數(shù)(quartiles),方差(variance)等。
SPSS提供了詳盡的數(shù)據(jù)描述工具,單擊菜單欄的“”-->“”-->“”,將彈出如圖2-4所示的對(duì)話框,我們將所有變量都選取到,然后在選項(xiàng)中勾選上所希望描述的數(shù)據(jù)特征,包括均值,標(biāo)準(zhǔn)差,方差,最大最小值等。由于本次數(shù)據(jù)的單位不盡相同,我們需要將數(shù)據(jù)標(biāo)準(zhǔn)化,同時(shí)勾選上“將標(biāo)準(zhǔn)化得分另存為變量”。
(圖1-4 描述性數(shù)據(jù)匯總)
得到如表1-2所示的描述性數(shù)據(jù)匯總。
(表1-2 描述性數(shù)據(jù)匯總)
標(biāo)準(zhǔn)化后得到的數(shù)據(jù)值,以下的回歸分析將使用標(biāo)準(zhǔn)化數(shù)據(jù)。如圖1-5所示:
(圖1-5 數(shù)據(jù)標(biāo)準(zhǔn)化)
我們還可以通過描述性分析中的“”來得到各個(gè)變量的眾數(shù),均值等,還可以根據(jù)這些量繪制直方圖。我們選取個(gè)別變量(能源消費(fèi)總量)的直方圖,可以看到我們因變量基本符合正態(tài)分布。如圖1-6所示:
(圖1-6能源消費(fèi)總量)
1.2 回歸分析
我們本次實(shí)驗(yàn)主要考察地區(qū)能源消費(fèi)總額(因變量)與煤炭消費(fèi)量、焦炭消費(fèi)量、原油消費(fèi)量、原煤產(chǎn)量、焦炭產(chǎn)量、原油產(chǎn)量之間的關(guān)系。以下的回歸分析所涉及只包括以上幾個(gè)變量,并使用標(biāo)準(zhǔn)化之后的數(shù)據(jù)。
1.2.1 參數(shù)設(shè)置
單擊菜單欄“”-->“”-->“”,將彈出如圖1-7所示的對(duì)話框,將通過選擇因變量和自變量來構(gòu)建線性回歸模型。因變量:標(biāo)準(zhǔn)化能源消費(fèi)總額;自變量:標(biāo)準(zhǔn)化煤炭消費(fèi)量、標(biāo)準(zhǔn)化焦炭消費(fèi)量、標(biāo)準(zhǔn)化原油消費(fèi)量、標(biāo)準(zhǔn)化原煤產(chǎn)量、標(biāo)準(zhǔn)化焦炭產(chǎn)量、標(biāo)準(zhǔn)化原油產(chǎn)量。自變量方法選擇:進(jìn)入,個(gè)案標(biāo)簽使用地名,不使用權(quán)重最小二乘法回歸分析—即WLS權(quán)重為空。
(圖1-7選擇線性回歸變量還需要設(shè)置統(tǒng)計(jì)量的參數(shù))
我們選擇回歸系數(shù)中的“”和其他項(xiàng)中的“
”。選中估計(jì)可輸出回歸系數(shù)B及其標(biāo)準(zhǔn)誤,t值和p值,還有標(biāo)準(zhǔn)化的回歸系數(shù)beta。選中模型擬合度復(fù)選框:模型擬合過程中進(jìn)入、退出的變量的列表,以及一些有關(guān)擬合優(yōu)度的檢驗(yàn):R,R2和調(diào)整的R2, 標(biāo)準(zhǔn)誤及方差分析表。如圖1-8所示:
(圖1-8 設(shè)置回歸分析統(tǒng)計(jì)量)
在設(shè)置繪制選項(xiàng)的時(shí)候,我們選擇繪制標(biāo)準(zhǔn)化殘差圖,其中的正態(tài)概率圖是rankit圖。同時(shí)還需要畫出殘差圖,Y軸選擇:ZRESID,X軸選擇: ZPRED。如圖1-9所示:
(圖1-9 設(shè)置繪制)
左上框中各項(xiàng)的意義分別為:
“DEPENDNT”因變量
“ZPRED”標(biāo)準(zhǔn)化預(yù)測值
“ZRESID”標(biāo)準(zhǔn)化殘差
“DRESID”刪除殘差
“ADJPRED”調(diào)節(jié)預(yù)測值
“SRESID”學(xué)生化殘差
“SDRESID”學(xué)生化刪除殘差
許多時(shí)候我們需要將回歸分析的結(jié)果存儲(chǔ)起來,然后用得到的殘差、預(yù)測值等做進(jìn)一步的分析,“保存”按鈕就是用來存儲(chǔ)中間結(jié)果的??梢源鎯?chǔ)的有:預(yù)測值系列、殘差系列、距離(Distances)系列、預(yù)測值可信區(qū)間系列、波動(dòng)統(tǒng)計(jì)量系列。本次實(shí)驗(yàn)暫時(shí)不保存任何項(xiàng)。
設(shè)置回歸分析的一些選項(xiàng),有:步進(jìn)方法標(biāo)準(zhǔn)單選鈕組:設(shè)置納入和排除標(biāo)準(zhǔn),可按P值或F值來設(shè)置。在等式中包含常量復(fù)選框:用于決定是否在模型中包括常數(shù)項(xiàng),默認(rèn)選中。如圖1-10所示:
(圖1-10 設(shè)置選項(xiàng))
1.2.2 結(jié)果輸出與分析
在以上選項(xiàng)設(shè)置完畢之后點(diǎn)擊確定,SPSS將輸出一系列的回歸分析結(jié)果。我們來逐一貼出和分析,并根據(jù)它得到最后的回歸方程以及驗(yàn)證回歸模型。
表1-3所示,是回歸分析過程中輸入、移去模型記錄。具體方法為:enter(進(jìn)入)
輸入/移去的變量
(表1-3 輸入的變量)
表1-4所示是模型匯總,R稱為多元相關(guān)系數(shù),R方(R2)代表著模型的擬合優(yōu)度。我們可以看到該模型是擬合優(yōu)度良好。
模型匯總
(表1-4 模型匯總)
表1-5所示是離散分析。,F(xiàn)的值較大,代表著該回歸模型是顯著。也稱為失擬性檢驗(yàn)。
(表1-5 離散分析)
表1-6所示的是回歸方程的系數(shù),根據(jù)這些系數(shù)我們能夠得到完整的多元回歸方程。觀測以下的回歸值,都是具有統(tǒng)計(jì)學(xué)意義的。因而,得到的多元線性回歸方程:Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x4-0.105 x5-0.017x6
(x1為煤炭消費(fèi)量,x2為焦炭消費(fèi)量,x3為原油消費(fèi)量,x4為原煤產(chǎn)量,x5為原炭產(chǎn)量,x6為原油產(chǎn)量,Y是能源消費(fèi)總量)
結(jié)論:能量消費(fèi)總量由主要與煤炭消費(fèi)總量所影響,成正相關(guān);與原煤產(chǎn)量成一定的反比。
系數(shù)
(表1-6回歸方程系數(shù))
模型的適合性檢驗(yàn),主要是殘差分析。殘差圖是散點(diǎn)圖,如圖1-11所示:
(圖1-11殘差圖)
可以看出各散點(diǎn)隨機(jī)分布在e=0為中心的橫帶中,證明了該模型是適合的。同時(shí)我們也發(fā)現(xiàn)了兩個(gè)異常點(diǎn),就是廣東省和四川省,這種離群點(diǎn)是值得進(jìn)一步研究的。
還有一種殘差正態(tài)概率圖(rankit圖)可以直觀地判斷殘差是否符合正態(tài)分布。如圖1-12所示:
(圖1-12 rankit(P-P)圖)
它的直方圖如圖1-13所示:
(圖1-13 rankit(直方)圖)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03