
SPSS回歸分析:自動線性模型
一、自動線性模型(分析-回歸-自動線性建模)
1、 目標(biāo)(分析-回歸-自動線性建模-構(gòu)建選項)
2、基本(分析-回歸-自動線性建模-構(gòu)建選項)
自動準(zhǔn)備數(shù)據(jù)。該選項允許在內(nèi)部轉(zhuǎn)換目標(biāo)和預(yù)測變量,以使模型的預(yù)測能力最大化;將保存模型的任何轉(zhuǎn)換并應(yīng)用到新數(shù)據(jù)用于評分。轉(zhuǎn)換字段的原始版本將從模型中排除。默認(rèn)情況下,執(zhí)行以下自動數(shù)據(jù)準(zhǔn)備?!蛉掌谂c時間處理。每個日期預(yù)測變量被轉(zhuǎn)換成新的連續(xù)預(yù)測變量,其中包含自參考日期(1970-01-01)以來經(jīng)過的時間。每個時間預(yù)測變量被轉(zhuǎn)換成新的連續(xù)預(yù)測變量,其中包含自參考時間(00:00:00)以來經(jīng)過的時間。◎調(diào)整測量級別。具有少于5個不同值的連續(xù)預(yù)測變量將被重新設(shè)計成有序預(yù)測變量。具有多于10個不同值的有序預(yù)測變量將被重新設(shè)計成連續(xù)預(yù)測變量?!螂x群值處理。如果連續(xù)預(yù)測變量的值位于截斷值(平均值的3個標(biāo)準(zhǔn)差)之外,則將其設(shè)為截斷值。◎缺失值處理。名義預(yù)測變量的缺失值被替換為訓(xùn)練分區(qū)的眾數(shù)。有序預(yù)測變量的缺失值被替換為訓(xùn)練分區(qū)的中位數(shù)。連續(xù)預(yù)測變量的缺失值被替換為訓(xùn)練分區(qū)的平均值?!蚴鼙O(jiān)督的合并。這將減少與目標(biāo)關(guān)聯(lián)的需處理的字段數(shù),得到更簡約的模型。通過輸入與目標(biāo)間的關(guān)系可以確定類似的類別。無顯著差異(即p值大于0.1)的類別則被合并。如果所有類別合并為一個類別,則字段的原始和派生版本將從模型中排除,因為它們沒有作為預(yù)測變量的值。
3、模型選擇(分析-回歸-自動線性建模-構(gòu)建選項)
1)模型選擇方法。選擇一種模型選擇方法(下面將詳細(xì)介紹)或無,后者簡單地輸入所有可用預(yù)測變量作為主效應(yīng)模型項。默認(rèn)使用前向逐步。
2)前向逐步選擇。在開始時模型中沒有任何效應(yīng),然后在每個步驟中添加和刪除效應(yīng),直到根據(jù)逐步選擇標(biāo)準(zhǔn)不能再添加或刪除效應(yīng)為止。
3)納入/移除標(biāo)準(zhǔn)。此為用于決定是將某個效應(yīng)添加到還是剔除出模型的統(tǒng)計量?!蛐畔?zhǔn)則(AICC)基于模型中給定訓(xùn)練集合的似然估計,并可調(diào)整以懲罰過度復(fù)雜模型。◎F統(tǒng)計量基于有關(guān)模型錯誤改進(jìn)情況的某個統(tǒng)計量檢驗?!蛘{(diào)整R方基于訓(xùn)練集合的擬合度,并可調(diào)整以懲罰過度復(fù)雜模型?!蚍乐惯^度擬合準(zhǔn)則(ASE)基于防止過度擬合集的擬合度(平均方差,或ASE)。防止過度擬合集是不用于訓(xùn)練模型且大約為原始數(shù)據(jù)集30%的隨機(jī)子樣本。
4)最佳子集選擇。這將檢查“所有可能的”模型,或至少檢查可能模型的較大子集(大于“前向逐步”方法),以選擇滿足相應(yīng)標(biāo)準(zhǔn)的最佳子集。◎信息準(zhǔn)則(AICC)基于模型中給定訓(xùn)練集合的似然估計,并可調(diào)整以懲罰過度復(fù)雜模型?!蛘{(diào)整R方基于訓(xùn)練集合的擬合度,并可調(diào)整以懲罰過度復(fù)雜模型?!蚍乐惯^度擬合準(zhǔn)則(ASE)基于防止過度擬合集的擬合度(平均方差,或ASE)。防止過度擬合集是不用于訓(xùn)練模型且大約為原始數(shù)據(jù)集30%的隨機(jī)子樣本。
二、結(jié)果說明(運(yùn)行后的結(jié)果解釋)
1、模型概要:模型及其擬合的快照概覽摘要
2、自動數(shù)據(jù)準(zhǔn)備:此視圖顯示在自動數(shù)據(jù)準(zhǔn)備(ADP)步驟中排除了哪些字段,以及轉(zhuǎn)換字段的派生方式等信息。對于每個轉(zhuǎn)換或排除字段,在此表中列出了字段名、在分析中的角色,以及ADP步驟所采取的操作。這些字段按其名稱的字母升序排列。對每個字段可能執(zhí)行的操作包括:◎?qū)С龀掷m(xù)時間:月份以月為單位,計算從包含日期的字段值到當(dāng)前系統(tǒng)日期所經(jīng)過的時間。◎?qū)С龀掷m(xù)時間:小時以小時為單位,計算從包含時間的字段值到當(dāng)前系統(tǒng)時間所經(jīng)過的時間?!?qū)y量級別從連續(xù)改為有序:將不到5個唯一值的連續(xù)字段重新設(shè)計為有序字段?!?qū)y量級別從有序改為連續(xù):將超過10個唯一值的有序字段重新設(shè)計為連續(xù)字段?!騽h除離群值:如果連續(xù)預(yù)測變量的值位于截斷值(平均值的3個標(biāo)準(zhǔn)差)之外,則將其設(shè)為截斷值?!蛱鎿Q缺失值:分別使用眾數(shù)、中位數(shù)和平均值替換名義字段、有序字段和連續(xù)字段的缺失值?!蚝喜㈩悇e以最大化與目標(biāo)的關(guān)聯(lián):根據(jù)輸入與目標(biāo)間的關(guān)系確定“類似”的預(yù)測變量類別。無顯著差異(即p值大于0.05)的類別則被合并。◎排除常量預(yù)測變量/在離群值處理之后/在合并類別之后:刪除具有單個值的預(yù)測變量,可能在執(zhí)行其他ADP操作之后。
3、預(yù)測變量重要性:通常,您需要將建模工作專注于最重要的預(yù)測變量字段,并考慮刪除或忽略那些最不重要的預(yù)測變量字段。預(yù)測變量重要性圖表可以在模型估計中指示每個預(yù)測變量的相對重要性,從而幫助您實(shí)現(xiàn)這一點(diǎn)。由于它們是相對值,因此顯示的所有預(yù)測變量的值總和為1.0。預(yù)測變量重要性與模型精度無關(guān)。它只與每個預(yù)測變量在預(yù)測中的重要性有關(guān),而不涉及預(yù)測是否精確。
4、由觀測預(yù)測:這將顯示一個分級散點(diǎn)圖,其中預(yù)測值位于垂直軸上,而觀測值位于水平軸上。理想情況下,該點(diǎn)應(yīng)在45度線上;您可以從該視圖上判斷出任何被模型預(yù)測為較差的紀(jì)錄。
5、殘差:有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!?a href='/map/zhifangtu/' style='color:#000;font-size:inherit;'>直方圖。此為學(xué)生化殘差的分級直方圖,并帶有正態(tài)分布交疊。線性模型假設(shè)殘差具有正態(tài)分布,因此理想情況下直方圖應(yīng)相當(dāng)接近平滑線?!騊-P圖。此為分級概率-概率(P-P)圖,將學(xué)生化殘差與正態(tài)分布進(jìn)行對比。如果繪制點(diǎn)的坡度比正態(tài)線更平緩,則殘差顯示出比正態(tài)分布更顯著的變異性;如果更陡峭,則殘差的變異性低于正態(tài)分布。如果繪制點(diǎn)呈S型曲線,則殘差為偏斜分布。
6、離群值:此表列出對模型施加過度影響的記錄,并顯示記錄ID(如果在“字段”選項卡上指定)、目標(biāo)值,以及Cook距離。Cook距離是在特定記錄從模型系數(shù)的計算中排除的情況下,所有記錄的殘差變化幅度的測量。較大的Cook距離表示在排除記錄后系數(shù)會發(fā)生顯著變化,因此應(yīng)被視為有一定影響。應(yīng)仔細(xì)檢查有影響的記錄,以確定是在模型估計中給予較低權(quán)重,按照特定可接受閾值截斷離群值,還是徹底移除有影響的記錄。
7、效應(yīng):有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!驁D表。在此圖表中,將按預(yù)測變量重要性遞減順序,從上到下排列顯示效應(yīng)。在圖表中,連接線條根據(jù)效應(yīng)的顯著性進(jìn)行加權(quán),粗線條表示較顯著的效應(yīng)(p值較小)。懸停在連接線條上將顯示工具提示,以指示效應(yīng)的p值和重要性。這是默認(rèn)值?!虮恚捍藶榭傮w模型與單獨(dú)模型效應(yīng)的ANOVA表。各個效應(yīng)將按預(yù)測變量重要性遞減順序,從上到下排列顯示。注意,在默認(rèn)情況下,此表處于折疊狀態(tài),只顯示總體模型結(jié)果。要查看單獨(dú)模型效應(yīng)的結(jié)果,在表中單擊校正的模型單元格。
8、系數(shù):此視圖顯示模型中每個系數(shù)的值。注意,由于因子(分類預(yù)測變量)在模型內(nèi)部經(jīng)過指示符編碼,因此包含因子的效應(yīng)通常具有多個關(guān)聯(lián)系數(shù);每種類別一個關(guān)聯(lián)系數(shù),但對應(yīng)于冗余(參考)參數(shù)的類別除外。有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式。◎圖表。在此圖表中,首先顯示截距,然后按預(yù)測變量重要性遞減順序,從上到下排列顯示效應(yīng)。在包含因子的效應(yīng)中,系數(shù)按照數(shù)據(jù)值的升序進(jìn)行排列。在圖表中,連接線條根據(jù)系數(shù)的顯著性(參見圖表鍵)而具有不同顏色,粗線條表示較顯著的系數(shù)(p值較?。?。懸停在連接線條上將顯示工具提示,以指示與參數(shù)關(guān)聯(lián)的效應(yīng)的系數(shù)值、p值和重要性。這是默認(rèn)樣式?!虮恚哼@將顯示單獨(dú)模型系數(shù)的值、顯著性檢驗,以及置信區(qū)間。在截距后面,各個效應(yīng)將按預(yù)測變量重要性遞減順序,從上到下排列顯示。在包含因子的效應(yīng)中,系數(shù)按照數(shù)據(jù)值的升序進(jìn)行排列。注意,在默認(rèn)情況下,此表處于折疊狀態(tài),只顯示每個模型參數(shù)的系數(shù)、顯著性和重要性。要查看標(biāo)準(zhǔn)誤、t統(tǒng)計量和置信區(qū)間,在表中單擊系數(shù)單元格。懸停在表中的模型參數(shù)名稱上,將顯示工具提示,以指示參數(shù)名稱、與參數(shù)關(guān)聯(lián)的效應(yīng)以及與模型參數(shù)關(guān)聯(lián)的值標(biāo)簽(對于分類預(yù)測變量)。當(dāng)自動數(shù)據(jù)準(zhǔn)備合并分類預(yù)測變量的相似類別時,這尤其適合用于查看新創(chuàng)建的類別。
9、估計平均值:只為顯著的預(yù)測變量顯示這些圖表。在圖表中,目標(biāo)的模型估計值位于垂直軸上,預(yù)測變量的每個值位于水平軸上,所有其他預(yù)測變量保持恒定。它提供了有關(guān)每個預(yù)測變量系數(shù)在目標(biāo)上的效應(yīng)的直觀表示,非常有用。
10、模型構(gòu)建匯總:◎前向逐步。如果選擇算法為前向逐步,此表將顯示逐步選擇算法中的最近10步。對于其中每個步驟,顯示在此步驟上選擇標(biāo)準(zhǔn)的值與模型中的效應(yīng)。這允許您了解每個步驟對模型的貢獻(xiàn)大小。每列允許您對行進(jìn)行排序,因此可以方便地看到在給定步驟上模型中有哪些效應(yīng)。◎最佳子集。如果選擇算法為最佳子集,此表將顯示前10個模型。對于每個模型,顯示選擇標(biāo)準(zhǔn)的值與模型中的效應(yīng)。您可以從中了解這些最佳模型的穩(wěn)定性;如果它們傾向于具有存在少量差異的相似效應(yīng),那么您可以充分確信它們的確是“最佳”模型;如果它們傾向于具有迥異的效應(yīng),那么某些效應(yīng)可能太相似,需要進(jìn)行合并(或刪除一些)。每列允許您對行進(jìn)行排序,因此可以方便地看到在給定步驟上模型中有哪些效應(yīng)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10