
SPSS分類(lèi)分析:最近鄰元素分析
一、最近鄰元素分析(分析-分類(lèi)-最近鄰元素)
1、概念:根據(jù)個(gè)案間的相似性來(lái)對(duì)個(gè)案進(jìn)行分類(lèi)。類(lèi)似個(gè)案相互靠近,而不同個(gè)案相互遠(yuǎn)離。因此,通過(guò)兩個(gè)個(gè)案之間的距離可以測(cè)量他們的相似性。相互靠近的個(gè)案稱(chēng)為“鄰元素。”當(dāng)出現(xiàn)新個(gè)案(保持)時(shí),將計(jì)算它與模型中每個(gè)個(gè)案之間的距離。計(jì)算得出最相似個(gè)案–最近鄰元素–的分類(lèi),并將新個(gè)案放入包含最多最近鄰元素的類(lèi)別中。
2、變量:(分析-分類(lèi)-最近鄰元素-變量)
◎目標(biāo)(可選)。如果未指定目標(biāo)(因變量或響應(yīng)),則過(guò)程僅查找k個(gè)最近鄰元素–而不會(huì)執(zhí)行任何分類(lèi)或預(yù)測(cè)?!驑?biāo)準(zhǔn)化刻度特征。標(biāo)準(zhǔn)化特征具有相同的值范圍,這可改進(jìn)估計(jì)算法的性能。使用經(jīng)調(diào)整后的標(biāo)準(zhǔn)化[2*(x min)/(max min)] 1。調(diào)整后的標(biāo)準(zhǔn)化值介于1和1之間?!蚪裹c(diǎn)個(gè)案標(biāo)識(shí)(可選)。這可以標(biāo)記感興趣的個(gè)案。例如,研究員希望確定學(xué)區(qū)的測(cè)驗(yàn)分?jǐn)?shù)–焦點(diǎn)個(gè)案–是否與類(lèi)似學(xué)區(qū)的測(cè)驗(yàn)分?jǐn)?shù)相當(dāng)。他使用最近鄰元素分析來(lái)查找在給定特征組方面最相似的學(xué)區(qū)。然后,他將焦點(diǎn)學(xué)區(qū)的測(cè)驗(yàn)分?jǐn)?shù)與最近鄰學(xué)區(qū)的分?jǐn)?shù)進(jìn)行比較?!騻€(gè)案標(biāo)簽(可選)。在特征空間圖表、對(duì)等圖表和象限圖中使用這些值來(lái)標(biāo)記個(gè)案。
3、相鄰元素:(分析-分類(lèi)-最近鄰元素-相鄰元素)
1)最近鄰元素的數(shù)目(k)。指定最近鄰元素的數(shù)目。注意,使用大量的鄰元素不一定會(huì)得到更準(zhǔn)確的模型。2)距離計(jì)算。該度規(guī)用于指定在測(cè)量個(gè)案相似性中使用的距離度規(guī)?!駿uclidean度規(guī)。兩個(gè)個(gè)案x和y之間的距離,為個(gè)案值之間的平方差在所有維度上之和的平方根?!虺鞘薪謪^(qū)度規(guī)。兩個(gè)個(gè)案之間的距離是個(gè)案值之間絕對(duì)差在所有維度上之和。又稱(chēng)為Manhattan距離。
如果在“變量”選項(xiàng)卡中指定了目標(biāo),使用“特征”選項(xiàng)卡可以為特征選擇請(qǐng)求或指定選項(xiàng)。默認(rèn)情況下,特征選擇會(huì)考慮所有特征,但可以選擇特征子集以強(qiáng)制納入模型。
中止準(zhǔn)則。在每一步上,如果添加特征可以使誤差最?。ㄓ?jì)算為分類(lèi)目標(biāo)的誤差率和刻度目標(biāo)的平方和誤差),則考慮將其納入模型中。繼續(xù)向前選擇,直到滿(mǎn)足指定的條件?!蛑付ǖ?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征數(shù)目。除了那些強(qiáng)制納入模型的特征外,算法還會(huì)添加固定數(shù)目的特征。指定一個(gè)正整數(shù)。減少所選擇的數(shù)目值可以創(chuàng)建更簡(jiǎn)約的模型,但存在缺失重要特征的風(fēng)險(xiǎn)。增加所選擇的數(shù)目值可以涵蓋所有重要特征,但又存在因特征添加而增加模型誤差的風(fēng)險(xiǎn)。◎絕對(duì)誤差比率的最小變化。當(dāng)絕對(duì)誤差比率變化表明無(wú)法通過(guò)添加更多特征來(lái)進(jìn)一步改進(jìn)模型時(shí),算法會(huì)停止。指定一個(gè)正數(shù)。減少最小變化值將傾向于包含更多特征,但存在包含對(duì)模型價(jià)值不大的特征的風(fēng)險(xiǎn)。增加最小變化值將傾向于排除更多特征,但存在丟失對(duì)模型較重要的特征的風(fēng)險(xiǎn)。最小變化的“最佳”值將取決于您的數(shù)據(jù)和具體應(yīng)用。請(qǐng)參見(jiàn)輸出中的“特征選擇誤差日志”,以幫助您評(píng)估哪些特征最重要。
5、分區(qū)(分析-分類(lèi)-最近鄰元素-分區(qū))
使用“分區(qū)”選項(xiàng)卡可以將數(shù)據(jù)集劃分為培訓(xùn)和堅(jiān)持集,并在適當(dāng)時(shí)候?qū)€(gè)案分配給交叉驗(yàn)證折。
1)訓(xùn)練和堅(jiān)持分區(qū)。此組指定將活動(dòng)數(shù)據(jù)集劃分為訓(xùn)練樣本或堅(jiān)持樣本的方法。訓(xùn)練樣本包含用于訓(xùn)練最近鄰元素模型的數(shù)據(jù)記錄;數(shù)據(jù)集中的某些個(gè)案百分比必須分配給訓(xùn)練樣本以獲得一個(gè)模型。堅(jiān)持樣本是用于評(píng)估最終模型的獨(dú)立數(shù)據(jù)記錄集;堅(jiān)持樣本的誤差給出一個(gè)模型預(yù)測(cè)能力的“真實(shí)”估計(jì)值,因?yàn)閳?jiān)持個(gè)案不用于構(gòu)建模型?!螂S機(jī)分配個(gè)案到分區(qū)。指定分配給訓(xùn)練樣本的個(gè)案百分比。其余的分配給堅(jiān)持樣本。◎使用變量分配個(gè)案。指定一個(gè)將活動(dòng)數(shù)據(jù)集中的每個(gè)個(gè)案分配到訓(xùn)練或堅(jiān)持樣本中的數(shù)值變量。變量為正值的個(gè)案被分配到訓(xùn)練樣本中,值為0或負(fù)值的個(gè)案被分配到堅(jiān)持樣本中。具有系統(tǒng)缺失值的個(gè)案會(huì)從分析中排除。分區(qū)變量的任何用戶(hù)缺失值始終視為有效。
2)交叉驗(yàn)證折。V折交叉驗(yàn)證用于確定“最佳”鄰元素?cái)?shù)目。因性能原因,它無(wú)法與特征選擇結(jié)合使用。交叉驗(yàn)證將樣本劃分為許多子樣本,或折。然后,生成最近鄰元素模型,并依次排除每個(gè)子樣本中的數(shù)據(jù)。第一個(gè)模型基于第一個(gè)樣本折的個(gè)案之外的所有個(gè)案,第二個(gè)模型基于第二個(gè)樣本折的個(gè)案之外的所有個(gè)案,依此類(lèi)推。對(duì)于每個(gè)模型,估計(jì)其錯(cuò)誤的方法是將模型應(yīng)用于生成它時(shí)所排除的子樣本?!白罴选弊罱徳?cái)?shù)為在折中產(chǎn)生最小誤差的數(shù)量?!螂S機(jī)分配個(gè)案到折。指定應(yīng)當(dāng)用于交叉驗(yàn)證的折數(shù)。該過(guò)程將個(gè)案隨機(jī)分配到折,從1編號(hào)到V(折數(shù))?!蚴褂米兞糠峙鋫€(gè)案。指定一個(gè)將活動(dòng)數(shù)據(jù)集中的每個(gè)個(gè)案分配到折中的數(shù)值變量。變量必須為數(shù)值,其值為從1到V的數(shù)字。如果此范圍中的任何值缺失,且位于任何拆分上(如果拆分文件有效),這將導(dǎo)致誤差。
3)為Mersenne扭曲器設(shè)置種子。設(shè)置種子允許您復(fù)制分析。使用此控件類(lèi)似于將“Mersenne扭曲器”設(shè)為活動(dòng)生成器并在“隨機(jī)數(shù)生成器”對(duì)話(huà)框中指定固定起始點(diǎn),兩者的重大差別在于在此對(duì)話(huà)框中設(shè)置種子會(huì)保留隨機(jī)數(shù)生成器的當(dāng)前狀態(tài)并在分析完成后恢復(fù)該狀態(tài)。
二、結(jié)果說(shuō)明(運(yùn)行后的結(jié)果解釋?zhuān)?
1、模型視圖:在“輸出”選項(xiàng)卡中選擇圖表和表時(shí),過(guò)程會(huì)在查看器中創(chuàng)建“最近鄰元素模型”對(duì)象。激活(雙擊)該對(duì)象,可獲得模型的交互式視圖。此模型視圖有2個(gè)面板窗口:◎第一個(gè)面板顯示模型概覽,稱(chēng)為主視圖?!虻诙€(gè)面板顯示兩種視圖類(lèi)型之一
2、特征空間:特征空間圖表是有關(guān)特征空間(如果存在3個(gè)以上特征,則為子空間)的交互式圖形。每條軸代表模型中的某個(gè)特征,圖表中的點(diǎn)位置顯示個(gè)案這些特征在培訓(xùn)和堅(jiān)持分區(qū)中的值。
3、變量重要性:通常,您將需要將建模工作專(zhuān)注于最重要的變量,并考慮刪除或忽略那些最不重要的變量。變量重要性圖表可以在模型估計(jì)中指示每個(gè)變量的相對(duì)重要性,從而幫助您實(shí)現(xiàn)這一點(diǎn)。由于它們是相對(duì)值,因此顯示的所有變量的值總和為1.0。變量重要性與模型精度無(wú)關(guān)。它只與每個(gè)變量在預(yù)測(cè)中的重要性有關(guān),而不涉及預(yù)測(cè)是否精確。
4、對(duì)等:該圖表顯示焦點(diǎn)個(gè)案及其在每個(gè)特征和目標(biāo)上k個(gè)最近鄰元素。它僅在“特征空間”圖表中選擇了焦點(diǎn)個(gè)案時(shí)可用。
5、最近鄰元素距離:該表只顯示焦點(diǎn)個(gè)案的k個(gè)最近鄰元素與距離。它僅當(dāng)在“變量”選項(xiàng)卡上指定了焦點(diǎn)個(gè)案標(biāo)識(shí)符時(shí)可用,且僅顯示由此變量標(biāo)識(shí)的焦點(diǎn)個(gè)案。
6、象限圖:該圖表顯示焦點(diǎn)個(gè)案及其在散點(diǎn)圖(點(diǎn)圖,取決于目標(biāo)的測(cè)量級(jí)別)上k個(gè)最近鄰元素。目標(biāo)在y軸上,刻度特征在x軸上,按特征劃分面板。它僅當(dāng)存在目標(biāo),且在“特征空間”圖表中選擇了焦點(diǎn)個(gè)案時(shí)可用。
7、特征選擇誤差日志:對(duì)于該圖表上的點(diǎn),其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標(biāo)的測(cè)量級(jí)別),x軸上列出模型的特征(加上x(chóng)軸左側(cè)的所有特征)。該圖表僅當(dāng)存在目標(biāo),且特征選擇有效時(shí)可用。
8、K選擇誤差日志:對(duì)于該圖表上的點(diǎn),其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標(biāo)的測(cè)量級(jí)別),x軸上為最近鄰元素?cái)?shù)目(k)。該圖表僅當(dāng)存在目標(biāo),且k選擇有效時(shí)可用。
9、分類(lèi)表:該表顯示按分區(qū)對(duì)目標(biāo)觀察與預(yù)測(cè)值的交叉分類(lèi)。它僅當(dāng)存在分類(lèi)目標(biāo)時(shí)可用。堅(jiān)持分區(qū)中的(缺失)行包含在目標(biāo)上具有缺失值的堅(jiān)持個(gè)案。這些個(gè)案對(duì)“堅(jiān)持樣本:整體百分比”有貢獻(xiàn),但對(duì)“正確百分比”無(wú)影響。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10