
SPSS分類分析:最近鄰元素分析
一、最近鄰元素分析(分析-分類-最近鄰元素)
1、概念:根據(jù)個(gè)案間的相似性來對個(gè)案進(jìn)行分類。類似個(gè)案相互靠近,而不同個(gè)案相互遠(yuǎn)離。因此,通過兩個(gè)個(gè)案之間的距離可以測量他們的相似性。相互靠近的個(gè)案稱為“鄰元素?!碑?dāng)出現(xiàn)新個(gè)案(保持)時(shí),將計(jì)算它與模型中每個(gè)個(gè)案之間的距離。計(jì)算得出最相似個(gè)案–最近鄰元素–的分類,并將新個(gè)案放入包含最多最近鄰元素的類別中。
2、變量:(分析-分類-最近鄰元素-變量)
◎目標(biāo)(可選)。如果未指定目標(biāo)(因變量或響應(yīng)),則過程僅查找k個(gè)最近鄰元素–而不會執(zhí)行任何分類或預(yù)測。◎標(biāo)準(zhǔn)化刻度特征。標(biāo)準(zhǔn)化特征具有相同的值范圍,這可改進(jìn)估計(jì)算法的性能。使用經(jīng)調(diào)整后的標(biāo)準(zhǔn)化[2*(x min)/(max min)] 1。調(diào)整后的標(biāo)準(zhǔn)化值介于1和1之間。◎焦點(diǎn)個(gè)案標(biāo)識(可選)。這可以標(biāo)記感興趣的個(gè)案。例如,研究員希望確定學(xué)區(qū)的測驗(yàn)分?jǐn)?shù)–焦點(diǎn)個(gè)案–是否與類似學(xué)區(qū)的測驗(yàn)分?jǐn)?shù)相當(dāng)。他使用最近鄰元素分析來查找在給定特征組方面最相似的學(xué)區(qū)。然后,他將焦點(diǎn)學(xué)區(qū)的測驗(yàn)分?jǐn)?shù)與最近鄰學(xué)區(qū)的分?jǐn)?shù)進(jìn)行比較。◎個(gè)案標(biāo)簽(可選)。在特征空間圖表、對等圖表和象限圖中使用這些值來標(biāo)記個(gè)案。
3、相鄰元素:(分析-分類-最近鄰元素-相鄰元素)
1)最近鄰元素的數(shù)目(k)。指定最近鄰元素的數(shù)目。注意,使用大量的鄰元素不一定會得到更準(zhǔn)確的模型。2)距離計(jì)算。該度規(guī)用于指定在測量個(gè)案相似性中使用的距離度規(guī)?!駿uclidean度規(guī)。兩個(gè)個(gè)案x和y之間的距離,為個(gè)案值之間的平方差在所有維度上之和的平方根?!虺鞘薪謪^(qū)度規(guī)。兩個(gè)個(gè)案之間的距離是個(gè)案值之間絕對差在所有維度上之和。又稱為Manhattan距離。
如果在“變量”選項(xiàng)卡中指定了目標(biāo),使用“特征”選項(xiàng)卡可以為特征選擇請求或指定選項(xiàng)。默認(rèn)情況下,特征選擇會考慮所有特征,但可以選擇特征子集以強(qiáng)制納入模型。
中止準(zhǔn)則。在每一步上,如果添加特征可以使誤差最小(計(jì)算為分類目標(biāo)的誤差率和刻度目標(biāo)的平方和誤差),則考慮將其納入模型中。繼續(xù)向前選擇,直到滿足指定的條件?!蛑付ǖ?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征數(shù)目。除了那些強(qiáng)制納入模型的特征外,算法還會添加固定數(shù)目的特征。指定一個(gè)正整數(shù)。減少所選擇的數(shù)目值可以創(chuàng)建更簡約的模型,但存在缺失重要特征的風(fēng)險(xiǎn)。增加所選擇的數(shù)目值可以涵蓋所有重要特征,但又存在因特征添加而增加模型誤差的風(fēng)險(xiǎn)?!蚪^對誤差比率的最小變化。當(dāng)絕對誤差比率變化表明無法通過添加更多特征來進(jìn)一步改進(jìn)模型時(shí),算法會停止。指定一個(gè)正數(shù)。減少最小變化值將傾向于包含更多特征,但存在包含對模型價(jià)值不大的特征的風(fēng)險(xiǎn)。增加最小變化值將傾向于排除更多特征,但存在丟失對模型較重要的特征的風(fēng)險(xiǎn)。最小變化的“最佳”值將取決于您的數(shù)據(jù)和具體應(yīng)用。請參見輸出中的“特征選擇誤差日志”,以幫助您評估哪些特征最重要。
使用“分區(qū)”選項(xiàng)卡可以將數(shù)據(jù)集劃分為培訓(xùn)和堅(jiān)持集,并在適當(dāng)時(shí)候?qū)€(gè)案分配給交叉驗(yàn)證折。
1)訓(xùn)練和堅(jiān)持分區(qū)。此組指定將活動(dòng)數(shù)據(jù)集劃分為訓(xùn)練樣本或堅(jiān)持樣本的方法。訓(xùn)練樣本包含用于訓(xùn)練最近鄰元素模型的數(shù)據(jù)記錄;數(shù)據(jù)集中的某些個(gè)案百分比必須分配給訓(xùn)練樣本以獲得一個(gè)模型。堅(jiān)持樣本是用于評估最終模型的獨(dú)立數(shù)據(jù)記錄集;堅(jiān)持樣本的誤差給出一個(gè)模型預(yù)測能力的“真實(shí)”估計(jì)值,因?yàn)閳?jiān)持個(gè)案不用于構(gòu)建模型?!螂S機(jī)分配個(gè)案到分區(qū)。指定分配給訓(xùn)練樣本的個(gè)案百分比。其余的分配給堅(jiān)持樣本?!蚴褂米兞糠峙鋫€(gè)案。指定一個(gè)將活動(dòng)數(shù)據(jù)集中的每個(gè)個(gè)案分配到訓(xùn)練或堅(jiān)持樣本中的數(shù)值變量。變量為正值的個(gè)案被分配到訓(xùn)練樣本中,值為0或負(fù)值的個(gè)案被分配到堅(jiān)持樣本中。具有系統(tǒng)缺失值的個(gè)案會從分析中排除。分區(qū)變量的任何用戶缺失值始終視為有效。
2)交叉驗(yàn)證折。V折交叉驗(yàn)證用于確定“最佳”鄰元素?cái)?shù)目。因性能原因,它無法與特征選擇結(jié)合使用。交叉驗(yàn)證將樣本劃分為許多子樣本,或折。然后,生成最近鄰元素模型,并依次排除每個(gè)子樣本中的數(shù)據(jù)。第一個(gè)模型基于第一個(gè)樣本折的個(gè)案之外的所有個(gè)案,第二個(gè)模型基于第二個(gè)樣本折的個(gè)案之外的所有個(gè)案,依此類推。對于每個(gè)模型,估計(jì)其錯(cuò)誤的方法是將模型應(yīng)用于生成它時(shí)所排除的子樣本?!白罴选弊罱徳?cái)?shù)為在折中產(chǎn)生最小誤差的數(shù)量?!螂S機(jī)分配個(gè)案到折。指定應(yīng)當(dāng)用于交叉驗(yàn)證的折數(shù)。該過程將個(gè)案隨機(jī)分配到折,從1編號到V(折數(shù))。◎使用變量分配個(gè)案。指定一個(gè)將活動(dòng)數(shù)據(jù)集中的每個(gè)個(gè)案分配到折中的數(shù)值變量。變量必須為數(shù)值,其值為從1到V的數(shù)字。如果此范圍中的任何值缺失,且位于任何拆分上(如果拆分文件有效),這將導(dǎo)致誤差。
3)為Mersenne扭曲器設(shè)置種子。設(shè)置種子允許您復(fù)制分析。使用此控件類似于將“Mersenne扭曲器”設(shè)為活動(dòng)生成器并在“隨機(jī)數(shù)生成器”對話框中指定固定起始點(diǎn),兩者的重大差別在于在此對話框中設(shè)置種子會保留隨機(jī)數(shù)生成器的當(dāng)前狀態(tài)并在分析完成后恢復(fù)該狀態(tài)。
二、結(jié)果說明(運(yùn)行后的結(jié)果解釋)
1、模型視圖:在“輸出”選項(xiàng)卡中選擇圖表和表時(shí),過程會在查看器中創(chuàng)建“最近鄰元素模型”對象。激活(雙擊)該對象,可獲得模型的交互式視圖。此模型視圖有2個(gè)面板窗口:◎第一個(gè)面板顯示模型概覽,稱為主視圖?!虻诙€(gè)面板顯示兩種視圖類型之一
2、特征空間:特征空間圖表是有關(guān)特征空間(如果存在3個(gè)以上特征,則為子空間)的交互式圖形。每條軸代表模型中的某個(gè)特征,圖表中的點(diǎn)位置顯示個(gè)案這些特征在培訓(xùn)和堅(jiān)持分區(qū)中的值。
3、變量重要性:通常,您將需要將建模工作專注于最重要的變量,并考慮刪除或忽略那些最不重要的變量。變量重要性圖表可以在模型估計(jì)中指示每個(gè)變量的相對重要性,從而幫助您實(shí)現(xiàn)這一點(diǎn)。由于它們是相對值,因此顯示的所有變量的值總和為1.0。變量重要性與模型精度無關(guān)。它只與每個(gè)變量在預(yù)測中的重要性有關(guān),而不涉及預(yù)測是否精確。
4、對等:該圖表顯示焦點(diǎn)個(gè)案及其在每個(gè)特征和目標(biāo)上k個(gè)最近鄰元素。它僅在“特征空間”圖表中選擇了焦點(diǎn)個(gè)案時(shí)可用。
5、最近鄰元素距離:該表只顯示焦點(diǎn)個(gè)案的k個(gè)最近鄰元素與距離。它僅當(dāng)在“變量”選項(xiàng)卡上指定了焦點(diǎn)個(gè)案標(biāo)識符時(shí)可用,且僅顯示由此變量標(biāo)識的焦點(diǎn)個(gè)案。
6、象限圖:該圖表顯示焦點(diǎn)個(gè)案及其在散點(diǎn)圖(點(diǎn)圖,取決于目標(biāo)的測量級別)上k個(gè)最近鄰元素。目標(biāo)在y軸上,刻度特征在x軸上,按特征劃分面板。它僅當(dāng)存在目標(biāo),且在“特征空間”圖表中選擇了焦點(diǎn)個(gè)案時(shí)可用。
7、特征選擇誤差日志:對于該圖表上的點(diǎn),其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標(biāo)的測量級別),x軸上列出模型的特征(加上x軸左側(cè)的所有特征)。該圖表僅當(dāng)存在目標(biāo),且特征選擇有效時(shí)可用。
8、K選擇誤差日志:對于該圖表上的點(diǎn),其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標(biāo)的測量級別),x軸上為最近鄰元素?cái)?shù)目(k)。該圖表僅當(dāng)存在目標(biāo),且k選擇有效時(shí)可用。
9、分類表:該表顯示按分區(qū)對目標(biāo)觀察與預(yù)測值的交叉分類。它僅當(dāng)存在分類目標(biāo)時(shí)可用。堅(jiān)持分區(qū)中的(缺失)行包含在目標(biāo)上具有缺失值的堅(jiān)持個(gè)案。這些個(gè)案對“堅(jiān)持樣本:整體百分比”有貢獻(xiàn),但對“正確百分比”無影響。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03