
SPSS分析技術(shù):判別分析
在數(shù)據(jù)處理中,有這樣一種情況:現(xiàn)在已經(jīng)有若干樣本被正確地分類了,但不清楚分類的依據(jù)是什么。同時(shí),未來(lái)還會(huì)有大量的未被分類的樣本,需要按照上述規(guī)則判定這些樣本的所屬類別。為此,需要根據(jù)已被正確分類的樣本及其屬性,進(jìn)行數(shù)據(jù)分析,找出影響樣本歸類的關(guān)鍵因素,甚至獲得一個(gè)判定系數(shù);然后依據(jù)判定系數(shù),對(duì)未來(lái)樣本進(jìn)行判別。判別分析是為了解決未來(lái)個(gè)案歸屬問(wèn)題而提出的一種數(shù)據(jù)分類技術(shù),它基于已有的分類個(gè)案尋求有效的判別規(guī)則,并借助判別規(guī)則對(duì)未來(lái)個(gè)案的歸屬進(jìn)行判定。
判別分析基于已有的個(gè)案及其分類情況(已有類別號(hào)),尋求能夠決定個(gè)案類別歸屬的判定函數(shù)式,然后借助判定函數(shù)來(lái)對(duì)未歸類個(gè)案實(shí)施判定。在針對(duì)個(gè)案的判別分析中,判別函數(shù)的質(zhì)量直接影響到判定的正確率,因此尋求優(yōu)質(zhì)的判定函數(shù)對(duì)于判別分析的正確與否至關(guān)重要。
判別分析的價(jià)值主要體現(xiàn)在兩個(gè)方面:
讓未來(lái)個(gè)案自動(dòng)歸類或預(yù)測(cè)其可能的類別;
修正當(dāng)前已歸類個(gè)案中的不嚴(yán)謹(jǐn)結(jié)論;
基于已分類的部分個(gè)案開展分析并最終獲得判別函數(shù)式,然后再依據(jù)判別函數(shù)式重新對(duì)已經(jīng)分類個(gè)案進(jìn)行判斷,可以檢查判別函數(shù)式的質(zhì)量。如果判定值與原始類別號(hào)的吻合度較高,達(dá)到85%以上,則表示判別函數(shù)式有效,那么可以借助這個(gè)判別函數(shù)式對(duì)未來(lái)個(gè)案進(jìn)行分類。與此同時(shí),還可進(jìn)一步檢查在已有個(gè)案中,判定值與原始類別號(hào)不能吻合的那些個(gè)案,看看它們的歸類是否存在問(wèn)題。
兩種判別方式
在SPSS中,判別分析的實(shí)現(xiàn)共有兩種思路,分別是費(fèi)舍爾(Fisher)判別法和貝葉斯(Bayes)判別法。
Fisher判別法
Fisher判別法是一種基于多維坐標(biāo)系的判定方式。如果待研究個(gè)案被分為K類,那么系統(tǒng)可創(chuàng)建一個(gè)K-1維的坐標(biāo)系,每個(gè)類別的中心都是坐標(biāo)系中的一個(gè)點(diǎn),被稱之為質(zhì)心點(diǎn)。每一個(gè)個(gè)案都可以表示為K-1個(gè)數(shù)值構(gòu)成的坐標(biāo)點(diǎn),這個(gè)坐標(biāo)點(diǎn)距離那個(gè)質(zhì)心點(diǎn)更近,就歸類到那個(gè)類別之中。
例如,將一個(gè)個(gè)案集分為三類,如果采用Fisher判別法就需要構(gòu)成一個(gè)二維的平面直角坐標(biāo)系,在這個(gè)坐標(biāo)系中有3個(gè)質(zhì)心點(diǎn)。執(zhí)行Fisher判別分析后,系統(tǒng)會(huì)創(chuàng)建兩個(gè)函數(shù)式,分別可以計(jì)算出每個(gè)個(gè)案對(duì)應(yīng)的X坐標(biāo)和Y坐標(biāo),然后通過(guò)計(jì)算這個(gè)點(diǎn)與每個(gè)質(zhì)心點(diǎn)的距離,找到與當(dāng)前點(diǎn)距離最小的質(zhì)心點(diǎn),從而確定當(dāng)前個(gè)案的歸屬。
Bayes判別法
Bayes判別法的基本思路是:直接為每個(gè)類別產(chǎn)生一個(gè)判別函數(shù)式。如果原始個(gè)案被分為K類,則直接產(chǎn)生K個(gè)函數(shù)式。對(duì)于待判定類別的個(gè)案,直接把該個(gè)案各屬性的取值代入到每個(gè)判別函數(shù)式中,那個(gè)函數(shù)式的值最大,該個(gè)案就被劃歸到那個(gè)類別中。
例如,某原始個(gè)案集被分為4類,則分別產(chǎn)生了Y1~Y4四個(gè)函數(shù)式。對(duì)于待分類的個(gè)案H,可以把H的各個(gè)屬性值分別代入到函數(shù)式Y(jié)1~Y4中,然后比較4個(gè)數(shù)值的大小。假設(shè)最終結(jié)果是Y3最大,那么這個(gè)個(gè)案就屬于第3類。
自變量篩選
與多元線性回歸分析相似,判別函數(shù)式也是一組包含多個(gè)自變量的多元線性方程。因此在設(shè)計(jì)判別函數(shù)式時(shí),同樣存在著對(duì)多個(gè)自變量的進(jìn)入判定與篩選問(wèn)題。有下面幾種自變量篩選的方式:
1、使用全部自變量法;把用戶提供的所有自變量都直接納入到判定函數(shù)式中,無(wú)論這些自變量對(duì)函數(shù)式的作用力到底有多大。這個(gè)方法是系統(tǒng)默認(rèn)的方法。
2、使用步進(jìn)方法;讓自變量逐個(gè)嘗試進(jìn)入函數(shù)式,如果進(jìn)入到函數(shù)式中的自變量符合條件,則保留在函數(shù)式中,否則,將從函數(shù)式中剔除。使用步進(jìn)方法,對(duì)自變量的篩選方式。使用步進(jìn)方法,對(duì)自變量的篩選方式,又包括以下幾種:
威爾克斯lambda值法:它是組內(nèi)平方和與總平方和之比,用于描述各組的均值是否存在顯著差別,當(dāng)所有觀測(cè)組的均值都相等時(shí),Wilks’lambda值為1,;當(dāng)組內(nèi)變異與總變異相比很小時(shí),表示組件變異較大,表示組間變異較大,系數(shù)接近于0。
未解釋方差法:它指把計(jì)算殘余最小的自變量?jī)?yōu)先納入到判別函數(shù)式中。
馬氏距離法:它把馬氏距離最大的自變量?jī)?yōu)先納入到判別函數(shù)式中。
最小F比率法:它把方差差異最大的自變量?jī)?yōu)先納入到判別函數(shù)中。
勞氏增值法:它把勞氏統(tǒng)計(jì)量V產(chǎn)生最大增值的自變量?jī)?yōu)先納入到判別函數(shù)中。
范例分析
現(xiàn)在有三種不同種類的花生,記錄它們的質(zhì)量、寬度和長(zhǎng)度,制成統(tǒng)計(jì)表。每種類型都有20個(gè)樣本,共60個(gè)樣本。根據(jù)不同種的花生特征,建立鑒別不同種花生的判別方程。
分析步驟
1、選擇菜單【分析】-【分類】-【判別】。將類型變量選為分組變量,將質(zhì)量、寬度和長(zhǎng)度選為自變量。自變量進(jìn)入方法選擇步進(jìn)法。
2、選擇【保存】項(xiàng),將預(yù)測(cè)組成員和判別分?jǐn)?shù)選中。點(diǎn)擊繼續(xù),然后點(diǎn)擊確定。
結(jié)果分析
1、輸出判別結(jié)果,如下圖所示,Dis_1表示判定類別,Dis1_1和Dis2_1分別表示將個(gè)案值代入到自動(dòng)生成的兩個(gè)判定函數(shù)中得到的結(jié)果。
2、步進(jìn)方式篩選自變量的情況;
從上圖可知,質(zhì)量、寬度和長(zhǎng)度都被納入到函數(shù)式中,且顯著性都為0.000,表示三個(gè)自變量的影響力是顯著的。
上圖是對(duì)三個(gè)變量步進(jìn)式進(jìn)入方程的結(jié)果:產(chǎn)生三個(gè)模型,序號(hào)為1~3。三種模型的Lambda值都遠(yuǎn)小于1,而且第三個(gè)模型的lambda值僅為0.001,顯著性為0.000。因此,從總體上說(shuō),這三個(gè)模型都是有效的,以第三個(gè)模型為最終結(jié)果。
3、典型判別式函數(shù)摘要;
在特征值表格中,本次判別分析共生成兩個(gè)判別函數(shù)式,函數(shù)式1和函數(shù)式2的特征值都大于1;下表的lambda值都遠(yuǎn)小于1,顯著性都為0.000,說(shuō)明兩個(gè)函數(shù)式的作用都非常強(qiáng)。
4、函數(shù)系數(shù)及組質(zhì)心坐標(biāo)表格
左邊的表格式生成的兩個(gè)函數(shù)式的系數(shù)。右邊的表格表示三個(gè)組質(zhì)心的坐標(biāo)。對(duì)于標(biāo)準(zhǔn)化的判別函數(shù)式,其自變量的系數(shù)可以直觀地反映該自變量對(duì)最終判定的影響力水平。但需要注意的是,在具體的應(yīng)用當(dāng)中,不能直接把個(gè)案的各個(gè)屬性的原始值代入到標(biāo)準(zhǔn)化函數(shù)式中使用。只有已經(jīng)標(biāo)準(zhǔn)化的自變量屬性值才可應(yīng)用于標(biāo)準(zhǔn)化的判別函數(shù)式。數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10