
SPSS分析技術(shù):二階聚類分析;為什么出現(xiàn)大學生“裸貸”業(yè)務,因為放貸者知道貸款者還不起
今天將介紹一種智能聚類法,二階聚類法,在開始介紹之前,先解答很多人在后臺提出的一個疑問:那就是很多分析者發(fā)現(xiàn),對同一套數(shù)據(jù)應用不同的聚類分析方法,其結(jié)果經(jīng)常是不一致的,甚至完全不一樣,到底哪個結(jié)果是“正確”的呢?
草堂君來解釋一下:聚類分析在眾多數(shù)據(jù)分析方法中,其應用范圍和作用都是非常亮眼的表現(xiàn),但是聚類分析與其它數(shù)據(jù)分析方法之間還有一個重要的區(qū)別,就是聚類分析是一種探索性的分析方法,分析結(jié)果沒有絕對的對錯之分,只有相對的好壞區(qū)別。聚類分析的結(jié)果是否“漂亮”是由結(jié)果的“有用性”來決定的。如何判斷結(jié)果的有用性,有以下幾個主觀判斷的方向:
每個類別中個案的數(shù)量盡量接近。如果分析者聚類分析的目的不是為了發(fā)現(xiàn)異常值,那么總是希望每個類別中個案(記錄)的數(shù)量盡量接近。例如,聚類分析的結(jié)果是大量的記錄集中在一個類別里,這樣的聚類結(jié)果是完全沒有實用性的,相當于沒有聚類。
不同類別間,各個因素(變量)間的差別應該盡量的大。例如,對客戶群體進行分類,不同類別的客戶在年齡、性別、收入等因素間的距離應該盡量大??梢杂妙悇e作為區(qū)分水平,對各個因素(變量)做單因素方差分析,通過比較F值的大小來得到各個變量在本次聚類分析中的相對重要性,F(xiàn)值越大的變量,對聚類結(jié)果的影響也越大。如果很多變量的單因素方差分析結(jié)果是沒有顯著性差異,那么聚類分析的結(jié)果很可能是不太好的。
二階聚類法
二階聚類法又稱為兩步聚類法,是一種智能聚類方法,能夠用于海量和復雜類別結(jié)構(gòu)數(shù)據(jù)的聚類分析。與前面介紹的層次聚類法和K-均值聚類法相比,二階聚類法有著它們無法比擬的算法優(yōu)勢:
能夠用于二階聚類的變量既可以是連續(xù)型變量,也可以是離散型變量。這與層次聚類和K-均值聚類有很大不同,層次聚類需要區(qū)分變量的數(shù)據(jù)類型選擇距離公式,或?qū)﹄x散型變量進行連續(xù)化處理,而K-均值聚類要求更嚴格,只能使用連續(xù)型數(shù)據(jù),這也需要對離散型數(shù)據(jù)做連續(xù)化處理。
相比傳統(tǒng)層次聚類和K-均值聚類算法,兩步聚類法占用的計算機內(nèi)存資源更少,能夠用于海量數(shù)據(jù)的處理且運算速度較快。
二階聚類能夠根據(jù)AIC和BIC這兩個統(tǒng)計量在不同類別間的變化,自動確定最佳的聚類數(shù)目,使聚類結(jié)果更為量化。
二階聚類的聚類過程分兩步完成。第一步是預聚類,在這一步中,軟件會對記錄(個案)進行初步聚類,結(jié)果會給出分析者設置的最大分類數(shù);第二步是正式聚類,這步將對第一步完成的初步聚類進行再聚類并確定最終的聚類方案,確定最終類別數(shù)的標準是AIC或BIC這兩個統(tǒng)計量。
預聚類過程;預聚類過程是通過構(gòu)建和修改聚類特征樹來完成的。聚類特征樹可以想象成生活中的樹枝,葉子是末端,連接葉子的是葉枝,連接葉枝的是分支,鏈接分支的是樹干和根部。聚類特征樹的葉子、葉枝和分支都帶有自己的特征條目。每一片葉子代表一個子類,有多少片葉子就有多少個子類,葉枝和分支的特征條目是用來指引記錄(個案)進入葉片(子類)的,這些特征條目包括連續(xù)變量的均值和方差以及離散型變量的頻數(shù)。每個記錄都從樹根部進入聚類特征樹,然后依照分支和葉枝的特征信息指引找到最接近的葉片(子類),如果某個記錄進入到葉片子類中,那么該葉片的聚類特征將從新計算;如果記錄最終沒有找到合適的葉片,那么該記錄就會自己成為一片葉子。當所有記錄都通過以上方式進入聚類特征樹,預聚類過程結(jié)束,葉片數(shù)量就是預聚類的聚類數(shù)量。
正式聚類過程;在正式聚類過程,將以預聚類的結(jié)果作為輸入,對其進行再聚類,直到達成使用者指定的類別。因為這個階段所需處理的類別數(shù)已經(jīng)遠小于記錄的數(shù)量,所以SPSS采用的是傳統(tǒng)的層次聚類法。在層次聚類的每個階段,SPSS都會計算每個類別的統(tǒng)計量,AIC或BIC,這兩個統(tǒng)計量的值越小,說明聚類的效果越好。二階聚類法最終會根據(jù)AIC和BIC的大小,以及類間距離來確定最優(yōu)的類別數(shù)量。
案例分析
上一篇中,我們介紹了聚類分析在客戶分級管理上的應用,舉的例子是電信運營商對客戶群體依據(jù)各種情況下的通話時長來對他們進行分類,發(fā)現(xiàn)不同類別客戶的通話特點,然后向不同的客戶類型推出不同的套餐服務,提高運營效率,獲取更高的利潤。銀行同樣是客戶非常多的企業(yè),聚類分析在這個領域的應用很多,下面的例子將會介紹。
開始案例分析之前先說個社會熱點事件。前段時間,很多大學女生赤裸身體拿著身份證的照片在網(wǎng)絡上大范圍傳播,由此揭開了大學校園里的裸貸黑幕。很多大學女生向互聯(lián)網(wǎng)金融機構(gòu)借款,無需抵押和擔保,只需赤裸身體,拿著身份證照幾張照片就能貸款成功,這些貸款的利息非常高,很多女生逾期無法償還本金和利息,被追債人員拿著裸照威脅父母替她們還錢,甚至有的追債人威脅女生“肉償”。從下面案例的聚類分析結(jié)果可以知道,大學生本來就是違約的高風險群體,這些互聯(lián)網(wǎng)金融機構(gòu)大肆向大學生提供不需信用審核的高利息貸款的行為,與高利貸無異。
銀行有一套風險評估的模型,可以對每個客戶進行分類,為每一類客戶打上標簽。比如你去辦貸款,會先叫你提供一大堆的材料,采集到你的各種信息以后,將信息放入模型里計算,從而確定處在哪個級別,然后根據(jù)這個級別決定是否給你貸款以及貸款的額度是多少。信用卡的申辦過程也是如此。當然,之前中國的信貸業(yè)務曾經(jīng)走過一段多快好省的歲月,拉著你辦信用卡?,F(xiàn)在有一份某銀行的1500個客戶的數(shù)據(jù)資料,記錄了客戶的包括年齡、教育程度、工齡、收入等9個變量信息。如下圖所示,其中有定距變量,也有定類變量。用二階聚類的方法對這些客戶進行分類。
分析步驟
1、選擇菜單【分析】-【分類】-【兩步聚類】,在跳出的對話框中進行如下操作,將“教育水平”和“是否曾經(jīng)違約”選入分類變量,將其它定距型變量選入連續(xù)變量;在聚類準側(cè)中選擇BIC,也可以選擇AIC。
如果只有連續(xù)變量,距離測量可以使用歐氏距離,也可以使用對數(shù)似然值,使用歐式距離和傳統(tǒng)聚類方法的距離測量沒有太大區(qū)別。如果既有離散變量又有連續(xù)變量,那么就只能使用對數(shù)似然值來表述個案間的距離了。二階聚類會自動對連續(xù)型變量進行標準化。聚類數(shù)目可以由軟件自動確定,也可以由分析者事先指定聚類數(shù)目。
2、點擊右上角的【選項】和【輸出】按鈕。在跳出的對話框中進行如下操作。選中透視表,能夠在結(jié)果中輸出結(jié)果表格,否則只能在模型查看器中查看聚類結(jié)果。選中創(chuàng)建聚類成員變量,聚類結(jié)束后,將會新生成一列類別變量,標明每個個案被歸屬的類別。
3、點解確定,輸出結(jié)果。
結(jié)果解釋
1、聚類過程表格。從后面的表格可以知道,軟件選擇的最佳聚類數(shù)是6,選擇的依據(jù)可以用聚類過程表格進行說明。
確定最佳類別數(shù)的指標是BIC值,這個數(shù)值越小代表聚類效果越好,但這不是唯一的標準。從結(jié)果可知,雖然聚類數(shù)達到設定的最大值15時,BIC值最小,但是BIC值在14類到15類的變化非常小,說明從14類再分成15類意義不大,因此還需要參考BIC變化量、BIC變化比率這兩個指標。BIC 變化列的數(shù)據(jù)反映相鄰兩個結(jié)果的BIC值之差,發(fā)現(xiàn)BIC值在聚為4類和6類以后,BIC值的下降幅度有大幅減少,所以聚為4到6類是比較合理的聚類數(shù)據(jù)。距離測量比率表示不同聚類數(shù)目的聚類分析,兩種結(jié)果的最小類間距離比值,比值越大,說明繼續(xù)分類的意義不大??梢园l(fā)現(xiàn),距離測量比率的最大值出現(xiàn)在4類,表示聚成4類的最小類間距離是聚成5類的最小類間距離的1.669倍,說明5類的最小類間距離太小,沒有拆分的意義。綜上所述,軟件選擇4類為最佳聚類數(shù)。
2、聚類情況;表明每個類別的聚類數(shù)和比例。
3、類別的描述統(tǒng)計結(jié)果;連續(xù)型變量的結(jié)果顯示每個類別的平均值和標準差,分類型數(shù)據(jù)顯示不同類別的頻數(shù)分布。這些都能夠幫助分析者了解分類結(jié)果的有用性。限于篇幅,這里就聚類結(jié)果做過多解釋,如果每個類別的變量特征有顯著性差異,能夠幫助分析者做制定行動措施,那么聚類結(jié)果就是有用的。
4、聚類綜合結(jié)果查看器;鼠標雙擊這兩個圖形區(qū)域,會跳出結(jié)果查看頁面,里面綜合了各種可視化的聚類結(jié)果。
5、可視化聚類結(jié)果;左圖是每個類別包含個案數(shù)和比例的餅圖;右圖是所有聚類變量在本次聚類分析過程的重要性,從結(jié)果可知,是否違約這個變量最重要;
下圖顯示的是每個類別包含個案的描述性統(tǒng)計結(jié)果。以第四個類別為例,這個類別的客戶基本上都違約了,他們在當前公司的工作時間很短,家庭收入很低,年齡較小,在當前居住地的居住年限短,負債數(shù)額不高,但負債收入比卻很高,以上客戶的特點和裸貸的大學生群體特征很相似。此外,這個類別的學歷水平分布很均勻,什么學歷的都有,說明違約與學歷之間沒有直接聯(lián)系。
總結(jié)一下
從以上結(jié)果可以看出,銀行信貸數(shù)據(jù)能夠很容易得出大學生的還貸違約概率極高,很多互聯(lián)網(wǎng)金融機構(gòu)作“裸貸”業(yè)務,與沾血的“高利貸”如出一轍。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10