
SPSS分析技術(shù):二階聚類分析;為什么出現(xiàn)大學(xué)生“裸貸”業(yè)務(wù),因為放貸者知道貸款者還不起
今天將介紹一種智能聚類法,二階聚類法,在開始介紹之前,先解答很多人在后臺提出的一個疑問:那就是很多分析者發(fā)現(xiàn),對同一套數(shù)據(jù)應(yīng)用不同的聚類分析方法,其結(jié)果經(jīng)常是不一致的,甚至完全不一樣,到底哪個結(jié)果是“正確”的呢?
草堂君來解釋一下:聚類分析在眾多數(shù)據(jù)分析方法中,其應(yīng)用范圍和作用都是非常亮眼的表現(xiàn),但是聚類分析與其它數(shù)據(jù)分析方法之間還有一個重要的區(qū)別,就是聚類分析是一種探索性的分析方法,分析結(jié)果沒有絕對的對錯之分,只有相對的好壞區(qū)別。聚類分析的結(jié)果是否“漂亮”是由結(jié)果的“有用性”來決定的。如何判斷結(jié)果的有用性,有以下幾個主觀判斷的方向:
每個類別中個案的數(shù)量盡量接近。如果分析者聚類分析的目的不是為了發(fā)現(xiàn)異常值,那么總是希望每個類別中個案(記錄)的數(shù)量盡量接近。例如,聚類分析的結(jié)果是大量的記錄集中在一個類別里,這樣的聚類結(jié)果是完全沒有實用性的,相當(dāng)于沒有聚類。
不同類別間,各個因素(變量)間的差別應(yīng)該盡量的大。例如,對客戶群體進(jìn)行分類,不同類別的客戶在年齡、性別、收入等因素間的距離應(yīng)該盡量大??梢杂妙悇e作為區(qū)分水平,對各個因素(變量)做單因素方差分析,通過比較F值的大小來得到各個變量在本次聚類分析中的相對重要性,F(xiàn)值越大的變量,對聚類結(jié)果的影響也越大。如果很多變量的單因素方差分析結(jié)果是沒有顯著性差異,那么聚類分析的結(jié)果很可能是不太好的。
二階聚類法
二階聚類法又稱為兩步聚類法,是一種智能聚類方法,能夠用于海量和復(fù)雜類別結(jié)構(gòu)數(shù)據(jù)的聚類分析。與前面介紹的層次聚類法和K-均值聚類法相比,二階聚類法有著它們無法比擬的算法優(yōu)勢:
能夠用于二階聚類的變量既可以是連續(xù)型變量,也可以是離散型變量。這與層次聚類和K-均值聚類有很大不同,層次聚類需要區(qū)分變量的數(shù)據(jù)類型選擇距離公式,或?qū)﹄x散型變量進(jìn)行連續(xù)化處理,而K-均值聚類要求更嚴(yán)格,只能使用連續(xù)型數(shù)據(jù),這也需要對離散型數(shù)據(jù)做連續(xù)化處理。
相比傳統(tǒng)層次聚類和K-均值聚類算法,兩步聚類法占用的計算機內(nèi)存資源更少,能夠用于海量數(shù)據(jù)的處理且運算速度較快。
二階聚類能夠根據(jù)AIC和BIC這兩個統(tǒng)計量在不同類別間的變化,自動確定最佳的聚類數(shù)目,使聚類結(jié)果更為量化。
二階聚類的聚類過程分兩步完成。第一步是預(yù)聚類,在這一步中,軟件會對記錄(個案)進(jìn)行初步聚類,結(jié)果會給出分析者設(shè)置的最大分類數(shù);第二步是正式聚類,這步將對第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,確定最終類別數(shù)的標(biāo)準(zhǔn)是AIC或BIC這兩個統(tǒng)計量。
預(yù)聚類過程;預(yù)聚類過程是通過構(gòu)建和修改聚類特征樹來完成的。聚類特征樹可以想象成生活中的樹枝,葉子是末端,連接葉子的是葉枝,連接葉枝的是分支,鏈接分支的是樹干和根部。聚類特征樹的葉子、葉枝和分支都帶有自己的特征條目。每一片葉子代表一個子類,有多少片葉子就有多少個子類,葉枝和分支的特征條目是用來指引記錄(個案)進(jìn)入葉片(子類)的,這些特征條目包括連續(xù)變量的均值和方差以及離散型變量的頻數(shù)。每個記錄都從樹根部進(jìn)入聚類特征樹,然后依照分支和葉枝的特征信息指引找到最接近的葉片(子類),如果某個記錄進(jìn)入到葉片子類中,那么該葉片的聚類特征將從新計算;如果記錄最終沒有找到合適的葉片,那么該記錄就會自己成為一片葉子。當(dāng)所有記錄都通過以上方式進(jìn)入聚類特征樹,預(yù)聚類過程結(jié)束,葉片數(shù)量就是預(yù)聚類的聚類數(shù)量。
正式聚類過程;在正式聚類過程,將以預(yù)聚類的結(jié)果作為輸入,對其進(jìn)行再聚類,直到達(dá)成使用者指定的類別。因為這個階段所需處理的類別數(shù)已經(jīng)遠(yuǎn)小于記錄的數(shù)量,所以SPSS采用的是傳統(tǒng)的層次聚類法。在層次聚類的每個階段,SPSS都會計算每個類別的統(tǒng)計量,AIC或BIC,這兩個統(tǒng)計量的值越小,說明聚類的效果越好。二階聚類法最終會根據(jù)AIC和BIC的大小,以及類間距離來確定最優(yōu)的類別數(shù)量。
案例分析
上一篇中,我們介紹了聚類分析在客戶分級管理上的應(yīng)用,舉的例子是電信運營商對客戶群體依據(jù)各種情況下的通話時長來對他們進(jìn)行分類,發(fā)現(xiàn)不同類別客戶的通話特點,然后向不同的客戶類型推出不同的套餐服務(wù),提高運營效率,獲取更高的利潤。銀行同樣是客戶非常多的企業(yè),聚類分析在這個領(lǐng)域的應(yīng)用很多,下面的例子將會介紹。
開始案例分析之前先說個社會熱點事件。前段時間,很多大學(xué)女生赤裸身體拿著身份證的照片在網(wǎng)絡(luò)上大范圍傳播,由此揭開了大學(xué)校園里的裸貸黑幕。很多大學(xué)女生向互聯(lián)網(wǎng)金融機構(gòu)借款,無需抵押和擔(dān)保,只需赤裸身體,拿著身份證照幾張照片就能貸款成功,這些貸款的利息非常高,很多女生逾期無法償還本金和利息,被追債人員拿著裸照威脅父母替她們還錢,甚至有的追債人威脅女生“肉償”。從下面案例的聚類分析結(jié)果可以知道,大學(xué)生本來就是違約的高風(fēng)險群體,這些互聯(lián)網(wǎng)金融機構(gòu)大肆向大學(xué)生提供不需信用審核的高利息貸款的行為,與高利貸無異。
銀行有一套風(fēng)險評估的模型,可以對每個客戶進(jìn)行分類,為每一類客戶打上標(biāo)簽。比如你去辦貸款,會先叫你提供一大堆的材料,采集到你的各種信息以后,將信息放入模型里計算,從而確定處在哪個級別,然后根據(jù)這個級別決定是否給你貸款以及貸款的額度是多少。信用卡的申辦過程也是如此。當(dāng)然,之前中國的信貸業(yè)務(wù)曾經(jīng)走過一段多快好省的歲月,拉著你辦信用卡。現(xiàn)在有一份某銀行的1500個客戶的數(shù)據(jù)資料,記錄了客戶的包括年齡、教育程度、工齡、收入等9個變量信息。如下圖所示,其中有定距變量,也有定類變量。用二階聚類的方法對這些客戶進(jìn)行分類。
分析步驟
1、選擇菜單【分析】-【分類】-【兩步聚類】,在跳出的對話框中進(jìn)行如下操作,將“教育水平”和“是否曾經(jīng)違約”選入分類變量,將其它定距型變量選入連續(xù)變量;在聚類準(zhǔn)側(cè)中選擇BIC,也可以選擇AIC。
如果只有連續(xù)變量,距離測量可以使用歐氏距離,也可以使用對數(shù)似然值,使用歐式距離和傳統(tǒng)聚類方法的距離測量沒有太大區(qū)別。如果既有離散變量又有連續(xù)變量,那么就只能使用對數(shù)似然值來表述個案間的距離了。二階聚類會自動對連續(xù)型變量進(jìn)行標(biāo)準(zhǔn)化。聚類數(shù)目可以由軟件自動確定,也可以由分析者事先指定聚類數(shù)目。
2、點擊右上角的【選項】和【輸出】按鈕。在跳出的對話框中進(jìn)行如下操作。選中透視表,能夠在結(jié)果中輸出結(jié)果表格,否則只能在模型查看器中查看聚類結(jié)果。選中創(chuàng)建聚類成員變量,聚類結(jié)束后,將會新生成一列類別變量,標(biāo)明每個個案被歸屬的類別。
3、點解確定,輸出結(jié)果。
結(jié)果解釋
1、聚類過程表格。從后面的表格可以知道,軟件選擇的最佳聚類數(shù)是6,選擇的依據(jù)可以用聚類過程表格進(jìn)行說明。
確定最佳類別數(shù)的指標(biāo)是BIC值,這個數(shù)值越小代表聚類效果越好,但這不是唯一的標(biāo)準(zhǔn)。從結(jié)果可知,雖然聚類數(shù)達(dá)到設(shè)定的最大值15時,BIC值最小,但是BIC值在14類到15類的變化非常小,說明從14類再分成15類意義不大,因此還需要參考BIC變化量、BIC變化比率這兩個指標(biāo)。BIC 變化列的數(shù)據(jù)反映相鄰兩個結(jié)果的BIC值之差,發(fā)現(xiàn)BIC值在聚為4類和6類以后,BIC值的下降幅度有大幅減少,所以聚為4到6類是比較合理的聚類數(shù)據(jù)。距離測量比率表示不同聚類數(shù)目的聚類分析,兩種結(jié)果的最小類間距離比值,比值越大,說明繼續(xù)分類的意義不大??梢园l(fā)現(xiàn),距離測量比率的最大值出現(xiàn)在4類,表示聚成4類的最小類間距離是聚成5類的最小類間距離的1.669倍,說明5類的最小類間距離太小,沒有拆分的意義。綜上所述,軟件選擇4類為最佳聚類數(shù)。
2、聚類情況;表明每個類別的聚類數(shù)和比例。
3、類別的描述統(tǒng)計結(jié)果;連續(xù)型變量的結(jié)果顯示每個類別的平均值和標(biāo)準(zhǔn)差,分類型數(shù)據(jù)顯示不同類別的頻數(shù)分布。這些都能夠幫助分析者了解分類結(jié)果的有用性。限于篇幅,這里就聚類結(jié)果做過多解釋,如果每個類別的變量特征有顯著性差異,能夠幫助分析者做制定行動措施,那么聚類結(jié)果就是有用的。
4、聚類綜合結(jié)果查看器;鼠標(biāo)雙擊這兩個圖形區(qū)域,會跳出結(jié)果查看頁面,里面綜合了各種可視化的聚類結(jié)果。
5、可視化聚類結(jié)果;左圖是每個類別包含個案數(shù)和比例的餅圖;右圖是所有聚類變量在本次聚類分析過程的重要性,從結(jié)果可知,是否違約這個變量最重要;
下圖顯示的是每個類別包含個案的描述性統(tǒng)計結(jié)果。以第四個類別為例,這個類別的客戶基本上都違約了,他們在當(dāng)前公司的工作時間很短,家庭收入很低,年齡較小,在當(dāng)前居住地的居住年限短,負(fù)債數(shù)額不高,但負(fù)債收入比卻很高,以上客戶的特點和裸貸的大學(xué)生群體特征很相似。此外,這個類別的學(xué)歷水平分布很均勻,什么學(xué)歷的都有,說明違約與學(xué)歷之間沒有直接聯(lián)系。
總結(jié)一下
從以上結(jié)果可以看出,銀行信貸數(shù)據(jù)能夠很容易得出大學(xué)生的還貸違約概率極高,很多互聯(lián)網(wǎng)金融機構(gòu)作“裸貸”業(yè)務(wù),與沾血的“高利貸”如出一轍。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03