99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀SPSS分析技術(shù):二階聚類分析;為什么出現(xiàn)大學(xué)生“裸貸”業(yè)務(wù),因為放貸者知道貸款者還不起
SPSS分析技術(shù):二階聚類分析;為什么出現(xiàn)大學(xué)生“裸貸”業(yè)務(wù),因為放貸者知道貸款者還不起
2017-07-11
收藏

SPSS分析技術(shù):二階聚類分析;為什么出現(xiàn)大學(xué)生“裸貸”業(yè)務(wù),因為放貸者知道貸款者還不起

今天將介紹一種智能聚類法,二階聚類法,在開始介紹之前,先解答很多人在后臺提出的一個疑問:那就是很多分析者發(fā)現(xiàn),對同一套數(shù)據(jù)應(yīng)用不同的聚類分析方法,其結(jié)果經(jīng)常是不一致的,甚至完全不一樣,到底哪個結(jié)果是“正確”的呢?

草堂君來解釋一下:聚類分析在眾多數(shù)據(jù)分析方法中,其應(yīng)用范圍和作用都是非常亮眼的表現(xiàn),但是聚類分析與其它數(shù)據(jù)分析方法之間還有一個重要的區(qū)別,就是聚類分析是一種探索性的分析方法,分析結(jié)果沒有絕對的對錯之分,只有相對的好壞區(qū)別。聚類分析的結(jié)果是否“漂亮”是由結(jié)果的“有用性”來決定的。如何判斷結(jié)果的有用性,有以下幾個主觀判斷的方向:

每個類別中個案的數(shù)量盡量接近。如果分析者聚類分析的目的不是為了發(fā)現(xiàn)異常值,那么總是希望每個類別中個案(記錄)的數(shù)量盡量接近。例如,聚類分析的結(jié)果是大量的記錄集中在一個類別里,這樣的聚類結(jié)果是完全沒有實用性的,相當(dāng)于沒有聚類。

不同類別間,各個因素(變量)間的差別應(yīng)該盡量的大。例如,對客戶群體進(jìn)行分類,不同類別的客戶在年齡、性別、收入等因素間的距離應(yīng)該盡量大??梢杂妙悇e作為區(qū)分水平,對各個因素(變量)做單因素方差分析,通過比較F值的大小來得到各個變量在本次聚類分析中的相對重要性,F(xiàn)值越大的變量,對聚類結(jié)果的影響也越大。如果很多變量的單因素方差分析結(jié)果是沒有顯著性差異,那么聚類分析的結(jié)果很可能是不太好的。

二階聚類法

二階聚類法又稱為兩步聚類法,是一種智能聚類方法,能夠用于海量和復(fù)雜類別結(jié)構(gòu)數(shù)據(jù)的聚類分析。與前面介紹的層次聚類法和K-均值聚類法相比,二階聚類法有著它們無法比擬的算法優(yōu)勢:

能夠用于二階聚類的變量既可以是連續(xù)型變量,也可以是離散型變量。這與層次聚類和K-均值聚類有很大不同,層次聚類需要區(qū)分變量的數(shù)據(jù)類型選擇距離公式,或?qū)﹄x散型變量進(jìn)行連續(xù)化處理,而K-均值聚類要求更嚴(yán)格,只能使用連續(xù)型數(shù)據(jù),這也需要對離散型數(shù)據(jù)做連續(xù)化處理。

相比傳統(tǒng)層次聚類和K-均值聚類算法,兩步聚類法占用的計算機內(nèi)存資源更少,能夠用于海量數(shù)據(jù)的處理且運算速度較快。

二階聚類能夠根據(jù)AIC和BIC這兩個統(tǒng)計量在不同類別間的變化,自動確定最佳的聚類數(shù)目,使聚類結(jié)果更為量化。

二階聚類的聚類過程分兩步完成。第一步是預(yù)聚類,在這一步中,軟件會對記錄(個案)進(jìn)行初步聚類,結(jié)果會給出分析者設(shè)置的最大分類數(shù);第二步是正式聚類,這步將對第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,確定最終類別數(shù)的標(biāo)準(zhǔn)是AIC或BIC這兩個統(tǒng)計量。

預(yù)聚類過程;預(yù)聚類過程是通過構(gòu)建和修改聚類特征樹來完成的。聚類特征樹可以想象成生活中的樹枝,葉子是末端,連接葉子的是葉枝,連接葉枝的是分支,鏈接分支的是樹干和根部。聚類特征樹的葉子、葉枝和分支都帶有自己的特征條目。每一片葉子代表一個子類,有多少片葉子就有多少個子類,葉枝和分支的特征條目是用來指引記錄(個案)進(jìn)入葉片(子類)的,這些特征條目包括連續(xù)變量的均值和方差以及離散型變量的頻數(shù)。每個記錄都從樹根部進(jìn)入聚類特征樹,然后依照分支和葉枝的特征信息指引找到最接近的葉片(子類),如果某個記錄進(jìn)入到葉片子類中,那么該葉片的聚類特征將從新計算;如果記錄最終沒有找到合適的葉片,那么該記錄就會自己成為一片葉子。當(dāng)所有記錄都通過以上方式進(jìn)入聚類特征樹,預(yù)聚類過程結(jié)束,葉片數(shù)量就是預(yù)聚類的聚類數(shù)量。

正式聚類過程;在正式聚類過程,將以預(yù)聚類的結(jié)果作為輸入,對其進(jìn)行再聚類,直到達(dá)成使用者指定的類別。因為這個階段所需處理的類別數(shù)已經(jīng)遠(yuǎn)小于記錄的數(shù)量,所以SPSS采用的是傳統(tǒng)的層次聚類法。在層次聚類的每個階段,SPSS都會計算每個類別的統(tǒng)計量,AIC或BIC,這兩個統(tǒng)計量的值越小,說明聚類的效果越好。二階聚類法最終會根據(jù)AIC和BIC的大小,以及類間距離來確定最優(yōu)的類別數(shù)量。

案例分析

上一篇中,我們介紹了聚類分析在客戶分級管理上的應(yīng)用,舉的例子是電信運營商對客戶群體依據(jù)各種情況下的通話時長來對他們進(jìn)行分類,發(fā)現(xiàn)不同類別客戶的通話特點,然后向不同的客戶類型推出不同的套餐服務(wù),提高運營效率,獲取更高的利潤。銀行同樣是客戶非常多的企業(yè),聚類分析在這個領(lǐng)域的應(yīng)用很多,下面的例子將會介紹。

開始案例分析之前先說個社會熱點事件。前段時間,很多大學(xué)女生赤裸身體拿著身份證的照片在網(wǎng)絡(luò)上大范圍傳播,由此揭開了大學(xué)校園里的裸貸黑幕。很多大學(xué)女生向互聯(lián)網(wǎng)金融機構(gòu)借款,無需抵押和擔(dān)保,只需赤裸身體,拿著身份證照幾張照片就能貸款成功,這些貸款的利息非常高,很多女生逾期無法償還本金和利息,被追債人員拿著裸照威脅父母替她們還錢,甚至有的追債人威脅女生“肉償”。從下面案例的聚類分析結(jié)果可以知道,大學(xué)生本來就是違約的高風(fēng)險群體,這些互聯(lián)網(wǎng)金融機構(gòu)大肆向大學(xué)生提供不需信用審核的高利息貸款的行為,與高利貸無異。

銀行有一套風(fēng)險評估的模型,可以對每個客戶進(jìn)行分類,為每一類客戶打上標(biāo)簽。比如你去辦貸款,會先叫你提供一大堆的材料,采集到你的各種信息以后,將信息放入模型里計算,從而確定處在哪個級別,然后根據(jù)這個級別決定是否給你貸款以及貸款的額度是多少。信用卡的申辦過程也是如此。當(dāng)然,之前中國的信貸業(yè)務(wù)曾經(jīng)走過一段多快好省的歲月,拉著你辦信用卡。現(xiàn)在有一份某銀行的1500個客戶的數(shù)據(jù)資料,記錄了客戶的包括年齡、教育程度、工齡、收入等9個變量信息。如下圖所示,其中有定距變量,也有定類變量。用二階聚類的方法對這些客戶進(jìn)行分類。

分析步驟

1、選擇菜單【分析】-【分類】-【兩步聚類】,在跳出的對話框中進(jìn)行如下操作,將“教育水平”和“是否曾經(jīng)違約”選入分類變量,將其它定距型變量選入連續(xù)變量;在聚類準(zhǔn)側(cè)中選擇BIC,也可以選擇AIC。 

如果只有連續(xù)變量,距離測量可以使用歐氏距離,也可以使用對數(shù)似然值,使用歐式距離和傳統(tǒng)聚類方法的距離測量沒有太大區(qū)別。如果既有離散變量又有連續(xù)變量,那么就只能使用對數(shù)似然值來表述個案間的距離了。二階聚類會自動對連續(xù)型變量進(jìn)行標(biāo)準(zhǔn)化。聚類數(shù)目可以由軟件自動確定,也可以由分析者事先指定聚類數(shù)目。

2、點擊右上角的【選項】和【輸出】按鈕。在跳出的對話框中進(jìn)行如下操作。選中透視表,能夠在結(jié)果中輸出結(jié)果表格,否則只能在模型查看器中查看聚類結(jié)果。選中創(chuàng)建聚類成員變量,聚類結(jié)束后,將會新生成一列類別變量,標(biāo)明每個個案被歸屬的類別。

3、點解確定,輸出結(jié)果。

結(jié)果解釋

1、聚類過程表格。從后面的表格可以知道,軟件選擇的最佳聚類數(shù)是6,選擇的依據(jù)可以用聚類過程表格進(jìn)行說明。

確定最佳類別數(shù)的指標(biāo)是BIC值,這個數(shù)值越小代表聚類效果越好,但這不是唯一的標(biāo)準(zhǔn)。從結(jié)果可知,雖然聚類數(shù)達(dá)到設(shè)定的最大值15時,BIC值最小,但是BIC值在14類到15類的變化非常小,說明從14類再分成15類意義不大,因此還需要參考BIC變化量、BIC變化比率這兩個指標(biāo)。BIC 變化列的數(shù)據(jù)反映相鄰兩個結(jié)果的BIC值之差,發(fā)現(xiàn)BIC值在聚為4類和6類以后,BIC值的下降幅度有大幅減少,所以聚為4到6類是比較合理的聚類數(shù)據(jù)。距離測量比率表示不同聚類數(shù)目的聚類分析,兩種結(jié)果的最小類間距離比值,比值越大,說明繼續(xù)分類的意義不大??梢园l(fā)現(xiàn),距離測量比率的最大值出現(xiàn)在4類,表示聚成4類的最小類間距離是聚成5類的最小類間距離的1.669倍,說明5類的最小類間距離太小,沒有拆分的意義。綜上所述,軟件選擇4類為最佳聚類數(shù)。

2、聚類情況;表明每個類別的聚類數(shù)和比例。

3、類別的描述統(tǒng)計結(jié)果;連續(xù)型變量的結(jié)果顯示每個類別的平均值和標(biāo)準(zhǔn)差,分類型數(shù)據(jù)顯示不同類別的頻數(shù)分布。這些都能夠幫助分析者了解分類結(jié)果的有用性。限于篇幅,這里就聚類結(jié)果做過多解釋,如果每個類別的變量特征有顯著性差異,能夠幫助分析者做制定行動措施,那么聚類結(jié)果就是有用的。

4、聚類綜合結(jié)果查看器;鼠標(biāo)雙擊這兩個圖形區(qū)域,會跳出結(jié)果查看頁面,里面綜合了各種可視化的聚類結(jié)果。

5、可視化聚類結(jié)果;左圖是每個類別包含個案數(shù)和比例的餅圖;右圖是所有聚類變量在本次聚類分析過程的重要性,從結(jié)果可知,是否違約這個變量最重要;

下圖顯示的是每個類別包含個案的描述性統(tǒng)計結(jié)果。以第四個類別為例,這個類別的客戶基本上都違約了,他們在當(dāng)前公司的工作時間很短,家庭收入很低,年齡較小,在當(dāng)前居住地的居住年限短,負(fù)債數(shù)額不高,但負(fù)債收入比卻很高,以上客戶的特點和裸貸的大學(xué)生群體特征很相似。此外,這個類別的學(xué)歷水平分布很均勻,什么學(xué)歷的都有,說明違約與學(xué)歷之間沒有直接聯(lián)系。

總結(jié)一下

從以上結(jié)果可以看出,銀行信貸數(shù)據(jù)能夠很容易得出大學(xué)生的還貸違約概率極高,很多互聯(lián)網(wǎng)金融機構(gòu)作“裸貸”業(yè)務(wù),與沾血的“高利貸”如出一轍。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }