
小編今天跟大家分享的文章是關于python基于主成分分析的客戶信貸評級實戰(zhàn)的,大家在學習python過程中要注意理論學習與實際案例操作相結(jié)合,這樣才能更好地掌握。好了,跟小編一起來看具體內(nèi)容吧!
文章來源: 早起Python
作者:蘿卜
本文是Python商業(yè)數(shù)據(jù)挖掘實戰(zhàn)的第5篇
大樣本的數(shù)據(jù)集固然提供了豐富的信息,但也在一定程度上增加了問題的復雜性。如果我們分別對每個指標進行分析,往往得到的結(jié)論是孤立的,并不能完全利用數(shù)據(jù)蘊含的信息。但是盲目的去減少我們分析的指標,又會損失很多有用的信息。所以我們需要找到一種合適的方法,一方面可以減少分析指標,另一方面盡量減少原指標信息的損失。
變量壓縮的方法非常多,但百法不離其中,其實最根本的都是「主成分分析」(Primary Component Analysis,下簡稱PCA)。能夠理解 PCA 的基本原理并將代碼用于實際的業(yè)務案例是本文的目標,本文將詳細介紹如何利用Python實現(xiàn)基于主成分分析的5c信用評級,主要分為兩個部分:
在正式開始原理趣析前,我們先從兩個生活場景入手,借以更好的理解需要進行變量壓縮的原因。
上司希望從事數(shù)據(jù)分析崗位的你僅用兩個短句就概括出以下數(shù)據(jù)集所反映出的經(jīng)濟現(xiàn)象
用幾個長句都不一定能夠很好的描述數(shù)據(jù)集的價值,更何況高度凝練的兩個短句,短短九個指標就已經(jīng)十分讓人頭疼了,如果表格再寬一些呢,比如有二三十個變量?
大學生講究德智體美勞全面發(fā)展,學校打算從某學院挑選一兩名學生外派進修數(shù)據(jù)分析,需要綜合全面的考量學生素質(zhì)。部分候選學生的個人情況如下:
首先還是與場景1類似的問題,這些指標只是冰山一角,還沒算上學生們其他領域的成績,如果說在場景1中還可以以犧牲全面性來刪除一些我們覺得關系不大的變量,比如我們猜測老板只會關注GDP與人均GDP這兩個指標,那么場景2的背景便已經(jīng)清晰地說明了需要綜合地考慮變量,不能有生硬的去掉“體育”之類的操作。
如果把信息壓縮這四個字拆成信息和壓縮這兩部分來看的話,便會呈現(xiàn)如下值得探究的問題:
「信息壓縮中的信息指什么?」
其實各種數(shù)據(jù)、變量都可被稱為信息,而統(tǒng)計學家們常把方差當作信息。其實在做描述性統(tǒng)計分析的時候,只要能夠表現(xiàn)我們數(shù)據(jù)的變異情況的統(tǒng)計量都可以被稱作信息,如方差,極差等,只不過是極差會更好計算。以方差為例,方差變化越大,數(shù)據(jù)分布越分散,涵蓋的信息就越多。
「什么樣的信息/變量才能被壓縮?」
「有哪些壓縮的方法?」
PCA就是一種常見的特征提取方法,它會將關系緊密的變量們用盡可能少的新創(chuàng)建的變量代替,使這些新變量是兩兩不相關的。這就實現(xiàn)用較少的綜合指標分別代表存在于各個變量中的各類信息。所以多元變量壓縮思路的基礎其實是相關分析。
「壓縮后的信息與原來的有什么不同?」
我們需要明確的是,無論是主成分還是后續(xù)推文的稀疏主成分分析,都有一個問題:他們得到的主成分均沒有什么業(yè)務含義,如果希望得到的壓縮后的變量是有意義的,則可以考慮變量聚類。
下圖為兩個正態(tài)分布的變量間可能存在的三種關系的示意圖,去正態(tài)分布和相關系數(shù)為 0.9 是為了從比較理想化的角度來解釋變量壓縮的步驟。
可以看到,若兩變量間的關系是較強的正/負相關,用鉛筆把散點圖的范圍圈起來的話呈現(xiàn)的都是一個較扁的橢圓;反之,完全獨立的兩個變量的分布更像是一個肥胖的圓形。關于壓縮過程我們依舊對以下幾個常見的問題進行解釋。
「如何通過散點圖理解信息壓縮?」
直接看散點圖只能判斷出是否值得壓縮,畢竟只有變量間具有一定的相關性才值得壓縮。接下來將涉及到 PCA 中很重要的一個知識點:坐標軸旋轉(zhuǎn)
「旋轉(zhuǎn)坐標軸的作用?」
旋轉(zhuǎn)后的坐標軸與原坐標軸一樣,都是正交(垂直)的。這樣的旋轉(zhuǎn)方式可以使兩個相關的變量的信息在坐標軸上得到最充分的體現(xiàn)(如果以極差作為信息,則點在 X1 的投影范圍最長)。之后便可從短軸方向來壓縮,當這個橢圓被壓扁到一定程度時,短軸上的信息就可以忽略不計,便達到了信息壓縮的目的。
「如果有三個變量該如何壓縮?」
三維的也是如此,只不過是由橢圓變成橢球(三個變量都相關)。步驟還是一樣,找到最長軸后,在軸上做切面,切面一旦有了,便又回歸到了二維的情況。這時可以找到次長軸和最短軸,這就可以依次的提取,當我們認為最短軸可以忽略不計的時候,就又起到了信息壓縮的作用。
要注意的是如果呈球形分布,這說明變量間沒有相關關系,沒有必要做主成分分析,也不能做變量的壓縮。
前面已經(jīng)說到,PCA后所得到的壓縮的主成分并沒有什么意義,比如5個變量壓縮成2個主成分P1和P2。
這兩個主成分中的組成等式為:
其中,等式右邊的系數(shù)正負與否并沒有什么意義,通常看絕對值即可。第一個主成分 P1中受五個變量的影響程度無明顯差別,權(quán)重都在0.42 ~ 0.47間 主成分P2受第一個變量的影響最大,權(quán)重系數(shù)為0.83,受第三個變量影響最小,權(quán)重為0.14
那么如何知道應該壓縮成幾個主成分?PCA 的功能是壓縮信息,壓縮后的每個主成分都能夠解釋一部分信息的變異程度(統(tǒng)計學家喜歡用方差表示信息的變異程度),所以,只需要滿足解釋信息的程度達到一定的值即可。
明顯可以看出隨著成分數(shù)目的增加,累積變異百分比逐漸增加。不建議使得累積百分比等于1,這將會導致有些主成分帶來冗余信息,通常等于 0.85 就可以了。當然我們也可以選擇兩個主成分,因為當我們增加第三個主成分因子時,會發(fā)現(xiàn)增加它對于累積變異的百分比沒有太大的影響。
在正式開始 Python 代碼實戰(zhàn)前,簡要了解主成分分析的運用場景是非常有必要的
?
案例背景:某金融服務公司為了了解貸款客戶的信用程度,評價客戶的信用等級,采用信用評級常用的5C(品質(zhì) Character,能力 Capacity,資本 Capital,抵押 Collateral,條件 Condition)方法, 說明客戶違約的可能性。
?
本次實戰(zhàn)將圍繞綜合打分,即只選出一個主成分的情況來實現(xiàn)客戶信用評級。
首先導入相關包并進行探索性分析
import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.use('seaborn-whitegrid') plt.rc('font', **{'family': 'Microsoft YaHei, SimHei'}) # 設置中文字體的支持 df = pd.read_csv('loan_apply.csv') df
參數(shù)解釋:
進行主成分分析前,一定要對數(shù)據(jù)進行相關分析,因為相關性較低或獨立的變量不可做PCA
# 求解相關系數(shù)矩陣,證明做主成分分析的必要性 ## 丟棄無用的 ID 列 data = df.drop(columns='ID') import seaborn as sns sns.heatmap(data.corr(), annot=True) # annot=True: 顯示相關系數(shù)矩陣的具體數(shù)值
發(fā)現(xiàn)變量間相關性都比較高,大于0.7,有做PCA的必要
PCA 建模前,數(shù)據(jù)需要進行標準化,通常使用中心標準化,也就是將變量都轉(zhuǎn)化成Z分數(shù)的形式,即偏離平均數(shù)的標準差個數(shù),這樣才能防止量綱問題給建模帶來的影響。如身高-體重的量綱1.78-59與178-60在散點圖上的顯示會有比較大的區(qū)別!
# PCA 通常用中心標準化,也就是都轉(zhuǎn)化成 Z 分數(shù)的形式 from sklearn.preprocessing import scale data = scale(data)
使用sklearn進行PCA分析,注意:
from sklearn.decomposition import PCA pca = PCA(n_components=5) # 直接與變量個數(shù)相同的主成分 pca.fit(data)
明顯看出第一個主成分就已經(jīng)能夠解釋84%的信息變異程度了!
重新選擇主成分個數(shù)進行建模
第一個主成分(解釋了84% 的變異的那個)與5個自變量的系數(shù)關系可以理解成:「第一主成分 = 0.413 * 品格 + 0.47 * 能力 + 0.46 * 資本 + 0.45 * 擔保 + 0.42 * 環(huán)境」。所以說生成的主成分除降維意義顯著外,并沒有什么其他的意義,并不好解釋。
這里的new_data是上文代碼pca.fit_transform(data)生成的降維后的數(shù)據(jù),接著按照綜合打分從高到低進行排序
根據(jù)結(jié)果我們可以發(fā)現(xiàn)貸款給7號客戶風險最低,給9號客戶風險最高!
本文通過生活實例引出為什么要進行信息的壓縮與提煉,講解了主成分分析 PCA 的原理與使用時的注意事項,并使用Python示范了完整的建模流程,給讀者提供了參考和借鑒。另外,作為數(shù)據(jù)分析師必會的PCA在圖像處理如人臉識別和手寫數(shù)字識別等機器學習領域也有很廣的運用,值得好好琢磨并熟練掌握。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03