
一、案例綜述
案例編號:
102005
案例名稱:
銀行數(shù)據(jù)寬表構(gòu)建和描述分析
作者姓名(或單位、或來源):
朱江
案例所屬行業(yè):
J662 貨幣銀行服務(wù)
案例所用軟件:
R
案例包含知識點:
寬表構(gòu)建 數(shù)據(jù)描述
案例描述:
案例描述部分主要有兩個內(nèi)容,一是介紹客戶信息的基本概念和分類;二是案例數(shù)據(jù)的基本介紹和ER圖
一. 客戶信息
客戶信息的收集主要用于客戶分析,而客戶分析一般是由公司內(nèi)部不同部門組成的跨領(lǐng)域的團隊實現(xiàn)的??蛻舴治龅哪繕耸钦业揭粋€單一準確的視角來制定策略,從而最優(yōu)化的獲取和保留客戶、定義高價值客戶。為了能夠更好的實現(xiàn)客戶分析,必須全方面的收集客戶信息,客戶信息主要分為以下四類。
? 描述信息:客戶的基本屬性信息,包括人口統(tǒng)計學的信息諸如性別、年齡、地理位置和收入,也包括自我描述類信息,對于產(chǎn)品的偏好和評價信息。從這些數(shù)據(jù)中可以細分出關(guān)于客戶的有用的特征和分類,例如早期采用者(在產(chǎn)品介紹期和成長期采用新產(chǎn)品,對后面的采用者影響很大)、性價比追求者或特定的顧客角色。這些信息可以來自買賣信息、注冊記錄、調(diào)查、回訪、情景訪談。這類信息一般易采集,但是質(zhì)量難以保證。
? 行為信息:客戶的行為信息,即客戶在使用產(chǎn)品和服務(wù)的時候表現(xiàn)出來的一般的模式,包括購買行為、注冊、瀏覽以及使用不同的設(shè)備等。例如經(jīng)調(diào)查發(fā)現(xiàn)一些特定產(chǎn)品分類(消費性電子產(chǎn)品、家具)的顧客,晚上傾向于使用平板電腦購買,而白天傾向于使用臺式機購買。行為信息的特點在于實時采集,需要整合匯總。
? 交互信息:客戶和網(wǎng)站的交互信息,包含網(wǎng)站或者軟件的點擊信息、導航路徑以及瀏覽行為。主要用途在于網(wǎng)站或軟件實用性能測試,例如通過模擬真實的交互得到點擊間隔對應(yīng)的等級。收集數(shù)據(jù)的途徑有:A/B測試,谷歌分析師(Google Analytics),實驗室收集等。
? 態(tài)度信息:客戶偏感性的信息,例如偏好、選擇、愿望、品牌認可度及情懷等,可以通過調(diào)查問卷、特定關(guān)注群體的調(diào)查以及使用性測試等獲得。一些知名的調(diào)查問卷公司常用來量化行為和交互信息對態(tài)度信息的影響。這些態(tài)度可能會影響描述信息中的量化的某些自我描述信息。
下圖解釋了這些信息之間的關(guān)系。
客戶信息通常存儲在數(shù)據(jù)倉庫中,結(jié)合基于CRM的數(shù)據(jù)挖掘方法論進行信息分析,與商業(yè)應(yīng)用結(jié)合最終產(chǎn)生價值。
二. 案例介紹
本案例的數(shù)據(jù)源自某銀行的真實客戶與交易數(shù)據(jù),主要涉及客戶的主記錄、賬號、交易、業(yè)務(wù)和信用卡數(shù)據(jù)等,即客戶的一些描述信息和行為信息。一共八張二維表,存儲在關(guān)系型數(shù)據(jù)庫中,這些表的信息如下。
表名 |
標簽 |
備注 |
主鍵 |
accounts |
賬戶表 |
賬戶信息 |
account.id |
card |
信用卡表 |
賬戶的信用卡信息 |
card_id |
clients |
客戶信息表 |
客戶的特征信息 |
client_id |
disp |
權(quán)限分配表 |
客戶與賬戶的操作權(quán)限信息 |
disp_id |
district |
人口統(tǒng)計信息表 |
客戶所在地區(qū)的人口統(tǒng)計信息 |
A1 |
loans |
貸款表 |
客戶的貸款信息表 |
loan_id |
order |
消費信息表 |
客戶的刷卡消費的信息 |
order_id |
trans |
交易表 |
客戶的交易信息 |
trans_id |
這里使用實體聯(lián)系模型圖(Entity-relationship model,俗稱ER圖)來描述這些表的關(guān)系,這里沒有嚴格的引用標準的ER模型圖形符號,我們的目標在于能夠詳盡的說明各表的組成和相互之間的邏輯關(guān)系。
圖中共八個表格,其中深灰色帶下劃線的字段是主鍵。數(shù)據(jù)中包含的邏輯關(guān)系有:1. 一個人可以有多個賬戶,一個賬戶id可以對應(yīng)多個客戶id,即可以多個人共同管理一個賬戶,賬戶與客戶的關(guān)系在權(quán)限分配信息表中顯示。2. 貸款和信用卡為銀行提供給客戶的服務(wù)。3. 一個賬戶可以有多張信用卡。4. 一個賬戶只能一筆貸款。
數(shù)據(jù)可以用于構(gòu)建客戶違約貸款模型,即根據(jù)客戶的描述信息和行為信息預測新客戶是否會產(chǎn)生違約行為,為銀行客戶關(guān)系管理提供數(shù)據(jù)依據(jù),從而有效的控制違約風險。于是這里就需要一個結(jié)構(gòu)化的規(guī)整的寬表數(shù)據(jù)。用于數(shù)據(jù)清洗、描述及挖掘。
涉及到的數(shù)據(jù)處理有:1. 數(shù)據(jù)清洗,即根據(jù)業(yè)務(wù)知識將初始數(shù)據(jù)轉(zhuǎn)換成在邏輯上對目標變量有預測能力的衍生數(shù)據(jù),形成寬表,且在時間上只考慮客戶最近兩年的行為信息。2. 依據(jù)貸款表的還款狀態(tài)定義客戶是否違約。3. 描述分析衍生變量和目標變量之間的關(guān)系,從而分析這些變量對目標變量的影響程度。
本案例共包含三個知識點
1 讀取數(shù)據(jù),根據(jù)業(yè)務(wù)知識生成衍生變量,形成寬表
2 描述分析衍生變量和目標變量之間的關(guān)系
3 使用邏輯回歸預測是否違約
案例執(zhí)行形式:
單人上機
二、案例知識點:
知識點1:
知識點名稱:讀取數(shù)據(jù),形成寬表
知識點所屬工作角色:
數(shù)據(jù)導入,數(shù)據(jù)轉(zhuǎn)換
知識點背景:
使用R導入csv格式的文件,依據(jù)業(yè)務(wù)邏輯轉(zhuǎn)換目標變量,形成寬表
知識點描述
加載使用到的包,讀取多個文件,轉(zhuǎn)變目標變量
知識點關(guān)鍵詞:
R 讀取數(shù)據(jù),數(shù)據(jù)轉(zhuǎn)換
知識點所用軟件:
Rstudio
操作目的:
R讀取csv文件,轉(zhuǎn)換目標變量
知識點素材(包括數(shù)據(jù)):
accounts.csv card.csv clients.csv disp.csv district.csv load_credit.csv loans.csv order.csv trans.csv
操作步驟:
操作步驟:
? 將bank文件夾拷貝到工作路徑下,設(shè)置工作路徑
? 加載要用的數(shù)據(jù)包
? 讀取數(shù)據(jù),一般情況下都要設(shè)置參數(shù)stringsAsFactors(字符自動轉(zhuǎn)為因子)為假
得到的讀取結(jié)果:
可見其中trans表包含的觀測最多,有105萬行
? 生成違約標識變量,根據(jù)loans表中變量status生成違約標識變量bad_good,這里使用ifelse函數(shù)。
? 客戶描述信息
客戶信息這里涉及到loans、clients、disp和district 表,需要進行橫向連接操作,這里篩選賬戶權(quán)限為‘所有者’的客戶賬戶,根據(jù)相同字段進行簡單的四表相連。而當數(shù)據(jù)量較大時一般先在單一表內(nèi)計算衍生字段再進行連接。先將四表橫向連接。
客戶描述信息基于base表進一步衍生,客戶貸款時的年齡可以由客戶出生日期與貸款的時間差產(chǎn)生,同事計算客戶居住地區(qū)的平均失業(yè)率、居住地區(qū)的平均犯罪率、人均GDP。
選擇對自己有用的字段生成客戶基本信息表。
至此包含目標變量的客戶基本信息表info已經(jīng)生成。得到的結(jié)果:
? 客戶行為信息
在trans表中,amount和balance兩個字段格式需要處理成數(shù)值型。
這里選擇兩年作為一個時間段,即選取每一個客戶貸款前兩年的數(shù)據(jù)。即需要根據(jù)trans表中客戶的貸款時間找到每一個客戶最近的貸款時間,并以此選擇前兩年的數(shù)據(jù)。
根據(jù)tmp2表生成貸款前兩年每個客戶的平均賬戶余額、標準差、變異系數(shù)。
根據(jù)tmp2表生成貸款前兩年的出入賬比率。首先按照客戶賬號和借貸類型計算對應(yīng)的總金額,然后計算出入賬比率。
生成客戶行為信息表。
? 寬表匯總
將客戶描述信息表與客戶行為信息表進行連接得到待分析的寬表。
最終得到的寬表data0有682個客戶觀測,14個維度變量,變量匯總?cè)缦拢?/span>
至此我們得到了最終用于描述性分析和進一步推斷分析使用的寬表。寬表中可見原始變量只有4個(包含標識變量),而衍生變量有10個,占了七成以上。在實際需求中,尤其是數(shù)據(jù)量較大的時候,需要生成一些衍生變量抽取數(shù)據(jù)中的關(guān)鍵信息。也可以根據(jù)業(yè)務(wù)邏輯需求生成特定的衍生變量。
? 保存表
操作結(jié)果:
如操作步驟中顯示生成新的衍生變量,匯總成新的寬表
知識點小結(jié):
本知識點顯示了數(shù)據(jù)前期處理的完整流程,關(guān)鍵在于衍生變量邏輯上的選取和生成
? 知識點2:
知識點名稱:數(shù)據(jù)描述
知識點所屬工作角色:
數(shù)據(jù)描述
知識點背景:
基本的數(shù)據(jù)描述分析包括描述性數(shù)據(jù)分析和探索性數(shù)據(jù)分析,描述性分析的目標主要在于描述數(shù)據(jù)集,而探索性分析的目標主要是在描述的基礎(chǔ)上發(fā)現(xiàn)新的關(guān)聯(lián)或者是未知的關(guān)系
知識點描述
描述性分析,探索性分析
知識點關(guān)鍵詞:
描述性分析 探索性分析 箱線圖 柱狀圖
知識點所用軟件:
Rstudio
操作目的:
? 進行部分描述性分析,觀察某些自變量與因變量之間的關(guān)系。因變量是否違約屬于分類變量,多用箱線圖和柱狀圖進行初步的觀察。
知識點素材(包括數(shù)據(jù)):
data_final.csv
操作步驟:
? 讀取數(shù)據(jù),處理因變量使得易于理解
? 觀察因變量,對因變量是否違約進行探索,觀察變量分布情況。
? 探索因變量與連續(xù)變量
這里分析年齡和因變量之間的關(guān)系,探索不同年齡下客戶的違約行為是否有差異。
? 探索因變量與分類變量
操作結(jié)果:
以上例舉了常用的描述性分析的方法,用于初步觀察數(shù)據(jù)之間的關(guān)系。
知識點小結(jié):
描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關(guān)系。
? 知識點3:
知識點名稱:3 使用邏輯回歸預測是否違約
知識點所屬工作角色:
回歸分析
知識點背景:
? 使用多元邏輯回歸進行推斷和預測分析
? 得到系數(shù)并且進行初步的觀察和解釋
? 通過逐步法和方差膨脹因子優(yōu)化模型
知識點描述
知識點關(guān)鍵詞:
邏輯回歸 逐步法 方差膨脹因子
知識點所用軟件:
Rstudio
操作目的:
? 使用多元邏輯回歸進行推斷和預測分析
? 得到系數(shù)并且進行初步的觀察和解釋
? 通過逐步法和方差膨脹因子優(yōu)化模型
知識點素材(包括數(shù)據(jù)):
data_final.csv
操作步驟:
? 讀取數(shù)據(jù),去除缺失值
? 初步邏輯回歸
結(jié)果中只有一個顯著性變量,并不合理,可能是因為別的變量之間相互抵消減弱了對預測變量的影響,故接著用逐步法對模型進一步優(yōu)化
? 進行逐步logsitic回歸
最終得到結(jié)果
可見其中對y有影響的變量是貸款金額,余額標準差,變異系數(shù),出入賬比率
? 查看共線性
可見沒有多重共線性的影響
? 總結(jié)
從經(jīng)過優(yōu)化的回歸結(jié)果可以看出衍生變量對預測模型產(chǎn)生的重要作用
操作結(jié)果:
見操作步驟中的總結(jié)部分
知識點小結(jié):
邏輯回歸中一般需要用逐步法對模型進行優(yōu)化,并且需要注意多重共線性的檢驗。
學數(shù)據(jù)分析技能一定要了解的大廠入門券,CDA數(shù)據(jù)分析師認證證書!
CDA(數(shù)據(jù)分析師認證),與CFA相似,由國際范圍內(nèi)數(shù)據(jù)科學領(lǐng)域行業(yè)專家、學者及知名企業(yè)共同制定并修訂更新,迅速發(fā)展成行業(yè)內(nèi)長期而穩(wěn)定的全球大數(shù)據(jù)及數(shù)據(jù)分析人才標準,具有專業(yè)化、科學化、國際化、系統(tǒng)化等特性。
同時,CDA全??荚嚥季趾驼J證體系已得到教育部直屬中國成人教育協(xié)會認可,并由為IBM、華為等提供全球認證服務(wù)的Pearson VUE面向全球提供靈活的考試服務(wù)。
報名方式
登錄CDA認證考試官網(wǎng)注冊報名>>點擊報名
報名費用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考試地點
Level Ⅰ:中國區(qū)30+省市,70+城市,250+考場,考生可就近考場預約考試 >看看我所在的地哪里報名<
Level Ⅱ+Ⅲ:中國區(qū)30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州>看看我所在的地哪里報名<
報考條件
業(yè)務(wù)數(shù)據(jù)分析師 CDA Level I >了解更多<
? 報考條件:無要求。
? 考試時間:隨報隨考。
建模分析師 CDA Level II >了解更多<
? 報考條件(滿足任一即可):
1、獲得CDA Level Ⅰ認證證書;
2、本科及以上學歷,需從事數(shù)據(jù)分析相關(guān)工作1年以上;
3、本科以下學歷,需從事數(shù)據(jù)分析相關(guān)工作2年以上。
? 考試時間:
一年四屆 3月、6月、9月、12月的最后一個周六。
大數(shù)據(jù)分析師 CDA Level II >了解更多<
? 報考條件(滿足任一即可):
1、獲得CDA Level Ⅰ認證證書;
2、本科及以上學歷,需從事數(shù)據(jù)分析相關(guān)工作1年以上;
3、本科以下學歷,需從事數(shù)據(jù)分析相關(guān)工作2年以上。
? 考試時間:
一年四屆 3月、6月、9月、12月的最后一個周六。
數(shù)據(jù)科學家 CDA Level III >了解更多<
? 報考條件(滿足任一即可):
1、獲得CDA Level Ⅱ認證證書;
2、本科及以上學歷,需從事數(shù)據(jù)分析相關(guān)工作3年以上;
3、本科以下學歷,需從事數(shù)據(jù)分析相關(guān)工作4年以上。
? 考試時間:
一年四屆 3月、6月、9月、12月的最后一個周六。
(備注:數(shù)據(jù)分析相關(guān)工作不限行業(yè),可涉及統(tǒng)計,數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)庫,數(shù)據(jù)管理,大數(shù)據(jù)架構(gòu)等內(nèi)容。)
——熱門課程推薦:
想學習PYTHON數(shù)據(jù)分析與金融數(shù)字化轉(zhuǎn)型精英訓練營,您可以點擊>>>“人才轉(zhuǎn)型”了解課程詳情;
想從事業(yè)務(wù)型數(shù)據(jù)分析師,您可以點擊>>>“數(shù)據(jù)分析師”了解課程詳情;
想從事大數(shù)據(jù)分析師,您可以點擊>>>“大數(shù)據(jù)就業(yè)”了解課程詳情;
想成為人工智能工程師,您可以點擊>>>“人工智能就業(yè)”了解課程詳情;
想了解Python數(shù)據(jù)分析,您可以點擊>>>“Python數(shù)據(jù)分析師”了解課程詳情;
想咨詢互聯(lián)網(wǎng)運營,你可以點擊>>>“互聯(lián)網(wǎng)運營就業(yè)班”了解課程詳情;
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10