
零售銀行如何玩轉大數據
我們可以從備用數據庫里收集有關聯的數組和數據,并使用Hadoop進行分析?;蛘呶覀兛梢酝ㄟ^機器學習技術現有數據中隱藏的關聯關系。
普通數據組的介紹
針對所有客戶每月收入和支出的分類分析數組是一直存在的。這類數組是因為客戶銀行賬戶借記、貸記等各種日常操作而產生的。每一筆交易的產生通常都伴隨著一個電子號碼,比如電費話費單、商戶類別碼等等。此外,我們還可以通過商戶名稱、描述以及留言來對交易進行區(qū)分。
我們可以識別出很多消費類別,比如房產類消費(租金或者按揭)、能源類消費(加油或者電費)、食品及家居類消費、教育類、汽車消費、餐飲、大額項目(購買電視、家具)、稅費、娛樂、信用卡和貸款支付、奢侈品等等。
同樣,收入分類有工資、分紅、退稅交易、社會福利收入、房租收入、銷售等等。通過簡單的回歸分析可以得到針對每個客戶的收入支出情況的整體趨勢,以及每個細分類別的趨勢。
機器學習和預測
我們可以使用各種機器學習算法和模型來做預測。這里我們介紹兩種算法:監(jiān)督學習以及非監(jiān)督學習。
監(jiān)督學習算法通過分析和驗證歷史數據來得到模型,這個模型可以通過輸入數據之間的聯系得到確定的結果。樣本數據可以隨意選取,但是最好提前進行分組處理以得到更準備的結果。通??梢詫⒖蛻魯到M數據按照年齡、收入、地域、教育背影以及儲蓄量進行分類。每一類還會繼續(xù)細分,比如年齡可以分成5個20的層級。我們能直接看到每一層級中客戶的數量,從而我們可以從每一層級里抽取5%的樣本數據來進行分析。這類樣本數據能夠讓我們最直接地看出哪個類別對最后結果的影響最大。比如我們可以很明顯地看出教育背影對投資產品的影響最大。
非監(jiān)督機器學習算法則會從現有的數據中尋找未知的關聯模型。我們可以通過那些非正常的客戶行為模式中來找到欺詐信息的蛛絲馬跡。
1. 產品的私人訂制
銀行可以把錢省下來去做那些昂貴的市場推廣活動來宣傳銀行產品。產品應該最大程度地提供給那些有可能需要并接受它們的人,所以應該針對客戶推薦與其最相關的產品。這些就需要好好研究客戶之前都愛使用哪些產品。
客戶所使用的銀行產品和服務的歷史數據都可以拿來做分析,并生成獨立的模型。我們篩選并驗證出最好的學習算法,然后用它們計算哪些類別和變量能產生最大的效果。
2. 金融欺詐的早期偵測以及減少欺詐損失
這項內容包括識別身份造假、信用卡欺詐、電信欺詐、洗錢以及對網上銀行和移動銀行的攻擊。不斷出現的新型欺詐手段需要靈活、迅速的檢測算法。過去,銀行只使用基于統(tǒng)計學和規(guī)則的算法去識別可疑行為。這些算法有很大的局限性,因為它們只能識別已知的欺詐手段,維護成本高,計算中無法覆蓋每個用戶的全部歷史數據,并且經常誤報。
我們使用了包含已知欺詐案件的數據集。這些欺詐案件被分為幾類儲存,如盜取身份透支欺詐,信用卡盜竊,消費信貸欺詐,偽造支票償還信用卡,盜竊支票,盜錄磁條復制卡片,使用竊取的客戶憑證或安全設備攻擊網上銀行,流氓電商運用信用卡詐騙等等。我們使用了利用反向傳播進行訓練的神經網絡和決策樹兩種算法。這些算法對已有數據進行處理,從而識別新型詐騙的出現。
3. 預測客戶流失和取消服務
銀行對客戶流失和取消服務的預測有很強的時間敏感性,因為在客戶不可挽回地決定取消某項服務或轉投競爭對手之前,留給銀行的時間僅有幾天而已。銀行必須及早識別那些有可能流失的客戶并聯系他們,為他們提供其它可選擇的服務或是解決他們的問題。留存能帶來高利潤的活躍客戶的成本比起流失他們之后再吸引回來的成本要低得多。
我們預測時使用的原始數據包括賬戶流動情況,借記卡和信用卡流動情況,CRM中記錄的客戶數據,服務訂購數據,服務中心和分支機構的訪問交易數據以及登錄信息等。常用的收入和支出數據也被納入其中。
我們還建立關鍵事件的時間序列,諸如注銷借記卡,從其它銀行轉入的工資、分紅、租金等收入,客戶主動聯系服務中心或是訪問分支機構,注銷信用卡等等。
我們還建立了另外一組客戶集,他們符合年齡、收入、存款和地理位置分布等畫像但仍然是銀行的存留客戶。
基于以上,我們建立了有效的模型以預測客戶在不可挽回地轉投競爭對手之前的一系列行為。我們已經使用了一些監(jiān)督學習算法,例如支撐向量機進行二類分類以及利用用反向傳播的神經網絡。在使用主成分分析對輸入數據進行降維后,我們使用非監(jiān)督學習算法中的K聚類算法和KCm算法來降低輸入數據的維度。
我們在最近的數據中識別出了數百名符合模式的活躍用戶,在他們轉投競爭對手之前,相關分行應當及早進行聯絡。
4. ATM機和銀行網點中現金分配的最優(yōu)解決方案
對于ATM機和銀行網點而言,一年之中不同時段的現金需求量是在不斷變化的。這種變化可能由天氣、突發(fā)事件、假期及旅游等各種因素引發(fā)。準確預測出ATM機和銀行網點的現金需求量非常重要。無論是頻繁地往ATM機里放現金,還是ATM機因缺少現金而停止使用,成本都很高。另一方面,我們又不希望出現ATM機和網點長期持有冗余現金的情況,因為這既不是最優(yōu)的現金分配方法,同時也會加大引發(fā)犯罪的可能。
我們會使用多個維度的數據進行分析,包括:ATM機的服務日志,ATM機和銀行網點的地理位置信息,每臺ATM機的提款數據,ATM機和銀行網點當地的天氣預報,賽事安排,每個地區(qū)的文化活動、重要事件以及節(jié)假日安排。此外,信用卡和借記卡的流動情況也是重要的數據源,可以判斷不同地區(qū)在每年不同時間的現金需求量。我們使用普通數據組來確定不同地區(qū)客戶的工資、社會福利和其它收入的到賬時間。
我們提取并分析了這樣一些數據,包括:所有ATM機在一年中每一天取現數量的中位數,所有ATM機一天中每小時取現數量的中位數。這一數據集被用來計算天氣、重要事件、星期幾及節(jié)假日對某一具體地區(qū)的現金需求量的影響。我們還將過去4年間的重要文化、體育及其它事件與其發(fā)生的地理坐標數據結合加以處理,計算出了每項事件對其輻射范圍100米以內的ATM機的現金需求量的影響。根據影響程度的不同,我們對這些事件進行了分類。這一數據組可以預測以后類似事件的影響。
同時,我們計算了天氣與當地每臺ATM機現金需求量的相關性,過程中涉及到的天氣相關的參數包括降水量、溫度和風力等。
另外,我們還建立數組分析了不同地區(qū)收入(包括工資、社會福利等)到賬日和現金需求量的相關性。
基于以上數據集,我們建立了預測每臺ATM機和網點一年中任意一天現金需求量的模型。這些模型考慮了歷史天氣預報數據和重要事件安排,也用到了很多高級算法如波爾茲曼機、感知機和高斯判別分析等。
5. 昂貴銀行渠道使用的最小化
在昂貴的銀行渠道比如柜臺服務或光顧支行或電話客服的使用率最小化上我們做出了巨大的投入。
使用率的最小化可以由優(yōu)化網上銀行或手機銀行應用、幫助頁、幫助軟件以及優(yōu)化網站界面實現。另一個方法鼓勵正在猶豫的客人轉而使用更便宜的方式是目標更加明確的推廣活動。
可分析數據最主要的來源是來源于網上銀行以及手機銀行應用的網頁記錄。我們曾用過帶銀行賬號的使用記錄,客服中心交易記錄數據組,用戶信息的CRM數據組,或分行交易記錄的數據組。
另一個重要的數據組是客服中心、支行的投訴以及咨詢的來電、郵件、來信。我們將數據以網絡幫助頁的咨詢點的相關興趣點分類。這能幫助找出解釋不清晰、造成誤解的以及不必要咨詢電話的幫助頁面。這還能幫助管理網上銀行那些復雜的造成投訴的操作。它發(fā)現了許多領域比如關于幫助頁面沒有涵蓋的信用卡支付匯率,這反而常常在電話或分行咨詢中常常被提到。網上銀行的產品據此修改,提供自助咨詢、搜索優(yōu)化、網上銀行管理、以及手機銀行應用等服務,以減少客服中心以及分行的使用率。
我們分析了以轉化客戶到網上銀行、手機銀行以及自助柜員機的市場營銷活動的結果數據。根據相關性分析,許多大范圍的營銷活動并不十分有效。我們也分析了最近將大部分業(yè)務轉移到網上的銀行客戶的規(guī)律。這幫助我們找出更有可能轉移到網上的客戶。對這些客戶我們應該使用更有針對性的個性化的營銷策略,根據各個分行的特點進行活動。
6. 評估債務產品的客戶
為了可靠地評估風險,對現有客戶批準借記產品,不僅需要考慮現有的信用狀況、可支配收入狀況,還需要客戶的全部歷史和社交記錄。這樣以減少銀行承擔的風險并增加來自有價值客戶的收入。
我們使用通用收入支出數據庫分析,客戶全部的信用卡、借貸、透支或其他金融產品的交易記錄以及CRM信息。
使用MarkovChain隨機分析評估與客戶行為相關的借貸支付可能。此類模型在盈利性借貸、信用卡以及其他金融產品的歷史數據中得到驗證。我們注意到信用記錄的可靠性得到增加,并能夠據此為被拒絕的客戶提供替代產品。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數據生態(tài)中兩類核心工具的差異與協同 在數字化轉型加速的今天,企業(yè)對數據的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數據分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數據分析的 “基礎語言”—— 從描述數據分布的 “均 ...
2025-09-19CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-19SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11