
零售銀行如何玩轉大數(shù)據(jù)
我們可以從備用數(shù)據(jù)庫里收集有關聯(lián)的數(shù)組和數(shù)據(jù),并使用Hadoop進行分析?;蛘呶覀兛梢酝ㄟ^機器學習技術現(xiàn)有數(shù)據(jù)中隱藏的關聯(lián)關系。
普通數(shù)據(jù)組的介紹
針對所有客戶每月收入和支出的分類分析數(shù)組是一直存在的。這類數(shù)組是因為客戶銀行賬戶借記、貸記等各種日常操作而產(chǎn)生的。每一筆交易的產(chǎn)生通常都伴隨著一個電子號碼,比如電費話費單、商戶類別碼等等。此外,我們還可以通過商戶名稱、描述以及留言來對交易進行區(qū)分。
我們可以識別出很多消費類別,比如房產(chǎn)類消費(租金或者按揭)、能源類消費(加油或者電費)、食品及家居類消費、教育類、汽車消費、餐飲、大額項目(購買電視、家具)、稅費、娛樂、信用卡和貸款支付、奢侈品等等。
同樣,收入分類有工資、分紅、退稅交易、社會福利收入、房租收入、銷售等等。通過簡單的回歸分析可以得到針對每個客戶的收入支出情況的整體趨勢,以及每個細分類別的趨勢。
機器學習和預測
我們可以使用各種機器學習算法和模型來做預測。這里我們介紹兩種算法:監(jiān)督學習以及非監(jiān)督學習。
監(jiān)督學習算法通過分析和驗證歷史數(shù)據(jù)來得到模型,這個模型可以通過輸入數(shù)據(jù)之間的聯(lián)系得到確定的結果。樣本數(shù)據(jù)可以隨意選取,但是最好提前進行分組處理以得到更準備的結果。通??梢詫⒖蛻魯?shù)組數(shù)據(jù)按照年齡、收入、地域、教育背影以及儲蓄量進行分類。每一類還會繼續(xù)細分,比如年齡可以分成5個20的層級。我們能直接看到每一層級中客戶的數(shù)量,從而我們可以從每一層級里抽取5%的樣本數(shù)據(jù)來進行分析。這類樣本數(shù)據(jù)能夠讓我們最直接地看出哪個類別對最后結果的影響最大。比如我們可以很明顯地看出教育背影對投資產(chǎn)品的影響最大。
非監(jiān)督機器學習算法則會從現(xiàn)有的數(shù)據(jù)中尋找未知的關聯(lián)模型。我們可以通過那些非正常的客戶行為模式中來找到欺詐信息的蛛絲馬跡。
1. 產(chǎn)品的私人訂制
銀行可以把錢省下來去做那些昂貴的市場推廣活動來宣傳銀行產(chǎn)品。產(chǎn)品應該最大程度地提供給那些有可能需要并接受它們的人,所以應該針對客戶推薦與其最相關的產(chǎn)品。這些就需要好好研究客戶之前都愛使用哪些產(chǎn)品。
客戶所使用的銀行產(chǎn)品和服務的歷史數(shù)據(jù)都可以拿來做分析,并生成獨立的模型。我們篩選并驗證出最好的學習算法,然后用它們計算哪些類別和變量能產(chǎn)生最大的效果。
2. 金融欺詐的早期偵測以及減少欺詐損失
這項內(nèi)容包括識別身份造假、信用卡欺詐、電信欺詐、洗錢以及對網(wǎng)上銀行和移動銀行的攻擊。不斷出現(xiàn)的新型欺詐手段需要靈活、迅速的檢測算法。過去,銀行只使用基于統(tǒng)計學和規(guī)則的算法去識別可疑行為。這些算法有很大的局限性,因為它們只能識別已知的欺詐手段,維護成本高,計算中無法覆蓋每個用戶的全部歷史數(shù)據(jù),并且經(jīng)常誤報。
我們使用了包含已知欺詐案件的數(shù)據(jù)集。這些欺詐案件被分為幾類儲存,如盜取身份透支欺詐,信用卡盜竊,消費信貸欺詐,偽造支票償還信用卡,盜竊支票,盜錄磁條復制卡片,使用竊取的客戶憑證或安全設備攻擊網(wǎng)上銀行,流氓電商運用信用卡詐騙等等。我們使用了利用反向傳播進行訓練的神經(jīng)網(wǎng)絡和決策樹兩種算法。這些算法對已有數(shù)據(jù)進行處理,從而識別新型詐騙的出現(xiàn)。
3. 預測客戶流失和取消服務
銀行對客戶流失和取消服務的預測有很強的時間敏感性,因為在客戶不可挽回地決定取消某項服務或轉投競爭對手之前,留給銀行的時間僅有幾天而已。銀行必須及早識別那些有可能流失的客戶并聯(lián)系他們,為他們提供其它可選擇的服務或是解決他們的問題。留存能帶來高利潤的活躍客戶的成本比起流失他們之后再吸引回來的成本要低得多。
我們預測時使用的原始數(shù)據(jù)包括賬戶流動情況,借記卡和信用卡流動情況,CRM中記錄的客戶數(shù)據(jù),服務訂購數(shù)據(jù),服務中心和分支機構的訪問交易數(shù)據(jù)以及登錄信息等。常用的收入和支出數(shù)據(jù)也被納入其中。
我們還建立關鍵事件的時間序列,諸如注銷借記卡,從其它銀行轉入的工資、分紅、租金等收入,客戶主動聯(lián)系服務中心或是訪問分支機構,注銷信用卡等等。
我們還建立了另外一組客戶集,他們符合年齡、收入、存款和地理位置分布等畫像但仍然是銀行的存留客戶。
基于以上,我們建立了有效的模型以預測客戶在不可挽回地轉投競爭對手之前的一系列行為。我們已經(jīng)使用了一些監(jiān)督學習算法,例如支撐向量機進行二類分類以及利用用反向傳播的神經(jīng)網(wǎng)絡。在使用主成分分析對輸入數(shù)據(jù)進行降維后,我們使用非監(jiān)督學習算法中的K聚類算法和KCm算法來降低輸入數(shù)據(jù)的維度。
我們在最近的數(shù)據(jù)中識別出了數(shù)百名符合模式的活躍用戶,在他們轉投競爭對手之前,相關分行應當及早進行聯(lián)絡。
4. ATM機和銀行網(wǎng)點中現(xiàn)金分配的最優(yōu)解決方案
對于ATM機和銀行網(wǎng)點而言,一年之中不同時段的現(xiàn)金需求量是在不斷變化的。這種變化可能由天氣、突發(fā)事件、假期及旅游等各種因素引發(fā)。準確預測出ATM機和銀行網(wǎng)點的現(xiàn)金需求量非常重要。無論是頻繁地往ATM機里放現(xiàn)金,還是ATM機因缺少現(xiàn)金而停止使用,成本都很高。另一方面,我們又不希望出現(xiàn)ATM機和網(wǎng)點長期持有冗余現(xiàn)金的情況,因為這既不是最優(yōu)的現(xiàn)金分配方法,同時也會加大引發(fā)犯罪的可能。
我們會使用多個維度的數(shù)據(jù)進行分析,包括:ATM機的服務日志,ATM機和銀行網(wǎng)點的地理位置信息,每臺ATM機的提款數(shù)據(jù),ATM機和銀行網(wǎng)點當?shù)氐奶鞖忸A報,賽事安排,每個地區(qū)的文化活動、重要事件以及節(jié)假日安排。此外,信用卡和借記卡的流動情況也是重要的數(shù)據(jù)源,可以判斷不同地區(qū)在每年不同時間的現(xiàn)金需求量。我們使用普通數(shù)據(jù)組來確定不同地區(qū)客戶的工資、社會福利和其它收入的到賬時間。
我們提取并分析了這樣一些數(shù)據(jù),包括:所有ATM機在一年中每一天取現(xiàn)數(shù)量的中位數(shù),所有ATM機一天中每小時取現(xiàn)數(shù)量的中位數(shù)。這一數(shù)據(jù)集被用來計算天氣、重要事件、星期幾及節(jié)假日對某一具體地區(qū)的現(xiàn)金需求量的影響。我們還將過去4年間的重要文化、體育及其它事件與其發(fā)生的地理坐標數(shù)據(jù)結合加以處理,計算出了每項事件對其輻射范圍100米以內(nèi)的ATM機的現(xiàn)金需求量的影響。根據(jù)影響程度的不同,我們對這些事件進行了分類。這一數(shù)據(jù)組可以預測以后類似事件的影響。
同時,我們計算了天氣與當?shù)孛颗_ATM機現(xiàn)金需求量的相關性,過程中涉及到的天氣相關的參數(shù)包括降水量、溫度和風力等。
另外,我們還建立數(shù)組分析了不同地區(qū)收入(包括工資、社會福利等)到賬日和現(xiàn)金需求量的相關性。
基于以上數(shù)據(jù)集,我們建立了預測每臺ATM機和網(wǎng)點一年中任意一天現(xiàn)金需求量的模型。這些模型考慮了歷史天氣預報數(shù)據(jù)和重要事件安排,也用到了很多高級算法如波爾茲曼機、感知機和高斯判別分析等。
5. 昂貴銀行渠道使用的最小化
在昂貴的銀行渠道比如柜臺服務或光顧支行或電話客服的使用率最小化上我們做出了巨大的投入。
使用率的最小化可以由優(yōu)化網(wǎng)上銀行或手機銀行應用、幫助頁、幫助軟件以及優(yōu)化網(wǎng)站界面實現(xiàn)。另一個方法鼓勵正在猶豫的客人轉而使用更便宜的方式是目標更加明確的推廣活動。
可分析數(shù)據(jù)最主要的來源是來源于網(wǎng)上銀行以及手機銀行應用的網(wǎng)頁記錄。我們曾用過帶銀行賬號的使用記錄,客服中心交易記錄數(shù)據(jù)組,用戶信息的CRM數(shù)據(jù)組,或分行交易記錄的數(shù)據(jù)組。
另一個重要的數(shù)據(jù)組是客服中心、支行的投訴以及咨詢的來電、郵件、來信。我們將數(shù)據(jù)以網(wǎng)絡幫助頁的咨詢點的相關興趣點分類。這能幫助找出解釋不清晰、造成誤解的以及不必要咨詢電話的幫助頁面。這還能幫助管理網(wǎng)上銀行那些復雜的造成投訴的操作。它發(fā)現(xiàn)了許多領域比如關于幫助頁面沒有涵蓋的信用卡支付匯率,這反而常常在電話或分行咨詢中常常被提到。網(wǎng)上銀行的產(chǎn)品據(jù)此修改,提供自助咨詢、搜索優(yōu)化、網(wǎng)上銀行管理、以及手機銀行應用等服務,以減少客服中心以及分行的使用率。
我們分析了以轉化客戶到網(wǎng)上銀行、手機銀行以及自助柜員機的市場營銷活動的結果數(shù)據(jù)。根據(jù)相關性分析,許多大范圍的營銷活動并不十分有效。我們也分析了最近將大部分業(yè)務轉移到網(wǎng)上的銀行客戶的規(guī)律。這幫助我們找出更有可能轉移到網(wǎng)上的客戶。對這些客戶我們應該使用更有針對性的個性化的營銷策略,根據(jù)各個分行的特點進行活動。
6. 評估債務產(chǎn)品的客戶
為了可靠地評估風險,對現(xiàn)有客戶批準借記產(chǎn)品,不僅需要考慮現(xiàn)有的信用狀況、可支配收入狀況,還需要客戶的全部歷史和社交記錄。這樣以減少銀行承擔的風險并增加來自有價值客戶的收入。
我們使用通用收入支出數(shù)據(jù)庫分析,客戶全部的信用卡、借貸、透支或其他金融產(chǎn)品的交易記錄以及CRM信息。
使用MarkovChain隨機分析評估與客戶行為相關的借貸支付可能。此類模型在盈利性借貸、信用卡以及其他金融產(chǎn)品的歷史數(shù)據(jù)中得到驗證。我們注意到信用記錄的可靠性得到增加,并能夠據(jù)此為被拒絕的客戶提供替代產(chǎn)品。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03