
這次我們聊聊“違規(guī)識別”模型,在有的行里也被稱為“三反”模型。這類模型的一個共同特點是獲得明確標簽(Y)的成本很高、主要特征提取自交易(有動帳)和行為(無動帳)數(shù)據(jù)的RFM模型及其衍生變量,和通過這些交易和行為數(shù)據(jù)構(gòu)建時、空、網(wǎng)的關聯(lián)關系而獲取的衍生特征。這里需要強調(diào)一下,申請反欺詐和交易反欺詐在以上三方面存在明顯差別。雖然申請反欺詐也會用到復雜網(wǎng)絡,但是僅使用聯(lián)系人、設備等信息構(gòu)建的復雜網(wǎng)絡,而不是依據(jù)交易流水做的復雜網(wǎng)絡。
很多人在分析“三反”問題是都遇到難以清晰分類的問題。這是很正常的現(xiàn)象,因為這三者往往是伴生的。如果一定要分清楚的,不妨可以這樣來區(qū)分:洗錢的交易發(fā)起者是用戶本身,交易欺詐的發(fā)起者非用戶的其他人,舞弊的交易發(fā)起者是內(nèi)部員工。
筆者曾經(jīng)在和客戶溝通時,甲方反應反舞弊和反欺詐的差別很大。誠然,在業(yè)務理解上確實差別很大。但是在模型抽象的角度,這三個主題建模時,其標簽的數(shù)據(jù)特征、取數(shù)窗口的設置、特征的提取方式是沿用的一套框架。因此可以統(tǒng)一來討論其建模問題。
我們再強調(diào)一下建模的三個原則,即以成本-收益分析為單一分析框架、區(qū)分分析主體和客體兩個視角、全模型生命周期工作模板。
我們這里以舞弊為例,討論一下從事舞弊活動的人的成本-收益。舞弊的成本較明確,那就是事情敗露后面臨的處分、開除、經(jīng)濟處罰或刑事處罰。收益也很明確,那就是從事舞弊行為獲得的收入。也就是說在舞弊行為分析中,成本-收益可以看似固定的。那為什么一個人有時候剛正不阿,而有時候禁不住誘惑呢?主要的問題是其內(nèi)心發(fā)生了變換。如下所示的“舞弊三角”理論中,壓力和動機是最關鍵的,這往往是外部事件,推動者行為人心中的砝碼發(fā)生偏移,從而釀成悲劇。
建立違規(guī)識別模型的一個最重要的問題是對這個業(yè)務問題認識不足。很難有業(yè)務專家可以清晰的知道所有違規(guī)類型,每一次做這類項目,總是本著抓大放小的原則,針對最關心的一些“洗錢”、“交易欺詐”或“舞弊”的類型進行識別。同時樣本的標簽也是相互混淆的,因為犯罪份子可不會每次只按照洗錢“教科書”中的一種違規(guī)行為做事,比如地下錢莊和其他洗錢類型往往是伴生的。第二個難點是PU問題,即違規(guī)份子的行為沒有被全部識別出來,也沒有明確的類罪相對應。
由于違規(guī)識別模型有以上問題,因此需要兩到三步才能處理好以上問題。比如針對第一類問題,需要使用到無監(jiān)督的異常學習算法將與正常交易有明顯差異的交易提取出來供下一步分析。針對第二個問題,目前主要是依賴業(yè)務人員手工審核。清洗干凈的數(shù)據(jù)才會用于建模。
“三反”模型統(tǒng)一使用“黑名單”、“規(guī)則引擎”、“機器學習”、“ 復雜網(wǎng)絡特征構(gòu)建和無監(jiān)督”??催^“越獄”的讀者可能有印象,那里在分析犯罪時就會使用復雜網(wǎng)絡作為分析工具。之所以現(xiàn)在這類技術被廣泛使用,主要得益于開源大數(shù)據(jù)分析平臺極大的降低了建設成本,使得可以基于全量的交易數(shù)據(jù)構(gòu)建復雜網(wǎng)絡和異常識別模型。因為這兩類模型是不應該對數(shù)據(jù)抽樣的。
之前很多人認為構(gòu)建風控模型一定要可解釋,因此一定要使用邏輯回歸,甚至還要求必須制作評分卡之類的產(chǎn)出物。這種要求在“三反”模型中是不適宜的。因為違規(guī)交易的子類型太多了。雖然每一種違規(guī)行為和正常交易的客戶有可能是線性可分的。但是如下圖“問題4”所示,具有違規(guī)標示的樣本是按群聚集的,而不同類的群是分散的。因此使用一個邏輯回歸構(gòu)建起的線性模型的精確度是很低的。需要使用組合算法構(gòu)建非線性模型。
以上提到,違規(guī)識別模型需要從大量交易流水中提取交易特征和復雜網(wǎng)路特征。而且此類模型建模是不建議采用抽樣的方式。因此使用分布式計算平臺對數(shù)據(jù)進行加工是不可避免的。以下列出了主要模塊,即數(shù)據(jù)源采集、圖數(shù)據(jù)庫、特征工程平臺、機器學習平臺。
下面這是一家金融機構(gòu)的經(jīng)歷。由于傳統(tǒng)的“三反模型”的規(guī)則很少是數(shù)據(jù)驅(qū)動的,而且及時是數(shù)據(jù)驅(qū)動的,規(guī)則的準確性也是很低的。通過構(gòu)建無監(jiān)督學習模型,使用異常識別算法,在降低了原模型15%召回率的情況下,預測精度提升了60倍。在使用有監(jiān)督機器學習模型,并充分提取交易網(wǎng)絡信息后,召回率無降低的請款下,模型精度提高了80倍。模型上線后,可以極大的減少“三反”調(diào)查人員的工作量。不過需要強調(diào)一點,本例中使用的樣本是業(yè)務人員手工梳理的,模型效果容易做到指標上好看。
數(shù)據(jù)資管出品
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03