
大數(shù)據(jù)背景下的風控與征信 專訪中科院院士、北大元培學院院長鄂維南教授
訪談:鄂維南,中國科學院院士,北大元培學院院長,普林斯頓大學數(shù)學系和應用數(shù)學研究所教授。
大數(shù)據(jù)和大數(shù)據(jù)技術
王曉蕾(以下簡稱“蕾”):很高興鄂院士在百忙中接受我們的采訪。根據(jù)我的初步理解,目前大數(shù)據(jù)在金融中的運用,主要是通過大數(shù)據(jù)做風險控制,建立風險模型預測還款可能性,從而決定授信額度和定價。您怎樣看待大數(shù)據(jù)在風險管理中的應用?
鄂維南(以下簡稱“鄂”):要講清楚這個問題,我們首先要區(qū)別一些概念,首先是大數(shù)據(jù)和大數(shù)據(jù)技術,前者是指的數(shù)據(jù)及可用于風險管理的數(shù)據(jù)問題,后者是指一些諸如機器學習、神經(jīng)網(wǎng)絡、支持向量機(SVM)等大數(shù)據(jù)算法。
從數(shù)據(jù)源的角度,我認為,與個人有關的信息從外到里可以分為三層:第一圈是關于個人的所有信息,第二圈是關于個人的所有履約信息,第三圈是信貸履約的信息。在之前傳統(tǒng)的風控中,我們一般利用最里圈的信貸履約信息,加上部分個人基本信息等來預測信貸違(履)約情況。隨著互聯(lián)網(wǎng)和信息技術的發(fā)展,部分方便可得的外圈信息,對于內(nèi)圈的履約預測慢慢地被證明有一定的效果,例如打車的履約情況對信貸履約的判斷是一個依據(jù),因此大數(shù)據(jù)風控隨之逐漸興起。但對于不同圈別數(shù)據(jù)的跨圈使用,特別是外圈數(shù)據(jù)往內(nèi)圈使用的過程中,要特別解決法理約束和本人授權兩個問題,這樣有利于各種數(shù)據(jù)在風險評估領域中的可持續(xù)使用。
王:您這樣說非常清楚。目前,部分放貸機構對替代性數(shù)據(jù)(Alternative Data)的使用,我的理解就是對非現(xiàn)金化的債務履約信息的使用。當消費者缺乏信貸債務及其履約信息時,可以利用這些水電煤等先消費后付款的信息,通過考察消費者的重復履約意愿和能力來進行信貸風險管理。我們熟知的美國澤斯塔(ZestFinance)金融公司,所使用的“替代性”數(shù)據(jù)主要包括水電燃氣費等先消費后付款消費信息,當然,信息主體本人授權是一個基本原則。
鄂:以上說的是大數(shù)據(jù)問題,再從大數(shù)據(jù)技術角度來看,任何大數(shù)據(jù)方法用于信用風險的評估,要滿足三個條件:一是明確的,對評分建模的方法論、過程和數(shù)據(jù)使用上是明確的,對監(jiān)管、對公眾是應該公開的:二是準確的,建立的模型要對不同風險狀況的人群有區(qū)分能力和排序能力;三是穩(wěn)定的,數(shù)據(jù)、方法和模型在人群、時間跨度上是穩(wěn)定的。從傳統(tǒng)的邏輯回歸,到決策樹,再到機器學習等大數(shù)據(jù)方法的使用,要始終堅持開發(fā)出來的模型“明確、準確和穩(wěn)定”的三大特點。
王:據(jù)我了解,有些利用大數(shù)據(jù)中的機器學習技術開發(fā)的模型是明確的,有些是不明確的。
鄂:是的。總體而言,對于大數(shù)據(jù)和大數(shù)據(jù)技術,目前,在風險控制中,可以是在遵守一定規(guī)則上開放性使用,但是對于征信領域,在數(shù)據(jù)的來源上建議適當保守些,這主要是征信對評分開發(fā)模型的明確性要求更高。但是盡管如此,在數(shù)據(jù)的處理方法上,都可以進行不同的嘗試和探索,因為大數(shù)據(jù)技術的發(fā)展,就是將可以使用的信息,包括傳統(tǒng)的信息和現(xiàn)實生活中映射到互聯(lián)網(wǎng)的各種信息極大的簡化為一個分數(shù),供放貸機構高效、便捷的使用。
風控與征信之異同
王:按照您剛才說的,我理解是,一些熱門的大數(shù)據(jù)技術可以做風控、但不能做征信,為什么這么說呢?
鄂:要理解這個觀點,得先從風控和征信的本質(zhì)特征出發(fā)來看。我們知道風控是放貸機構自己的事情,而征信則是第三方機構的信息服務,后者是為前者的風控服務的,對于信息的使用及其借款人對信息的知情權等方面,兩者是有根本性的區(qū)別的。所以我剛才講了,大數(shù)據(jù)技術開發(fā)的評分模型可以滿足準確、穩(wěn)定的要求,但是在明確、可解釋性方面,尚待市場的檢驗。
放貸機構為了風控,可以竭盡所能地收集各類或真實的信息或待證實的噪音,且對借款人作的放貸決策也是完全基于自己的商業(yè)目的考慮。但是,征信機構對信息的收集、加工和對外提供,則是完全按照市場和放貸機構認可、信息主體知情的方式進行,征信機構向放貸機構提供的所有針對借款人個人的信息,如基礎性的信用報告,是基于基本客觀事實的匯總,經(jīng)得起借款人本人質(zhì)疑、挑戰(zhàn)的,信用報告的內(nèi)容、流程、流轉(zhuǎn)過程和使用判斷是受到監(jiān)管的。
此外,我知道美國的征信機構一般是先提供了經(jīng)得起檢驗的信用報告,為信息主體本人提供信用報告查詢服務之后,再提供基于信用報告標準化解讀的各類信用評分服務,我想也是有這樣一個明確性要求在里面。為了確保個人信息沒有被濫用,評分流程的基本方法、理念、結果是需要對外披露,并接受監(jiān)管部門的全程監(jiān)管的。特別是當放貸機構基于征信機構的服務(如信用報告、個人信用評分),做出了不利于借款人的決策時,如拒絕借貸、提高費率、降低額度等,消費者是有知情權的。
王:非常贊成您的觀點,保護借款人(即信息主體)對征信系統(tǒng)本身及其本人信息被采集使用情況的知情,是征信行業(yè)的國際慣例,也是保證第三方征信機構獨立、可信賴地位的基石。
鄂:是的。在大數(shù)據(jù)的背景下,各種可以預測違約的數(shù)據(jù)在豐富性、廣度和深度上出現(xiàn)了極大的增加,但是對大數(shù)據(jù)的使用不會也不應該動搖剛才提到的征信與風控間的基本框架。例如,一些大型互聯(lián)網(wǎng)公司,掌握了大量的個人互聯(lián)網(wǎng)行為信息,這些信息可以用于公司內(nèi)部的風險管理和放貸決策,但是如果一旦用于第三方征信,則相關互聯(lián)網(wǎng)信息的使用和對外提供,必須經(jīng)受技術、用戶、法律、認知等社會方方面面的考驗,滿足公平公正合法等基本要求。
王:但是我們目前這方面的法律規(guī)定還不太完善。
鄂:沒有法律規(guī)定也不一定是可以為之的,征信機構的活動涉及消費者的切身利益,如果因為征信機構的服務,如提供了消費者不知情或認為不準確的信息,導致消費者的金融消費,如放貸、車貸等受阻,我認為消費者也是有權告第三方征信機構的。征信不是鬧著玩的,不建議目前部分機構采取抱著試試看的態(tài)度,來看哪些數(shù)據(jù)和技術可用于風險評估,并遞延到征信服務上,有些事情要事先考慮清楚。
王:在大數(shù)據(jù)時代,征信機構利用大數(shù)據(jù)技術對借款人風險水平的預測模型,如果經(jīng)過市場檢驗是有效的情況呢?
鄂:這是另一個問題,即便是對一群人的模型預測有效,但是用不成熟、不被大家接受的新技術和新方法,對個人進行風險預測并給個人的經(jīng)濟生活帶來影響,征信機構也有被司法起訴的風險,包括美國費埃哲(FICO)公司當時也是這樣的,模型和技術要有可解釋性,符合社會公眾的可接受度,這樣才能站得住腳。從有效性角度來看,社交網(wǎng)絡信息對于營銷、對于反恐等被證明是有效的,但是對于征信的有效性,還是一個有待證明的另一個問題。
王:大數(shù)據(jù)在風控運用上的一些創(chuàng)新確實存在,例如,傳統(tǒng)上主要是利用信用信息、財產(chǎn)信息來預測違約,目前依托信息和技術進行了一些創(chuàng)新,如有機構發(fā)現(xiàn)借款人手機的被叫時長、朋友圈的信息和違約有一定的關系,而將這些變量作為預測變量入模分析。
鄂:您說的可能是某個機構根據(jù)某些信息得出的一個初步結論,可能會被常識支持,但是這僅僅是一些數(shù)據(jù)環(huán)境下的一個判斷,是否經(jīng)得起檢驗、站得住腳,我認為還不能過早下結論。即便有效,我還是那個觀點,這個結論可以被放貸機構的風控所用,但是否可為征信機構所用,還用待觀察。
王:就我們而言,征信系統(tǒng)一是收集放貸機構等無論怎么努力也基本得不到的信息,如借款人在另一家放貸機構的借款信息,之后供放貸機構共享,二是收集放貸機構等可以采集但是成本較高的信息,如法院判決信息,方法是統(tǒng)一采集、大家共用。征信系統(tǒng)提供的以上兩部分信息都是放貸機構的外部信息一部分,放貸機構風控所使用的信息一定遠遠超過征信機構提供的信息。
鄂:是的,征信機構的信息永遠是放貸機構風控的一個重要信息和工具的來源。其實,目前使用大數(shù)據(jù)模型中,我認為很多變量是用來驗證信息的真?zhèn)蔚模?,預測違約率還是用傳統(tǒng)的信貸信息一些核心變量,目前來看,預測未來履約的信息范圍和方法論并沒有真正擴大和突破。
王:非常感謝您的交流。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務場景的分 ...
2025-09-10機器學習解決實際問題的核心關鍵:從業(yè)務到落地的全流程解析 在人工智能技術落地的浪潮中,機器學習作為核心工具,已廣泛應用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務解決方案 ...
2025-09-09