
大數(shù)據(jù)征信的“是與非”
傳統(tǒng)信用評估模型是根據(jù)一個人的借貸歷史和還款表現(xiàn),通過邏輯回歸的方式來判斷這個人的信用情況。而大數(shù)據(jù)征信的數(shù)據(jù)源則十分廣泛,包括電子商務(wù)、社交網(wǎng)絡(luò)和搜索行為等都產(chǎn)生了大量的數(shù)據(jù)。
大數(shù)據(jù)征信可以通過我們在互聯(lián)網(wǎng)上留下的這些“足跡”清晰地描繪出一個人,但如何把控數(shù)據(jù)源的“量”與“度”,各家機構(gòu)還在不斷嘗試。更重要的是,最終繪制出的人物“肖像”與個人信用究竟有多大的關(guān)聯(lián)度,至今仍存有爭議。
此前亦有接近監(jiān)管部門人士對《第一財經(jīng)日報》記者表示,個人征信牌照遲遲未能落地,其原因之一也在于監(jiān)管部門對于大數(shù)據(jù)征信的商業(yè)化應(yīng)用存有疑慮。尤其,以人臉識別為代表的關(guān)鍵技術(shù)的可靠性還有待進一步檢驗。
此外,“另一個更重要的癥結(jié)在于行政化監(jiān)管與商業(yè)化發(fā)展之間的矛盾?!痹撊耸勘硎?,現(xiàn)在個人征信市場的參與者越來越多,遠不止申請牌照的八家機構(gòu),如果該市場要商業(yè)化發(fā)展,那么監(jiān)管方式就要改進。
何為大數(shù)據(jù)征信
在FICO中國區(qū)總裁陳建看來,征信的本質(zhì)就是采集和記錄信用信息并在整理加工后提供給決策者,而如今,得益于大數(shù)據(jù)、云計算、人臉識別、深度算法等技術(shù)的進步,征信有了更廣泛的意義和用途。
“只要對消費者的特征描繪和風(fēng)險判斷有顯著作用的就可以叫征信。”陳建認為,現(xiàn)在一切信息皆可以成為信用數(shù)據(jù),經(jīng)過分析后用于證明一個人或企業(yè)的信用狀況。因為數(shù)據(jù)覆蓋廣、維度多,因此形成了廣義的征信,也就是大數(shù)據(jù)征信。
陳建表示,有價值的大數(shù)據(jù)具備幾個因素:第一要覆蓋面廣,用戶足夠多,例如銀聯(lián)、電信的數(shù)據(jù);第二維度要有效,能夠有效轉(zhuǎn)為結(jié)構(gòu)化的數(shù)據(jù),例如電商的數(shù)據(jù);第三信息要穩(wěn)定。
不過,對于這種日益崛起的征信新業(yè)態(tài),今年7月在上海外灘舉辦的“2015上海新金融年會”上,央行[微博]征信中心副主任王曉蕾直截了當(dāng)?shù)靥岢隽艘蓡枺拔也恢滥銈冋f的‘征信’是什么”?
央行的征信系統(tǒng)是一個“放貸人之間的信息共享數(shù)據(jù)庫”,主要采集的數(shù)據(jù)為身份信息、信貸信息、非金融負債信息三類,以及部分公共信息。因此,王曉蕾對于征信的基本定義為,“從放貸人那里采集借款人信息”。
而另一個“糾結(jié)”的概念在于,王曉蕾認為,放貸機構(gòu)之“征信”是放貸機構(gòu)基于內(nèi)部信息的風(fēng)險管理過程,而征信行業(yè)之“征信”是為放貸機構(gòu)的風(fēng)險管理提供外部信息支持的活動,征信機構(gòu)應(yīng)該是一個純粹的獨立第三方。
如果按照這個界定,我們現(xiàn)在所談到的大數(shù)據(jù)征信跳脫了傳統(tǒng)“征信”范疇內(nèi)。不再局限于金融屬性的信息,并且也打破了“采集者與信息產(chǎn)生沒有任何關(guān)系”的獨立第三方原則。
例如芝麻信用、前海征信、騰訊征信,一方面它們的數(shù)據(jù)來源目前還主要來自母公司阿里、平安、騰訊,而另一方面,它們的兄弟公司又涉足放貸業(yè)務(wù),例如阿里小貸。
盡管有關(guān)大數(shù)據(jù)征信的定義和效用仍爭議不斷,但對于既無法接入央行征信系統(tǒng)又面臨快速發(fā)展的互聯(lián)網(wǎng)金融行業(yè)而言,利用大數(shù)據(jù)來幫助判定風(fēng)險、開拓業(yè)務(wù)已是必然的選擇。
從應(yīng)用范圍來看,目前大數(shù)據(jù)征信已從金融業(yè)務(wù)向生活服務(wù)蔓延。其中,最核心的兩個價值就是:防范欺詐風(fēng)險和信用風(fēng)險。簡單來說就是:既要證明“你是你”,還要描述出“你是什么樣的人”。
如何證明“你是你”
無論是在傳統(tǒng)金融領(lǐng)域,還是互聯(lián)網(wǎng)金融領(lǐng)域,給客戶做信用評估的前提是必須知道這個人就是他自己。所以,如何利用證明“你是你”是大數(shù)據(jù)征信首先要解決的問題。
尤其,隨著越來越多的金融業(yè)務(wù)互聯(lián)網(wǎng)化,“反欺詐”面臨的挑戰(zhàn)也日益增大?!吧矸菡J證”的重要性在各項監(jiān)管文件中反復(fù)被強調(diào),而各家機構(gòu)也在不斷探索如何利用新的技術(shù)在網(wǎng)上實現(xiàn)身份的核實。
其中,在指紋、虹膜、人臉識別等一系列生物識別技術(shù)中,人臉識別因技術(shù)的成熟度和準(zhǔn)確率較高,以及其使用的便捷性而被進一步普及。包括騰訊征信、芝麻征信在內(nèi)的多家個人征信機構(gòu)都有組建自己的人臉識別技術(shù)團隊。
此前,在騰訊征信的北京媒體溝通會上,為騰訊財付通、微眾銀行、騰訊征信等提供圖像和模式識別技術(shù)支持的優(yōu)圖團隊也向大家展示了“人臉識別”在“反欺詐”方面的應(yīng)用,即如何證明“你是你”。
根據(jù)現(xiàn)場的演示,在上傳身份證照片、自拍照片并與公安部的信息進行比對之后,“人臉識別”的另一關(guān)鍵步驟是活體檢測,通過讀取隨機的數(shù)字串,分析聲音和唇語等信息來防范有人用視頻、照片等方式仿冒用戶。
據(jù)了解,在今年國際權(quán)威的人臉識別數(shù)據(jù)庫LFW上,騰訊優(yōu)圖團隊在人臉驗證測試中達到了99.65%的準(zhǔn)確率。目前,微信的“人臉識別”技術(shù)已經(jīng)在騰訊征信、微眾銀行、微證券開戶等場景中開始試用。
盡管人臉識別的準(zhǔn)確率已經(jīng)達到較高水平,但該項技術(shù)的商業(yè)化應(yīng)用才剛剛起步,它的有效性和安全性仍備受質(zhì)疑。
優(yōu)圖團隊研發(fā)總監(jiān)黃飛躍也表示,該技術(shù)現(xiàn)在還不能說100%地成熟,而是適用于某些特定的應(yīng)用環(huán)境中。其中,金融領(lǐng)域的身份核實條件較好,由于用戶往往是為了通過驗證所以比較配合。
芝麻信用首席科學(xué)家俞吳杰表示,整個的反欺詐產(chǎn)品從身份認證到信息驗證再到網(wǎng)絡(luò)關(guān)聯(lián),每一步的技術(shù)含量非常高。以身份認證為例,現(xiàn)在已有很多的途徑,比如信息交叉比對、人臉識別技術(shù)、KBA問答認證等。
他以網(wǎng)絡(luò)關(guān)聯(lián)技術(shù)為例說明:它能把所有出現(xiàn)過違約行為的身份、手機、設(shè)備等關(guān)鍵點都在風(fēng)險庫里面分門別類地保留下來,我們可以通過一層或者多層關(guān)聯(lián)找出所有的風(fēng)險點供合作伙伴參考,這對技術(shù)和硬件要求都非常高。
爭議大數(shù)據(jù)征信
解決了“身份認證”的問題,接下來就要評估你的信用,即描述出“你是什么樣的人”。
在關(guān)于大數(shù)據(jù)征信的文章中,我們經(jīng)??梢钥吹揭恍┌咐?,如經(jīng)常半夜上網(wǎng)的用戶可能被認為沒有穩(wěn)定的工作而降低信用評分,買雙開門冰箱的用戶可能因為有家庭而信用評分較高,微博更新頻繁的用戶可能因為社交活躍而信用評分較高等。
“這些考量因素被過度放大了,也許這只是用戶個人習(xí)慣而已。但每一個因素與個人信用的相關(guān)性有多大?我們還無法完全解釋,尤其當(dāng)數(shù)據(jù)源不足夠豐富時,這些評判便存在欠缺。”芝麻信用的技術(shù)專家景藝亮表示。
冰鑒科技CEO顧凌云在回國前曾領(lǐng)導(dǎo)并開發(fā)了ZestFinance前四代風(fēng)控模型,在他看來,大數(shù)據(jù)征信的核心并不是對某個變量極其依賴,而是把很多個都只有微小影響的變量通過非線性的算法整合在一起,從而使模型的整體表現(xiàn)更好。
“大數(shù)據(jù)其實并不一定就是數(shù)據(jù)量本身大,我們講求的是變量涵蓋的信息維度要多和均衡,然后才是能夠通過淺度學(xué)習(xí)和深度學(xué)習(xí)等多種復(fù)雜的算法把這些變量更有效地糅合在一起。”他表示。
王曉蕾認為,互聯(lián)網(wǎng)記錄了借款人以前不可記錄的行為,獲得了以前無法獲取或獲取成本很高的數(shù)據(jù),為放貸人了解借款人是誰、有沒有還款能力和還款意愿提供了新的渠道和方法。但是,相關(guān)的信息究竟如何使用有待進一步研究驗證。
王曉蕾引用2014年美國政策與經(jīng)濟研究委員會(PERC)的一項研究結(jié)果稱,非金融信息在信貸決策中的作用有限。例如,社交信息對于判斷借款人的還款意愿和能力暫無預(yù)測力。
“諸如水、電、煤、有線電視、手機等非金融信息納入征信系統(tǒng),顯著地提高了薄信用檔案人群的信貸獲得能力,但對于厚信用檔案人群而言,邊際作用不大?!彼硎?。
“只有好樣本,沒有壞樣本是無法建立有效的信用評估機制的?!币诵胖琳\征信的董事總經(jīng)理趙卉表示,電商、支付、社交等數(shù)據(jù)只能作為信貸審核的參考值,而貸后數(shù)據(jù)才是強參數(shù)。
對于這種論斷,互聯(lián)網(wǎng)公司們或是不贊同的。
騰訊征信總經(jīng)理吳丹告訴記者,從這段時間內(nèi)測的結(jié)果來看,在模型中加入社交數(shù)據(jù)以后,對它的風(fēng)控能力有20%~25%的提升,尤其在小額貸款領(lǐng)域。因為,通常一筆幾百塊的借款,違約發(fā)生的原因不在于借款人的還款能力而是意愿。
俞吳杰表示,通過大量的研究證明,人的行為數(shù)據(jù)和他的信用有直接關(guān)聯(lián),因為行為很難撒謊。從這段時間公測的結(jié)果來看,用戶的芝麻分越高,其貸款的違約率越低,二者呈單調(diào)、線性的關(guān)系,這也證明了芝麻分在信用評估上的有效性。
不過,僅僅依靠互聯(lián)網(wǎng)上的數(shù)據(jù)并不足以建立一個強大的信用評估體系。顯然,所有大數(shù)據(jù)征信的市場參與者都深知這一點?!霸谖磥?,把傳統(tǒng)數(shù)據(jù)和創(chuàng)新數(shù)據(jù)結(jié)合到一起,一定是我們要到達的終點?!敝ヂ樾庞玫目偨?jīng)理胡滔如此總結(jié)到。
顧凌云告訴記者,風(fēng)控模型本質(zhì)上還是對一個人金融還貸能力的預(yù)測和評估,所以,盡管ZestFinance大量采用非傳統(tǒng)的信用數(shù)據(jù),但在大部分的風(fēng)險評估模型中,傳統(tǒng)的信用數(shù)據(jù)(銀行信貸數(shù)據(jù))依然占有一定的比重,平均也在40%左右。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10