
大數(shù)據(jù)征信的“是與非”
傳統(tǒng)信用評估模型是根據(jù)一個人的借貸歷史和還款表現(xiàn),通過邏輯回歸的方式來判斷這個人的信用情況。而大數(shù)據(jù)征信的數(shù)據(jù)源則十分廣泛,包括電子商務(wù)、社交網(wǎng)絡(luò)和搜索行為等都產(chǎn)生了大量的數(shù)據(jù)。
大數(shù)據(jù)征信可以通過我們在互聯(lián)網(wǎng)上留下的這些“足跡”清晰地描繪出一個人,但如何把控?cái)?shù)據(jù)源的“量”與“度”,各家機(jī)構(gòu)還在不斷嘗試。更重要的是,最終繪制出的人物“肖像”與個人信用究竟有多大的關(guān)聯(lián)度,至今仍存有爭議。
此前亦有接近監(jiān)管部門人士對《第一財(cái)經(jīng)日報(bào)》記者表示,個人征信牌照遲遲未能落地,其原因之一也在于監(jiān)管部門對于大數(shù)據(jù)征信的商業(yè)化應(yīng)用存有疑慮。尤其,以人臉識別為代表的關(guān)鍵技術(shù)的可靠性還有待進(jìn)一步檢驗(yàn)。
此外,“另一個更重要的癥結(jié)在于行政化監(jiān)管與商業(yè)化發(fā)展之間的矛盾?!痹撊耸勘硎?,現(xiàn)在個人征信市場的參與者越來越多,遠(yuǎn)不止申請牌照的八家機(jī)構(gòu),如果該市場要商業(yè)化發(fā)展,那么監(jiān)管方式就要改進(jìn)。
何為大數(shù)據(jù)征信
在FICO中國區(qū)總裁陳建看來,征信的本質(zhì)就是采集和記錄信用信息并在整理加工后提供給決策者,而如今,得益于大數(shù)據(jù)、云計(jì)算、人臉識別、深度算法等技術(shù)的進(jìn)步,征信有了更廣泛的意義和用途。
“只要對消費(fèi)者的特征描繪和風(fēng)險(xiǎn)判斷有顯著作用的就可以叫征信?!标惤ㄕJ(rèn)為,現(xiàn)在一切信息皆可以成為信用數(shù)據(jù),經(jīng)過分析后用于證明一個人或企業(yè)的信用狀況。因?yàn)閿?shù)據(jù)覆蓋廣、維度多,因此形成了廣義的征信,也就是大數(shù)據(jù)征信。
陳建表示,有價(jià)值的大數(shù)據(jù)具備幾個因素:第一要覆蓋面廣,用戶足夠多,例如銀聯(lián)、電信的數(shù)據(jù);第二維度要有效,能夠有效轉(zhuǎn)為結(jié)構(gòu)化的數(shù)據(jù),例如電商的數(shù)據(jù);第三信息要穩(wěn)定。
不過,對于這種日益崛起的征信新業(yè)態(tài),今年7月在上海外灘舉辦的“2015上海新金融年會”上,央行[微博]征信中心副主任王曉蕾直截了當(dāng)?shù)靥岢隽艘蓡枺拔也恢滥銈冋f的‘征信’是什么”?
央行的征信系統(tǒng)是一個“放貸人之間的信息共享數(shù)據(jù)庫”,主要采集的數(shù)據(jù)為身份信息、信貸信息、非金融負(fù)債信息三類,以及部分公共信息。因此,王曉蕾對于征信的基本定義為,“從放貸人那里采集借款人信息”。
而另一個“糾結(jié)”的概念在于,王曉蕾認(rèn)為,放貸機(jī)構(gòu)之“征信”是放貸機(jī)構(gòu)基于內(nèi)部信息的風(fēng)險(xiǎn)管理過程,而征信行業(yè)之“征信”是為放貸機(jī)構(gòu)的風(fēng)險(xiǎn)管理提供外部信息支持的活動,征信機(jī)構(gòu)應(yīng)該是一個純粹的獨(dú)立第三方。
如果按照這個界定,我們現(xiàn)在所談到的大數(shù)據(jù)征信跳脫了傳統(tǒng)“征信”范疇內(nèi)。不再局限于金融屬性的信息,并且也打破了“采集者與信息產(chǎn)生沒有任何關(guān)系”的獨(dú)立第三方原則。
例如芝麻信用、前海征信、騰訊征信,一方面它們的數(shù)據(jù)來源目前還主要來自母公司阿里、平安、騰訊,而另一方面,它們的兄弟公司又涉足放貸業(yè)務(wù),例如阿里小貸。
盡管有關(guān)大數(shù)據(jù)征信的定義和效用仍爭議不斷,但對于既無法接入央行征信系統(tǒng)又面臨快速發(fā)展的互聯(lián)網(wǎng)金融行業(yè)而言,利用大數(shù)據(jù)來幫助判定風(fēng)險(xiǎn)、開拓業(yè)務(wù)已是必然的選擇。
從應(yīng)用范圍來看,目前大數(shù)據(jù)征信已從金融業(yè)務(wù)向生活服務(wù)蔓延。其中,最核心的兩個價(jià)值就是:防范欺詐風(fēng)險(xiǎn)和信用風(fēng)險(xiǎn)。簡單來說就是:既要證明“你是你”,還要描述出“你是什么樣的人”。
如何證明“你是你”
無論是在傳統(tǒng)金融領(lǐng)域,還是互聯(lián)網(wǎng)金融領(lǐng)域,給客戶做信用評估的前提是必須知道這個人就是他自己。所以,如何利用證明“你是你”是大數(shù)據(jù)征信首先要解決的問題。
尤其,隨著越來越多的金融業(yè)務(wù)互聯(lián)網(wǎng)化,“反欺詐”面臨的挑戰(zhàn)也日益增大?!吧矸菡J(rèn)證”的重要性在各項(xiàng)監(jiān)管文件中反復(fù)被強(qiáng)調(diào),而各家機(jī)構(gòu)也在不斷探索如何利用新的技術(shù)在網(wǎng)上實(shí)現(xiàn)身份的核實(shí)。
其中,在指紋、虹膜、人臉識別等一系列生物識別技術(shù)中,人臉識別因技術(shù)的成熟度和準(zhǔn)確率較高,以及其使用的便捷性而被進(jìn)一步普及。包括騰訊征信、芝麻征信在內(nèi)的多家個人征信機(jī)構(gòu)都有組建自己的人臉識別技術(shù)團(tuán)隊(duì)。
此前,在騰訊征信的北京媒體溝通會上,為騰訊財(cái)付通、微眾銀行、騰訊征信等提供圖像和模式識別技術(shù)支持的優(yōu)圖團(tuán)隊(duì)也向大家展示了“人臉識別”在“反欺詐”方面的應(yīng)用,即如何證明“你是你”。
根據(jù)現(xiàn)場的演示,在上傳身份證照片、自拍照片并與公安部的信息進(jìn)行比對之后,“人臉識別”的另一關(guān)鍵步驟是活體檢測,通過讀取隨機(jī)的數(shù)字串,分析聲音和唇語等信息來防范有人用視頻、照片等方式仿冒用戶。
據(jù)了解,在今年國際權(quán)威的人臉識別數(shù)據(jù)庫LFW上,騰訊優(yōu)圖團(tuán)隊(duì)在人臉驗(yàn)證測試中達(dá)到了99.65%的準(zhǔn)確率。目前,微信的“人臉識別”技術(shù)已經(jīng)在騰訊征信、微眾銀行、微證券開戶等場景中開始試用。
盡管人臉識別的準(zhǔn)確率已經(jīng)達(dá)到較高水平,但該項(xiàng)技術(shù)的商業(yè)化應(yīng)用才剛剛起步,它的有效性和安全性仍備受質(zhì)疑。
優(yōu)圖團(tuán)隊(duì)研發(fā)總監(jiān)黃飛躍也表示,該技術(shù)現(xiàn)在還不能說100%地成熟,而是適用于某些特定的應(yīng)用環(huán)境中。其中,金融領(lǐng)域的身份核實(shí)條件較好,由于用戶往往是為了通過驗(yàn)證所以比較配合。
芝麻信用首席科學(xué)家俞吳杰表示,整個的反欺詐產(chǎn)品從身份認(rèn)證到信息驗(yàn)證再到網(wǎng)絡(luò)關(guān)聯(lián),每一步的技術(shù)含量非常高。以身份認(rèn)證為例,現(xiàn)在已有很多的途徑,比如信息交叉比對、人臉識別技術(shù)、KBA問答認(rèn)證等。
他以網(wǎng)絡(luò)關(guān)聯(lián)技術(shù)為例說明:它能把所有出現(xiàn)過違約行為的身份、手機(jī)、設(shè)備等關(guān)鍵點(diǎn)都在風(fēng)險(xiǎn)庫里面分門別類地保留下來,我們可以通過一層或者多層關(guān)聯(lián)找出所有的風(fēng)險(xiǎn)點(diǎn)供合作伙伴參考,這對技術(shù)和硬件要求都非常高。
爭議大數(shù)據(jù)征信
解決了“身份認(rèn)證”的問題,接下來就要評估你的信用,即描述出“你是什么樣的人”。
在關(guān)于大數(shù)據(jù)征信的文章中,我們經(jīng)??梢钥吹揭恍┌咐缃?jīng)常半夜上網(wǎng)的用戶可能被認(rèn)為沒有穩(wěn)定的工作而降低信用評分,買雙開門冰箱的用戶可能因?yàn)橛屑彝ザ庞迷u分較高,微博更新頻繁的用戶可能因?yàn)樯缃换钴S而信用評分較高等。
“這些考量因素被過度放大了,也許這只是用戶個人習(xí)慣而已。但每一個因素與個人信用的相關(guān)性有多大?我們還無法完全解釋,尤其當(dāng)數(shù)據(jù)源不足夠豐富時,這些評判便存在欠缺。”芝麻信用的技術(shù)專家景藝亮表示。
冰鑒科技CEO顧凌云在回國前曾領(lǐng)導(dǎo)并開發(fā)了ZestFinance前四代風(fēng)控模型,在他看來,大數(shù)據(jù)征信的核心并不是對某個變量極其依賴,而是把很多個都只有微小影響的變量通過非線性的算法整合在一起,從而使模型的整體表現(xiàn)更好。
“大數(shù)據(jù)其實(shí)并不一定就是數(shù)據(jù)量本身大,我們講求的是變量涵蓋的信息維度要多和均衡,然后才是能夠通過淺度學(xué)習(xí)和深度學(xué)習(xí)等多種復(fù)雜的算法把這些變量更有效地糅合在一起?!彼硎?。
王曉蕾認(rèn)為,互聯(lián)網(wǎng)記錄了借款人以前不可記錄的行為,獲得了以前無法獲取或獲取成本很高的數(shù)據(jù),為放貸人了解借款人是誰、有沒有還款能力和還款意愿提供了新的渠道和方法。但是,相關(guān)的信息究竟如何使用有待進(jìn)一步研究驗(yàn)證。
王曉蕾引用2014年美國政策與經(jīng)濟(jì)研究委員會(PERC)的一項(xiàng)研究結(jié)果稱,非金融信息在信貸決策中的作用有限。例如,社交信息對于判斷借款人的還款意愿和能力暫無預(yù)測力。
“諸如水、電、煤、有線電視、手機(jī)等非金融信息納入征信系統(tǒng),顯著地提高了薄信用檔案人群的信貸獲得能力,但對于厚信用檔案人群而言,邊際作用不大?!彼硎尽?/span>
“只有好樣本,沒有壞樣本是無法建立有效的信用評估機(jī)制的?!币诵胖琳\征信的董事總經(jīng)理趙卉表示,電商、支付、社交等數(shù)據(jù)只能作為信貸審核的參考值,而貸后數(shù)據(jù)才是強(qiáng)參數(shù)。
對于這種論斷,互聯(lián)網(wǎng)公司們或是不贊同的。
騰訊征信總經(jīng)理吳丹告訴記者,從這段時間內(nèi)測的結(jié)果來看,在模型中加入社交數(shù)據(jù)以后,對它的風(fēng)控能力有20%~25%的提升,尤其在小額貸款領(lǐng)域。因?yàn)?,通常一筆幾百塊的借款,違約發(fā)生的原因不在于借款人的還款能力而是意愿。
俞吳杰表示,通過大量的研究證明,人的行為數(shù)據(jù)和他的信用有直接關(guān)聯(lián),因?yàn)樾袨楹茈y撒謊。從這段時間公測的結(jié)果來看,用戶的芝麻分越高,其貸款的違約率越低,二者呈單調(diào)、線性的關(guān)系,這也證明了芝麻分在信用評估上的有效性。
不過,僅僅依靠互聯(lián)網(wǎng)上的數(shù)據(jù)并不足以建立一個強(qiáng)大的信用評估體系。顯然,所有大數(shù)據(jù)征信的市場參與者都深知這一點(diǎn)?!霸谖磥?,把傳統(tǒng)數(shù)據(jù)和創(chuàng)新數(shù)據(jù)結(jié)合到一起,一定是我們要到達(dá)的終點(diǎn)?!敝ヂ樾庞玫目偨?jīng)理胡滔如此總結(jié)到。
顧凌云告訴記者,風(fēng)控模型本質(zhì)上還是對一個人金融還貸能力的預(yù)測和評估,所以,盡管ZestFinance大量采用非傳統(tǒng)的信用數(shù)據(jù),但在大部分的風(fēng)險(xiǎn)評估模型中,傳統(tǒng)的信用數(shù)據(jù)(銀行信貸數(shù)據(jù))依然占有一定的比重,平均也在40%左右。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03