
“垃圾進 垃圾出”大數(shù)據(jù)征信可靠不可靠
當今大數(shù)據(jù)風行一時,各行各業(yè)都趨之若鶩。在征信業(yè)更是如此。但如果認真的問一下,什么是大數(shù)據(jù),卻沒有一個一致的答案。
很多分析認為借貸雙方信用信息是非對稱的(asymmetric),大數(shù)據(jù)可以幫助貸方彌補與借方信息的差距。這個論點的前提是對的,但美國的經(jīng)驗證明信用報告能夠很好的解決這個問題。而大數(shù)據(jù)用于征信存在一些很難逾越的障礙。
大數(shù)據(jù)由來
準確性是征信的第一準則。本著這種精神,我們來看一下大數(shù)據(jù)的由來和其準確定義。
在美國計算機協(xié)會數(shù)字圖書館中,大數(shù)據(jù)(Big Data) 第一次出現(xiàn)是在1997年10月,邁克爾·考克斯 (Michael Cox)和大衛(wèi)·埃爾斯沃思(David Ellsworth)發(fā)表的一篇關于處理圖像數(shù)字化后數(shù)據(jù)量管理的文章里 。 文章開頭指出 “圖像數(shù)字化給計算機系統(tǒng)出了一個有趣的難題,數(shù)據(jù)都相當大,占用主存儲器,終端磁盤,甚至遠程磁盤的容量。我們稱之為大數(shù)據(jù)的問題?!?從這以后,數(shù)據(jù)隨著互聯(lián)網(wǎng)的發(fā)展呈現(xiàn)爆炸式增長?!按髷?shù)據(jù)”也成為各行各業(yè)的一個熱門的話題。
明白“大數(shù)據(jù)”始于圖像數(shù)字化非常重要。大數(shù)據(jù)包括:可視化數(shù)據(jù) – 視頻,照片,指紋印記等;言語數(shù)據(jù) – 聲音和語言,其他聲音(動物,自然);社會關系 – 工作和個人關系(LinkedIn);各種同時和即時的活動 -人類,動物或自然(信用卡交易,微博,人類活動,傳感器和計量器等);等等。但占壓倒性比例的數(shù)據(jù)是影像。思科(Cisco)公司去年的報告指出,目前美國78%的互聯(lián)網(wǎng)流量是影像。這一比例在三年內(nèi)會增加到84%。影像在所有新創(chuàng)數(shù)據(jù)中的比例,應該是接近或超過它在互聯(lián)網(wǎng)流量中所占的份額。
具體到征信領域,通常把信息局和銀行搜集的數(shù)據(jù)叫做常規(guī)數(shù)據(jù),其他的叫大數(shù)據(jù)。
大數(shù)據(jù)包括了所有可以獲得和可以產(chǎn)生的數(shù)據(jù)。和常規(guī)數(shù)據(jù)相比,“大數(shù)據(jù)”種類多樣(影像),產(chǎn)生速度更快(90%的數(shù)據(jù)是近兩年產(chǎn)生的),數(shù)據(jù)量比常規(guī)數(shù)據(jù)大千倍萬倍。這些特點使得傳統(tǒng)數(shù)據(jù)分析工具和方法難以應對。
美國征信業(yè)的起源
國務院“征信管理條例”對“征信業(yè)務”做出了明確定義:“征信業(yè)務是指依法收集、整理、保存、加工個人、法人及其他組織的信用信息,并對外提供信用報告、信用評分、信用評級等的業(yè)務活動”。簡而言之,征信是建立和提供“信用檔案”和“信用評級”。
將此“征信業(yè)務”定義用于美國,它包括了四項相當不同的業(yè)務:
1.個人信用信息局 — 包括美國三大信用信息局Equifax、Experian、和Trans Union 和很多小型個人信息公司。
2.信用評分 — 主要用于個人。FICO(費埃哲)基本上壟斷了這一行業(yè)。
3.商業(yè)信用信息局 — 未上市公司的信用信息主要由一家公司Dun & Bradstreet(鄧白氏)壟斷。上市公司信用信息公開,在美國證卷交易委員會(SEC)的網(wǎng)站上即可獲得。
4. 信用評級 — 主要用于商業(yè)公司。美國有很多企業(yè)在這一領域。但最重要的有三家Standard & Poor’s (S&P), Moody’s, 和 Fitch Group.
個人和企業(yè)征信有根本的區(qū)別。本文只討論個人征信。企業(yè)征信將在另一篇詳細論述。
在美國,當一個人到銀行去借錢,銀行要對借款人進行“5C” (Character、Capacity、Capital、Collateral、Conditions)貸前分析和審查,以確定借款者是否會還本付息。分析和審查需要的數(shù)據(jù),包括認識借款者是誰和其人品,以前是否借過錢,是不是有過借錢不還的記錄(Character);借多少錢,什么用途;最近幾年收入多少;借款人財產(chǎn)情況;根據(jù)收入和財產(chǎn)判斷它是否能按時還錢 (Capacity);如果借錢買房,本金占多少比例(Capital);房子價格、狀況(Collateral);此外還要分析當?shù)氐姆渴泻徒?jīng)濟情況(Conditions)。銀行會要求借款人提供一系列的證明材料:收入、財產(chǎn)證明、銀行月報、信用卡和已有房貸月報,以及其它報表;銀行的信貸員還要打電話給申請人單位或者登門拜訪,以了解申請人的人品、收入可靠性和穩(wěn)定性等。銀行要花很多時間,做很多工作。如果借款額大(在美國高于十萬美元),銀行有錢賺,借款人也可以理解。但如果是申請一個少于三萬美元的信用卡,上述的過程讓銀行代價太大,借款人也很麻煩。這個小額貸款對借貸雙方費用都太高,也就做不成了。當這成了一個需要解決的社會問題時,征信業(yè)應運而生,其目的是提供一個“信用檔案”來減少或取消信貸、保險及雇傭過程中所需數(shù)據(jù)的采集和費用。
美國《公平信用報告法案》解決個人征信問題
美國在1970年通過《公平信用報告法案》以后,通過幾十年的摸索和實踐,基本上解決了個人征信問題。房貸中的人品分析和已有債務在信用檔案中可以直接找到,減少了分析和審查的工作量。而對于無抵押小額貸款或信用卡申請,信用檔案加上申請人口頭報告的收入情況,就可以滿足貸前分析和審查的數(shù)據(jù)要求。這極大減少了銀行無抵押小額貸款或信用卡發(fā)行的費用,其結果是信用卡在2000年普及到美國成人人口的80%。
《公平信用報告法案》以法律的形式具體規(guī)定個人信用信息局、信息使用者和信息提供者的責任和義務。要求個人信息局公平、合理、準確,保護個人信息和隱私。法律指出消費者有了解自身信用文檔的權利;信息局對外透露個人信息須有信息主體本人書面同意或其他具體合理用途;當信息主體本人提出信息不準確不完整時,信息局和信息提供者必須調(diào)查并給與答復。該法案還規(guī)定,個人信用檔案中超過一定年限的負面紀錄必須刪除。例如,破產(chǎn)記錄只能保留7年。
至于信用評分使用的信息,法律界有一致的解釋?!豆叫庞脠蟾娣ò浮愤m用于個人信用評分使用的所有信息。這就是為什么FICO只使用信用信息局的信息來評分。
在《公平信用報告法案》通過之前,很多信息局的信息中,除了直接從債權人處獲取的屬于具體事實的消費者信用記錄,還有一部分被定義為“消費者調(diào)查報告”的非事實信息。它的目的是了解一個消費者的性格、信譽、個性特征及生活方式等;其信息是通過“調(diào)查訪談”認識或者知道被調(diào)查者的人群,比如被調(diào)查者的鄰居、朋友、同事或者合伙人等?!豆叫庞脠蟾娣ò浮穼@種調(diào)查行為和信息進行了詳細定義和具體限制,把它摒棄于公平信用報告之外,目的是使信用報告符合三大原則:準確性,透明性,相關性。
大數(shù)據(jù)征信難題
征信法律是大數(shù)據(jù)征信的第一個難題。
去年三月,美國國家消費者法律中心對主要的大數(shù)據(jù)征信公司進行了調(diào)查并發(fā)表了一篇重要的調(diào)查報告。題目是《大數(shù)據(jù),個人信用評分的大失望》。文章指出大數(shù)據(jù)征信公司的信息錯誤率高于50%。這些公司的數(shù)據(jù)模型繁多又復雜,使用不準確的數(shù)據(jù),有“垃圾進,垃圾出”之嫌。文章對這些公司的合法性提出質(zhì)疑,建議政府加強監(jiān)管。
大數(shù)據(jù)征信在中國問題更大?!罢餍殴芾項l例”明確規(guī)定“采集個人信息應當經(jīng)信息主體本人同意,未經(jīng)本人同意不得采集。”。這比美國《公平信用報告法案》對信息采集的要求更嚴格。如何按照條例要求,讓信息主體本人同意用沒人能說得清的大數(shù)據(jù)對其進行征信,這不是個容易事。
壞賬的“不可預測性”是大數(shù)據(jù)征信的第二個難題。
征信的目的是預測借款人是否會守信還貸。那么人為什么會借錢不還?這里面有兩個原因,一是有錢就是不還;二是想還就是沒錢。第一種情況在美國很少。原因是信用報告和就業(yè)、住房相關,對中產(chǎn)階級價值很高。有工作、有錢的人不會為幾萬美元債務毀掉自己的信用,這是賠本買賣。但是 2008年房貸危機后產(chǎn)生了一個比較特殊的現(xiàn)象叫做策略性欠債不還——借房貸的房主在房價下跌到比貸款額低很多的時候,再去買一棟房子,然后不付以前買房子欠的貸款,把以前的房子還給銀行。這一策略可以“套利”幾十萬美元。銀行只能把房子收回,損失幾十萬美元。雖然這些人的信用記錄上會有一個污點,但是這對信用報告的影響有限,因為其他的債務照付不誤。這種壞賬歷史上沒出現(xiàn)過。造成這一現(xiàn)象的原因一部分是經(jīng)濟和房價波動,但更主要的原因是政府政策失誤。大數(shù)據(jù)對這種壞賬的預測(征信)能力非常有限。
至于沒錢還債又可分成兩個原因。一個原因是借款人花錢花得多了,入不敷出。美國的一些研究調(diào)查顯示大概有三分之一的美國人是”月光族“ — 每個月把掙的錢基本上花光。這部分人很多是低收入,一旦發(fā)生意外,比如車禍、生病,或者別的一些緊急用錢的情況,他們就只能把能借到的錢都用上。這些借款的利息都很高,利滾利,時間久了,還不了債,就成了壞賬。有了壞賬信用評分就比較低。這部分人有一個不雅的統(tǒng)稱叫“次貸借款人” (subprime borrower),在個人信用信息局的檔案里占20%-25%。銀行根據(jù)信用報告和信用評分的信息識別這樣的客戶,對他們非常謹慎,貸款卡的緊,貸款額比較低,利息也比較高。美國幾乎所有大數(shù)據(jù)征信公司都是在做“ 次貸借款人” 的征信細分(包括頗受國內(nèi)關注的Zestfinance),聲稱可以通過大數(shù)據(jù)找出其中信用好的借貸人,但到目前成效不大。
另一個原因,也是最主要、最普遍的原因是借款人收入出了問題。美國人失業(yè)后可以領取失業(yè)保險金。美國“勞工統(tǒng)計局”的數(shù)字顯示在經(jīng)濟好的時候,每四個星期新增領取失業(yè)保險金的人口大約是28萬人,其中15%的人失業(yè)時間會超過半年,稱為長期失業(yè)。一年平均長期失業(yè)人口約為55萬。這個人群中多數(shù)也屬于“次貸借款人”。而在2009年經(jīng)濟危機的時候,每四個星期新增領取失業(yè)保險金的人是65萬,長期失業(yè)的比例是45%,當年長期失業(yè)人口約為380萬。也就是說,經(jīng)濟差的年份里長期失業(yè)率是經(jīng)濟好的時候的7.2倍,按人頭計算是增加了325萬人。增加的這部分長期失業(yè)人群大多數(shù)曾是“優(yōu)良借款人” (super-prime or prime borrowers)。
美國信用卡的壞賬率在2006年是3.5%,而在2010年是10.5%。這七個百分點的增加幾乎全部是新增長期失業(yè)人口造成的。經(jīng)濟好的時候,要預測哪年會發(fā)生經(jīng)濟危機、哪些人會失去工作、失去工作中的哪些人會賴賬,這是不可能的?,F(xiàn)在的經(jīng)濟情況和2006年有些相似,沒有聽說過用大數(shù)據(jù)預測下一個經(jīng)濟危機的,但要用大數(shù)據(jù)征信的公司倒有不少。如果清楚壞賬增加的主要原因是經(jīng)濟危機造成的失業(yè)等內(nèi)在的不可測性,那么大數(shù)據(jù)的局限性也就很明顯了。
大數(shù)據(jù)如何作用于金融領域
那么大數(shù)據(jù)在金融領域有沒有作為?答案是肯定的。大數(shù)據(jù)會促進銀行業(yè)的發(fā)展和變革,但它的應用領域會有兩個特點:1)對準確性的要求會比征信低一些; 2)會用很多錄音和影像視頻。在風險管理方面,大數(shù)據(jù)在減少欺詐、貸后管理以及壞賬征收方面有很多應用;在市場營銷,客戶管理,也有很多成功的例子。金融領域的大數(shù)據(jù)創(chuàng)新應該在這些方面下工夫。
總之,我們今天熟悉的個人信用報告體系是美國經(jīng)過半個世紀的摸索,實踐,提煉形成的。它以最高的效率、最低的成本解決了就業(yè)、信貸、保險交易過程中,信貸雙方財務和信用記錄信息不平衡的問題。由于信用報告是透明、準確的,所以對信息持有人是有價值的。從宏觀的角度來看,信用報告一方面降低了借款的成本,促進了美國內(nèi)需的增長;另一方面也促進了社會誠信,和諧的發(fā)展。美國成功的經(jīng)驗和好的法律條文很值得中國借鑒,汲取美國和其它西方國家征信業(yè)務中的優(yōu)點,改進其不完善的地方,中國有可能用十年的時間達到發(fā)達國家的征信水平。放著一個成功的樣本不去研究和學習,花很多時間和資金去搞一個以大數(shù)據(jù)為名義的“消費者調(diào)查報告”,名為創(chuàng)新,實際上是在走一段美國人走過的彎路子,實在沒有必要。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構:CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07