
社交數(shù)據(jù)在征信領(lǐng)域的應(yīng)用探索
在WOT”互聯(lián)網(wǎng)+”時代大數(shù)據(jù)技術(shù)峰會上,來自騰訊數(shù)據(jù)挖掘高級工程師劉黎春做了以《社交數(shù)據(jù)在征信領(lǐng)域的應(yīng)用探索》為主題的演講,主要內(nèi)容由社交征信背景、騰訊社交網(wǎng)絡(luò)數(shù)據(jù)、個體用戶畫像研究、社團(tuán)圈子研究、模型建設(shè)及應(yīng)用這五部分構(gòu)成,下面我們就逐一為大家介紹各部分的內(nèi)容。
社交征信背景
劉黎春表示,征信并不是一個簡單征信評分的模型,而是由數(shù)據(jù)公司、征信公司、征信使用方三部分組成。數(shù)據(jù)公司就是采集或做一些數(shù)據(jù)的初步挖掘,這類公司可能會有特殊的數(shù)據(jù)源,例如法院、公安等這些數(shù)據(jù)都是需要深入行業(yè)背景才能拿到。征信公司是有一個產(chǎn)權(quán)聯(lián)系,另外它也會向第三方一些數(shù)據(jù)公司去購買一些數(shù)據(jù)回來,豐富它數(shù)據(jù)的維度,并且基于這些數(shù)據(jù)去做一些征信的事情,提供一些征信級的解決方案。征信使用方就是征信的解決方案最后給到誰來用。一般來說我們的理解就是銀行和P2P的貸款機(jī)構(gòu)。這三部分綜合起來,就形成了一個整體的征信行業(yè)的產(chǎn)業(yè)鏈。
傳統(tǒng)征信相關(guān)機(jī)構(gòu)
美國著名征信公司
國內(nèi)征信發(fā)展歷程
綜合以上四圖的數(shù)據(jù)來看,如果社交數(shù)據(jù)可以用到征信中的話,是不是可以對央行的征信系統(tǒng)做一個很好的補(bǔ)充呢?劉黎春表示,這是騰訊在做社交征信項(xiàng)目時最開始思考的問題。社交數(shù)據(jù)非常龐大,但并不一定都是有效數(shù)據(jù),還要看具體應(yīng)用的業(yè)務(wù)場景是不是和數(shù)據(jù)有相關(guān)性,這些數(shù)據(jù)是不是真的能夠用到最后的模型或者算法中去。這樣問題就接踵而來,社交數(shù)據(jù)與信用評級有關(guān)系嗎? 交易數(shù)據(jù)天然具備金融屬性,社交數(shù)據(jù)有嗎? 社交數(shù)據(jù)非結(jié)構(gòu)化程度高,怎么挖掘并有效使用?
騰訊社交網(wǎng)絡(luò)數(shù)據(jù)
在談騰訊社交網(wǎng)絡(luò)數(shù)據(jù)構(gòu)成之前,劉黎春先介紹了傳統(tǒng)征信的分析維度。其一是用戶的基礎(chǔ)信息,如年齡、性別、職業(yè)、收入、婚姻狀況,工作年限,工作狀況等基本上和每家銀行或者每個做征信的機(jī)構(gòu)獲得的數(shù)據(jù)都差不多。其二是信貸情況,看用戶申請幾張信用卡,最近一個月的征信報(bào)告被查詢的次數(shù),因?yàn)槲覀兇蠹叶贾勒餍艌?bào)告被查詢的次數(shù)可以直接代表最近有沒有比較頻繁地做貸款的申請或者信用卡申請。如果最近的次數(shù)特別多,那說明這個人最近非常缺錢,可能就會影響信用,直接影響授信額度。
上圖是騰訊的數(shù)據(jù)現(xiàn)狀,包含了很多維度的數(shù)據(jù),覆蓋的用戶數(shù)相對來說更加全面一些。
騰訊社交征信SWOT分析
上圖為騰訊社交征信SWOT分析,優(yōu)勢、劣勢、機(jī)會、風(fēng)險(xiǎn)一目了然。有了這樣詳細(xì)的分析,做個人征信是必然的事情,但做征信之前要清楚的知道征信對象是什么樣子,所以開始著手做個體用戶畫像的研究。
個體用戶畫像研究
劉黎春表示,做個體用戶畫像研究遇到的挑戰(zhàn)主要有如下三方面:其一,如何充分利用騰訊各種豐富的數(shù)據(jù)資源及之間的聯(lián)系?其二,如何使用戶畫像適應(yīng)各種不同的應(yīng)用場景?其三,如何高效的處理海量的用戶數(shù)據(jù)(超過10億的QQ用戶, 超過千億級別的各類日志數(shù)據(jù)) ?面對這些挑戰(zhàn),劉黎春給出來相應(yīng)的解決方案如下:
1.針對不同的底層數(shù)據(jù)類型設(shè)計(jì)特定的挖掘算法,挖掘用戶的行為特征,形成底 層標(biāo)簽。綜合考慮不同數(shù)據(jù)來源的,形成更上層的抽象用戶標(biāo)簽
2.建立完善的用戶畫像標(biāo)簽體系結(jié)構(gòu),從不同維度、粒度對用戶進(jìn)行描述。
3.搭建用戶畫像挖掘系統(tǒng),基于大規(guī)模存儲和機(jī)器學(xué)習(xí)計(jì)算平臺,定期對全 量用戶數(shù)據(jù)進(jìn)行計(jì)算和挖掘,并提供用戶標(biāo)簽的使用和查詢服務(wù)。
用戶畫像系統(tǒng)架構(gòu)
用戶畫像行業(yè)挖掘
用戶畫像挖掘結(jié)果
個人用戶畫像研究的結(jié)果就是把結(jié)構(gòu)化數(shù)據(jù),文本分類,LBS數(shù)據(jù),社交網(wǎng)絡(luò)傳播擴(kuò)散這些挖掘之后形成一個比較完整的畫像,比如說人口的一些基礎(chǔ)屬性如年齡、家鄉(xiāng)、興趣等。同時也會對用戶婚姻狀況來做一個判斷。有了這些數(shù)據(jù)之后,就可以基于這些用戶數(shù)據(jù)去做很多社交征信工作。
社團(tuán)圈子研究
這里說到的社團(tuán)圈子其實(shí)就是QQ圈子,劉黎春表示,在2012年有一個社交網(wǎng)絡(luò)的成果非常有影響力,那就是把挖掘出來的結(jié)果作用到整個前端的QQ用戶。具體案例就是如用戶的某個同事,你們并不是直接的好友關(guān)系,但騰訊會知道這期間的潛在關(guān)系,或自動分到同事分組并同時加上備注。這個結(jié)果在當(dāng)時引起了很大爭議有人覺得對于他們找到一些潛在好友提供便利,但有些人覺得觸碰了他們的隱私。
QQ圈子除了它自己本身之外,也會把它作用到很多場其他景里去,比如說用它來挖掘?qū)W歷的信息,基于QQ圈子好友的備注,如說很多人把這個用戶備注成一個本科同學(xué),那系統(tǒng)可能會判斷我的學(xué)歷是本科學(xué)歷。這樣的數(shù)據(jù)騰訊是拿一些真實(shí)的數(shù)據(jù)做過驗(yàn)證,數(shù)據(jù)覆蓋率大概能覆蓋74%,準(zhǔn)確到90%以上。
社交網(wǎng)絡(luò)拓?fù)涞膽?yīng)用
社交網(wǎng)絡(luò)拓?fù)涞膽?yīng)用無外乎有兩種,其一是是判斷拓?fù)涞念愋?,其二是研究這些類型在這個關(guān)系鏈里的影響力。比較有標(biāo)志性的拓?fù)漕愋陀腥切魏托男蛢煞N結(jié)構(gòu)。
模型建設(shè)及應(yīng)用
那么要如何把個體用戶畫像和社團(tuán)圈子的研究,用到模型中去呢?劉黎春表示,首先要做的事情就是先建立一個社交模型,但在建模之前要做一些基本假設(shè),如兩個QQ號碼是屬于同一個人的話有一些比較明顯的特征,第一個他會經(jīng)常在同一個設(shè)備里面登陸,或者在同樣的IP里面登陸,或者它有其他特征的表現(xiàn)等等。最后把這些特征用來建立模型,去判斷說某幾個QQ號碼背后對應(yīng)的到底是不是同樣一個人,這個的準(zhǔn)確率大概是85%,覆蓋率是75%左右。
變量衍生與模型結(jié)果
模型整體效果
微粒貸應(yīng)用
最后劉黎春介紹征信模型運(yùn)用到微粒貸中的具體應(yīng)用流程,上圖為產(chǎn)品截圖。打開QQ如果能夠看到微粒貸入口,說明是在騰訊篩選出的白名單里面。只要你點(diǎn)擊了申請開通,它會馬上給你算一個額度出來,如果你要借款,這個也是非常快,只要你綁定了你的銀行卡,應(yīng)該在兩分鐘之內(nèi)會把你的借款打到你的賬上。其實(shí)這個相對于去傳統(tǒng)銀行借款的話,它這個效率是有一個質(zhì)的飛躍。但其前臺產(chǎn)品表現(xiàn)得越簡單,它背后的技術(shù)可能是越復(fù)雜的技術(shù)。征信模型作為微粒貸背后技術(shù)就是為了篩選具有良好信用的用戶,為這些用戶提供貸款服務(wù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10