
大數(shù)據(jù)就像煤礦,那“大礦主”BAT 是如何運(yùn)作金融大數(shù)據(jù)的
新年開(kāi)工,李彥宏的內(nèi)部信就在朋友圈中引發(fā)了一波刷屏。李彥宏說(shuō),“這樣一個(gè)時(shí)代,是很明顯的金融創(chuàng)新的新時(shí)代” ,這充分表明金融業(yè)務(wù)將是百度未來(lái)的四大方向之一。而他的一句“數(shù)據(jù)秒殺一切算法”,更是從側(cè)面透露了以大數(shù)據(jù)為代表的人工智能技術(shù)將成為百度金融的必殺技。
金融創(chuàng)新很大一部分原因在于大數(shù)據(jù)和金融之間的結(jié)合??v觀BAT、京東、小米、萬(wàn)達(dá)、平安這些把觸角伸到互聯(lián)網(wǎng)金融領(lǐng)域的巨頭,無(wú)一不是在大數(shù)據(jù)層面上有所布局。大數(shù)據(jù)和金融相結(jié)合,幾乎已經(jīng)成為金融領(lǐng)域的通用做法。
金融數(shù)據(jù)都像是煤礦,價(jià)值含量、挖掘成本更重要
談數(shù)據(jù)必須先談數(shù)據(jù)的完整度和價(jià)值含量。就像煤礦一樣,大數(shù)據(jù)中的價(jià)值含量、挖掘成本比數(shù)量更為重要。非結(jié)構(gòu)化數(shù)據(jù),就像是有雜質(zhì)的煤礦,無(wú)法直接使用。大數(shù)據(jù)還需要進(jìn)行脫敏、提純、結(jié)構(gòu)化,才能變成可以被直接運(yùn)用于商業(yè)層面的有價(jià)值的信息。
金融數(shù)據(jù)作為專業(yè)度要求更高的數(shù)據(jù)尤為如此。對(duì)于BAT三家而言,布局其實(shí)都比較完整。 2015年年底的時(shí)候,阿里集團(tuán)透露,在阿里數(shù)據(jù)平臺(tái)事業(yè)部的服務(wù)器上,攢下了超過(guò)100PB已處理過(guò)的數(shù)據(jù)。
BAT三家公司,數(shù)據(jù)體積相差不會(huì)太多, 三家?guī)缀醵加蠰BS、交易、社交等一系列不同維度數(shù)據(jù),只是能力有所區(qū)別。
比如說(shuō),百度有地圖、貼吧、糯米、外賣、Uber、攜程、去哪兒;阿里有高德、微博、口碑、支付寶、飛豬、優(yōu)酷等;而騰訊有微信、QQ、京東、新美大等。
三家數(shù)據(jù)核心優(yōu)勢(shì)可以如此簡(jiǎn)單劃分
百度:基于搜索而誕生的公共數(shù)據(jù)、需求數(shù)據(jù)。百度的優(yōu)勢(shì)在于數(shù)據(jù)最全面,數(shù)據(jù)樣本比較復(fù)雜,數(shù)據(jù)的廣度和多樣性上比較強(qiáng),擁有核心技術(shù)和數(shù)據(jù)礦山,而且是一座富礦。
阿里:基于淘寶天貓業(yè)務(wù)而誕生的電商數(shù)據(jù)、信用數(shù)據(jù)。阿里的核心業(yè)務(wù)在電子商務(wù)上,數(shù)據(jù)比較聚集,更容易做分析。這種數(shù)據(jù)類型的優(yōu)勢(shì)在于,更容易變現(xiàn),挖掘出商業(yè)價(jià)值。
騰訊:基于微信、QQ誕生的社交數(shù)據(jù)、關(guān)系數(shù)據(jù),以及游戲數(shù)據(jù),相對(duì)較雜。不過(guò),容易分析人們的生活和行為,從里面挖掘出商業(yè)、健康等領(lǐng)域的信息。
大數(shù)據(jù)領(lǐng)域有這樣一種說(shuō)法——所有的數(shù)據(jù)都是風(fēng)險(xiǎn)數(shù)據(jù)。而拍拍貸風(fēng)險(xiǎn)副總裁顧鳴博士之前提出過(guò)一個(gè)金字塔結(jié)構(gòu)圖。
在這張圖中,征信數(shù)據(jù)位于金字塔的頂端。往下走是消費(fèi)數(shù)據(jù)、運(yùn)營(yíng)商數(shù)據(jù)、社交數(shù)據(jù)、行為數(shù)據(jù)以及其他數(shù)據(jù)。
越是靠近金字塔的頂部,大數(shù)據(jù)在風(fēng)控領(lǐng)域的應(yīng)用就會(huì)越直接,獲取數(shù)據(jù)的難度隨之增加,覆蓋率當(dāng)然會(huì)降低;相反,越是靠近金字塔的底部,大數(shù)據(jù)在風(fēng)控方面的應(yīng)用難度就越大,但是數(shù)據(jù)的數(shù)量和覆蓋率都會(huì)變大。
把BAT三家套入這個(gè)金字塔結(jié)構(gòu)中就會(huì)發(fā)現(xiàn)。阿里的數(shù)據(jù)離變現(xiàn)幾乎只有一步之遙。阿里以電商-支付-信用為三級(jí)跳板,針對(duì)性很強(qiáng),數(shù)據(jù)價(jià)值純度高,金融數(shù)據(jù)的整合上做的也比較完善,缺點(diǎn)是覆蓋面還是不夠。不過(guò),這些年來(lái)不斷收購(gòu)、入股優(yōu)酷、微博、高德等一系列企業(yè),阿里數(shù)據(jù)維度其實(shí)也在越來(lái)越豐富,也在不斷往金字塔的底層下探。
騰訊有社交、行為數(shù)據(jù),這些數(shù)據(jù)不能直接運(yùn)用,但獲取的信息會(huì)更豐富。而騰訊目前的大數(shù)據(jù)策略是先將產(chǎn)品補(bǔ)全,產(chǎn)品后臺(tái)數(shù)據(jù)打通,形成穩(wěn)定生態(tài)圈。本階段先利用大數(shù)據(jù)挖掘改進(jìn)自己的產(chǎn)品。后期有成熟的模式合適的產(chǎn)品,則利用自家的社交及關(guān)系數(shù)據(jù)時(shí),開(kāi)展對(duì)大數(shù)據(jù)的進(jìn)一步挖掘。
雖說(shuō)有人認(rèn)為百度和騰訊很多數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),在風(fēng)控上的運(yùn)用難度較大,很難直接商業(yè)化。不過(guò),這些數(shù)據(jù)恰恰是金字塔最底層的數(shù)據(jù)。在普惠金融的環(huán)境下,互聯(lián)網(wǎng)全域大數(shù)據(jù)帶來(lái)的價(jià)值不可忽略。
百度的數(shù)據(jù)最為全面、完善,覆蓋面最廣。互聯(lián)網(wǎng)環(huán)境下,每個(gè)人都會(huì)在網(wǎng)上留下痕跡。因此,位于底層的互聯(lián)網(wǎng)行為數(shù)據(jù)覆蓋面最廣,維度最多樣,對(duì)破解我國(guó)數(shù)億成年人尤其是草根群體的信用空白難題幫助最大。
表面上看這些數(shù)據(jù)大多數(shù)和金融無(wú)關(guān),但如果挖掘得當(dāng),能夠通過(guò)建立模型,給用戶勾勒出比較準(zhǔn)確的畫像。讓那些看似與風(fēng)險(xiǎn)不太相關(guān)的數(shù)據(jù)在互聯(lián)網(wǎng)金融風(fēng)控的場(chǎng)景中體現(xiàn)價(jià)值。
四個(gè)角度告訴你,金融大數(shù)據(jù)到底用在了哪些地方
之所以要花這么大的篇幅去談三家的數(shù)據(jù)來(lái)源,主要還是因?yàn)榻裉鞜o(wú)論是金融、電商、物流、生活服務(wù)等各個(gè)領(lǐng)域,其實(shí)都離不開(kāi)維度全面的數(shù)據(jù)。
因?yàn)閿?shù)據(jù)維度越豐富,對(duì)用戶粗顆粒的畫像就會(huì)越了解。某一個(gè)畫像的用戶到底喜歡什么,都可以一清二楚地了解到。企業(yè)也能夠面對(duì)做很多有針對(duì)性的營(yíng)銷。
尤其是在金融領(lǐng)域,企業(yè)對(duì)大數(shù)據(jù)掌握越全面,所能涉及到的業(yè)務(wù)也會(huì)越豐富。BAT數(shù)據(jù)最豐富,在金融業(yè)務(wù)領(lǐng)域橫亙支付、貸款、理財(cái)、保險(xiǎn)、證券、銀行、征信、基金、眾籌等各個(gè)領(lǐng)域。而小米、京東、萬(wàn)達(dá)等企業(yè)因?yàn)轶w量、數(shù)據(jù)等相對(duì)而言優(yōu)勢(shì)不大,則會(huì)在這9個(gè)領(lǐng)域中缺失某些領(lǐng)域的布局。
BAT在9個(gè)領(lǐng)域的布局,其實(shí)都是以大數(shù)據(jù)為核心串聯(lián)在一起的。無(wú)論是征信、風(fēng)控、消費(fèi)金融、財(cái)富管理都或多或少運(yùn)用到了大數(shù)據(jù)。
1、大數(shù)據(jù)征信:在個(gè)人征信領(lǐng)域,目前是金融行業(yè)面臨的最大問(wèn)題?;谟脩粼诨ヂ?lián)網(wǎng)上的消費(fèi)行為、社交行為、搜索行為等產(chǎn)生的海量數(shù)據(jù),其價(jià)值并未被充分挖掘,個(gè)人征信在大數(shù)據(jù)的采集和信息挖掘上面仍有很大的想象空間。
阿里的芝麻信用在其中算是最會(huì)玩的。芝麻信用幾乎打通了用戶的身份特質(zhì),行為偏好,人脈關(guān)系,信用歷史,履約能力等各類信息。這恰恰是因?yàn)榻尤肓穗娚?、支付、社交等各類?shù)據(jù)維度。
2、大數(shù)據(jù)風(fēng)控:大數(shù)據(jù)風(fēng)控目前應(yīng)該是前沿技術(shù)在金融領(lǐng)域的最成熟應(yīng)用,相對(duì)于智能投顧、區(qū)塊鏈等還在初期的金融科技應(yīng)用,大數(shù)據(jù)風(fēng)控目前已經(jīng)在業(yè)界逐步普及。目前,美國(guó)基本上都用三大征信局的信息,最傳統(tǒng)的評(píng)分基本上都是用FICO來(lái)做的。各家平臺(tái)會(huì)嘗試著用機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等大數(shù)據(jù)處理方法。
國(guó)內(nèi)市場(chǎng)對(duì)于大數(shù)據(jù)風(fēng)控的嘗試還是比較積極。特別是大公司,可以將移動(dòng)互聯(lián)網(wǎng)的行為和貸款申請(qǐng)人聯(lián)系到一起展開(kāi)大數(shù)據(jù)風(fēng)控。百度在風(fēng)控層面上的進(jìn)展還是比較突出,百度安全每天要處理數(shù)十億網(wǎng)民搜索請(qǐng)求,保護(hù)數(shù)億用戶的終端安全,保護(hù)十萬(wàn)網(wǎng)站的安全,因此積累了大量的數(shù)據(jù)。
一個(gè)很具體的案例就是,通過(guò)海量互聯(lián)網(wǎng)行為數(shù)據(jù),比如監(jiān)測(cè)相關(guān)設(shè)備ID在哪些借貸網(wǎng)站上進(jìn)行注冊(cè)、同一設(shè)備是否下載多個(gè)借貸App,可以實(shí)時(shí)發(fā)現(xiàn)多頭貸款的征兆,把風(fēng)險(xiǎn)控制到最低。
3、大數(shù)據(jù)消費(fèi)金融:消費(fèi)金融對(duì)大數(shù)據(jù)的依賴是天然形成的。比如說(shuō)消費(fèi)貸、工薪貸、學(xué)生貸,這些消費(fèi)型的金融貸款很依賴對(duì)用戶的了解。所以必須對(duì)用戶畫像進(jìn)行分析提煉,通過(guò)相關(guān)模型展開(kāi)風(fēng)險(xiǎn)評(píng)估,并根據(jù)模型及數(shù)據(jù)從多維度為用戶描繪一個(gè)立體化的畫像。
百度金融的優(yōu)勢(shì)在于,通過(guò)基于大數(shù)據(jù)和人工智能技術(shù)為基礎(chǔ)的合作商戶管理平臺(tái),為合作商戶提供涵蓋營(yíng)銷和金融服務(wù)的全面管理方案,降低獲客成本,解決細(xì)分行業(yè)的微小需求。一方面可以降低風(fēng)險(xiǎn),另一方面也能提升金融的安全度。
在大數(shù)據(jù)消費(fèi)金融的領(lǐng)域中,騰訊和阿里的優(yōu)勢(shì)很大程度上是在渠道層面上的。正如前文所說(shuō)的,阿里以電商-支付-信用為三級(jí)跳板,針對(duì)性很強(qiáng)支付寶接入消費(fèi)金融產(chǎn)品之后會(huì)有較強(qiáng)的渠道作用。而在去年12月,騰訊的“微粒貸”已經(jīng)接入到了微信支付當(dāng)中。在消費(fèi)金融的發(fā)展速度上,騰訊速度也不差。
4、大數(shù)據(jù)財(cái)富管理:財(cái)富管理是近些年來(lái)在我國(guó)金融服務(wù)業(yè)中出現(xiàn)的一個(gè)新業(yè)務(wù)。主要為客戶提供長(zhǎng)期的投顧服務(wù),實(shí)現(xiàn)客戶資產(chǎn)的優(yōu)化配置。這方面業(yè)務(wù)在傳統(tǒng)金融機(jī)構(gòu)中存在的比較多。不過(guò)因?yàn)榧夹g(shù)能力不足,大數(shù)據(jù)財(cái)富管理在傳統(tǒng)金融機(jī)構(gòu)中相對(duì)弱勢(shì)。
財(cái)富管理在互聯(lián)網(wǎng)公司的業(yè)務(wù)中也非常流行。螞蟻金服一開(kāi)始最為簡(jiǎn)單的財(cái)富管理方式就是余額寶,后來(lái)逐漸演化成經(jīng)過(guò)大數(shù)據(jù)計(jì)算智能推薦給用戶的各種標(biāo)準(zhǔn)化的“寶寶”理財(cái)產(chǎn)品。百度金融是依托“百度大腦”通過(guò)互聯(lián)網(wǎng)人工智能、大數(shù)據(jù)分析等手段,精準(zhǔn)識(shí)別和刻畫用戶,提供專業(yè)的“千人千面”的定制化財(cái)富管理服務(wù)。
金融大數(shù)據(jù)的孿生兄弟金融云是地基,未來(lái)更具看點(diǎn)
大數(shù)據(jù)和云計(jì)算永遠(yuǎn)都是相伴相隨的一對(duì)孿生兄弟。金融大數(shù)據(jù)核心工作包括三方面,即獲取數(shù)據(jù)、建立模型、模型在實(shí)踐中優(yōu)化、迭代。而對(duì)于金融大數(shù)據(jù)而言,金融云才是它的地基。
打個(gè)不恰當(dāng)?shù)谋确?,前文中說(shuō)大數(shù)據(jù)是煤礦,而金融云其實(shí)就是礦井。礦井的安全行、可靠性決定了挖煤的效率和結(jié)果。
金融云把底層技術(shù)很多問(wèn)題都解決了。大量金融模型都是金融云所引入的,如客戶模型、產(chǎn)品模型、賬務(wù)模型等。同時(shí)金融云關(guān)注金融本身的嚴(yán)謹(jǐn)性和周密性、安全性的考慮。
2016年7月,“騰訊云+未來(lái)”峰會(huì)上,騰訊云和騰訊金融云都已成為最重點(diǎn)部署的業(yè)務(wù)。同年9月,百度世界大會(huì)金融科技分論壇上,百度金融云正式向業(yè)界開(kāi)放。10月,阿里云棲大會(huì)上,阿里金融云負(fù)責(zé)人則是提出將會(huì)和生態(tài)合作伙伴、服務(wù)聯(lián)盟為金融行業(yè)量身定制推出云增強(qiáng)服務(wù)。
大數(shù)據(jù)必須要跑在云端,而金融大數(shù)據(jù)更需要和業(yè)內(nèi)其他企業(yè)展開(kāi)數(shù)據(jù)、支付、業(yè)務(wù)等一系列的合作。金融云對(duì)可用性、安全性的要求嚴(yán)格,比如說(shuō)對(duì)一個(gè)高度可控可信的云安全體系而言,基礎(chǔ)環(huán)境安全、風(fēng)控與審計(jì)、數(shù)據(jù)安全三者缺一不可。而金融云在未來(lái)的競(jìng)爭(zhēng)中將發(fā)揮越來(lái)越重要的作用。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10