
忘掉大數(shù)據(jù)之“術(shù)”,點(diǎn)“數(shù)”成金
在剛剛結(jié)束的兩會(huì)上“互聯(lián)網(wǎng)金融”成為了代表委員們熱議的話題。從政府工作報(bào)告對(duì)互聯(lián)網(wǎng)金融發(fā)展的表述中可以看到,金融行業(yè)新一輪淘汰洗牌不可避免。在3月9日華夏互金私董會(huì)上,多位行業(yè)內(nèi)人士分析認(rèn)為,互聯(lián)網(wǎng)金融淘汰賽進(jìn)入到2.0時(shí)代。金融的本質(zhì)決定你能否活著,而互聯(lián)網(wǎng)則決定你的平臺(tái)能活多久。大數(shù)據(jù)已經(jīng)成為許多金融企業(yè)的核心資產(chǎn),通過機(jī)器學(xué)習(xí)和大規(guī)模的大數(shù)據(jù)分析,以一種完全不同的方式來更快更精準(zhǔn)的作出決策(如金融產(chǎn)品推薦),為企業(yè)創(chuàng)造更豐盛的價(jià)值,在眾多競爭對(duì)手中脫穎而出。但由于大數(shù)據(jù)行業(yè)普遍存在數(shù)據(jù)開放共享不足、基礎(chǔ)薄弱、應(yīng)用領(lǐng)域單一等問題,這些問題會(huì)直接影響到模型的好壞。本文由極光大數(shù)據(jù)研究院數(shù)據(jù)挖掘工程師余承樂撰寫,探討金融產(chǎn)品推薦中一種完美插補(bǔ)用戶行為數(shù)據(jù)缺失的算法。
研究背景:
基于海量的用戶行為數(shù)據(jù),極光大數(shù)據(jù)可提供全行業(yè)的綜合營銷整體解決方案,并且在低價(jià)值數(shù)據(jù)稠密、高價(jià)值數(shù)據(jù)稀疏處理上也有一定的研究。以金融產(chǎn)品智能推薦為例,眾所周知,數(shù)據(jù)稀疏性問題是影響推薦系統(tǒng)質(zhì)量的一個(gè)關(guān)鍵因素,它會(huì)直接造成推薦的準(zhǔn)確性不高。針對(duì)推薦系統(tǒng)中存在的數(shù)據(jù)稀疏性問題,最直接的解決辦法就是給空缺值設(shè)定一個(gè)固定的缺省值,一般設(shè)為評(píng)分域的中間值(如7分制評(píng)分中設(shè)為4),或者設(shè)為用戶對(duì)應(yīng)標(biāo)簽所有評(píng)分的平均值,這種方法在一定程度上可以提高推薦的精度,但是并不能從根本上解決用戶標(biāo)簽數(shù)據(jù)的稀疏性問題。
目前,已有很多專家提出了一些有效的解決數(shù)據(jù)稀疏性的方法。這些方法基本可以分為兩大類,一種是在數(shù)據(jù)稀疏性不變的情況下提高已有算法的精度,另一種就是采用一些可行的方法來盡量減小數(shù)據(jù)集的稀疏性。其中有用到奇異值分解(SVD)技術(shù),通過對(duì)輸入矩陣降維來降低數(shù)據(jù)稀疏性的。也有結(jié)合奇異值分解與最近鄰算法,通過奇異值分解平滑輸入矩陣,然后采用最近鄰算法預(yù)測目標(biāo)用戶的標(biāo)簽缺失值。但是降維通常會(huì)導(dǎo)致用戶標(biāo)簽信息丟失,并且分解算法復(fù)雜度高,在標(biāo)簽數(shù)據(jù)極端稀疏的情況下,效果并不理想。也有通過計(jì)算項(xiàng)目相似度來填充標(biāo)簽矩陣的方法,通過項(xiàng)目聚類,確保在同一類用戶中,所有用戶的標(biāo)簽評(píng)分最為相似。還有提出一種基于k-means 聚類的方法,首先對(duì)用戶聚類,利用同類中的平均評(píng)分來預(yù)測標(biāo)簽矩陣中的缺失評(píng)分,這在一定程度上解決了數(shù)據(jù)稀疏的問題。不過這些插補(bǔ)方法都有其局限性,并不能很好的應(yīng)用于全場景。
極光研究方案:
本文將重點(diǎn)講述極光大數(shù)據(jù)是怎樣利用改進(jìn)后的RBF神經(jīng)網(wǎng)絡(luò)算法來高效預(yù)測用戶標(biāo)簽缺失值填充稀疏矩陣,并對(duì)最終的推薦系統(tǒng)產(chǎn)生積極作用的。
首先我們需要構(gòu)建一個(gè)RBF神經(jīng)網(wǎng)絡(luò)。RBF神經(jīng)網(wǎng)絡(luò)的構(gòu)建過程關(guān)鍵在于隱含層的設(shè)計(jì)。好的隱含層架構(gòu)可以有效地提高神經(jīng)網(wǎng)絡(luò)性能,反之則會(huì)讓網(wǎng)絡(luò)性能大打折扣或者增加學(xué)習(xí)代價(jià)。隱含層的設(shè)計(jì)關(guān)鍵在于隱含層中心節(jié)點(diǎn)的選擇。和傳統(tǒng)的指定節(jié)點(diǎn)個(gè)數(shù)不同的是,我們?cè)O(shè)計(jì)了一種動(dòng)態(tài)自適應(yīng)的選擇方法。首先隨機(jī)確定一批中心節(jié)點(diǎn),然后在此基礎(chǔ)上運(yùn)用自適應(yīng)算法動(dòng)態(tài)確定中心節(jié)點(diǎn)數(shù)。設(shè)隨機(jī)選擇的中心節(jié)點(diǎn)數(shù)目為n,每個(gè)中心節(jié)點(diǎn)對(duì)應(yīng)的節(jié)點(diǎn)為ki。
這樣就可以有效的解決依靠經(jīng)驗(yàn)指定RBF神經(jīng)網(wǎng)絡(luò)隱含層中心節(jié)點(diǎn)個(gè)數(shù)存在的問題了。
在構(gòu)建的用戶標(biāo)簽評(píng)分矩陣中,由于用戶標(biāo)簽數(shù)據(jù)的稀疏性,會(huì)直接影響到用戶相似度的計(jì)算,造成推薦系統(tǒng)的推薦質(zhì)量難以保證。針對(duì)稀疏矩陣的補(bǔ)全,我們利用已構(gòu)建的RBF神經(jīng)網(wǎng)絡(luò)來預(yù)測標(biāo)簽評(píng)分矩陣中的空缺值,填充到原始稀疏矩陣中。
實(shí)證效果:
為了驗(yàn)證算法的有效性,我們采用了極光用戶畫像數(shù)據(jù)集進(jìn)行試驗(yàn)。數(shù)據(jù)集通過**銀行客戶對(duì)其七類金融產(chǎn)品的購買行為做正樣本,為其他客戶提供相應(yīng)的產(chǎn)品推薦列表。樣本數(shù)據(jù)集由10000名用戶的有效行為特征標(biāo)簽評(píng)分和對(duì)該網(wǎng)推出的七類金融產(chǎn)品的購買行為數(shù)據(jù)組成。根據(jù)試驗(yàn)需要,我們將數(shù)據(jù)分為訓(xùn)練集(80%)和測試集(20%)兩部分。
分別采用常用的均值插補(bǔ)和文中提出的算法進(jìn)行稀疏矩陣填充,各自生成新的用戶評(píng)分矩陣。這里舉例展示矩陣插補(bǔ)的效果,U表示評(píng)分用戶,L表示有效行為特征標(biāo)簽。表1是原始用戶行為特征評(píng)分矩陣,表2是均值插補(bǔ)后的矩陣,表3是改進(jìn)算法填充后的矩陣。
通過經(jīng)典協(xié)同過濾算法對(duì)測試用戶進(jìn)行推薦,得出兩套推薦結(jié)果。我們采用推薦系統(tǒng)評(píng)價(jià)指標(biāo)中的多樣性作為此次評(píng)價(jià)標(biāo)準(zhǔn)。好的推薦結(jié)果中要體現(xiàn)多樣性,比如看電影,我既喜歡看格斗類的電影,同時(shí)又喜歡愛文藝,那么給我的推薦列表中就應(yīng)該這兩個(gè)類型的電影都有,而且得根據(jù)我愛好比例來推薦,比如我平時(shí)80%是看格斗類的,20%是看文藝類的,那么推薦結(jié)果中最好也是這個(gè)比例??梢愿鶕?jù)物品間的相似度來計(jì)算,一個(gè)推薦列表中如果所有物品間的相似度都比較高,那么往往說明都是同一類物品,缺乏多樣性。表4、5分別為兩種插補(bǔ)后的用戶推薦列表,F(xiàn)IN1~7分別代表消費(fèi)金融類、借貸金融類、小額現(xiàn)金借貸類、金融中介、支付金融類、傳統(tǒng)金融(銀行類)和汽車金融共七類金融產(chǎn)品。
這里我們用差異系數(shù)(CV)來評(píng)價(jià)推薦的多樣性??梢院苤庇^的看到表2的差異系數(shù)遠(yuǎn)遠(yuǎn)大于表1,而且表2中對(duì)任一用戶七類金融產(chǎn)品的推薦強(qiáng)弱排序與表1是保持一致的。這不僅說明了改進(jìn)算法插補(bǔ)后的用戶推薦更具多樣性,而且進(jìn)一步證明了改進(jìn)的RBF神經(jīng)網(wǎng)絡(luò)算法既能很好的解決標(biāo)簽稀疏問題,又可以完整的保持用戶的原始行為特征。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的RBF神經(jīng)網(wǎng)絡(luò)算法可以很好的解決用戶標(biāo)簽的稀疏性問題,提高推薦系統(tǒng)的準(zhǔn)確度,豐富推薦結(jié)果的多樣性。
總結(jié):
在金融行業(yè)中,大數(shù)據(jù)的應(yīng)用范圍很廣,例如花旗銀行通過大數(shù)據(jù)分析為財(cái)富管理客戶推薦產(chǎn)品,美國銀行利用積累的客戶點(diǎn)擊數(shù)據(jù)為客戶提供有競爭的信用額度服務(wù),招商銀行利用客戶行為數(shù)據(jù)定時(shí)給客戶推送針對(duì)性的廣告,里面有客戶可能感興趣的理財(cái)產(chǎn)品和優(yōu)惠信息。不僅是金融領(lǐng)域,醫(yī) 療行業(yè)、生物技術(shù)、零售業(yè)、電商、農(nóng)牧業(yè)等等,各行各業(yè)的發(fā)展都一直在依賴著數(shù)據(jù),通過機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析,決策者將會(huì)發(fā)現(xiàn)決定一件事、判斷一件事、了解一件事不再變得困難。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10