
忘掉大數據之“術”,點“數”成金
在剛剛結束的兩會上“互聯網金融”成為了代表委員們熱議的話題。從政府工作報告對互聯網金融發(fā)展的表述中可以看到,金融行業(yè)新一輪淘汰洗牌不可避免。在3月9日華夏互金私董會上,多位行業(yè)內人士分析認為,互聯網金融淘汰賽進入到2.0時代。金融的本質決定你能否活著,而互聯網則決定你的平臺能活多久。大數據已經成為許多金融企業(yè)的核心資產,通過機器學習和大規(guī)模的大數據分析,以一種完全不同的方式來更快更精準的作出決策(如金融產品推薦),為企業(yè)創(chuàng)造更豐盛的價值,在眾多競爭對手中脫穎而出。但由于大數據行業(yè)普遍存在數據開放共享不足、基礎薄弱、應用領域單一等問題,這些問題會直接影響到模型的好壞。本文由極光大數據研究院數據挖掘工程師余承樂撰寫,探討金融產品推薦中一種完美插補用戶行為數據缺失的算法。
研究背景:
基于海量的用戶行為數據,極光大數據可提供全行業(yè)的綜合營銷整體解決方案,并且在低價值數據稠密、高價值數據稀疏處理上也有一定的研究。以金融產品智能推薦為例,眾所周知,數據稀疏性問題是影響推薦系統(tǒng)質量的一個關鍵因素,它會直接造成推薦的準確性不高。針對推薦系統(tǒng)中存在的數據稀疏性問題,最直接的解決辦法就是給空缺值設定一個固定的缺省值,一般設為評分域的中間值(如7分制評分中設為4),或者設為用戶對應標簽所有評分的平均值,這種方法在一定程度上可以提高推薦的精度,但是并不能從根本上解決用戶標簽數據的稀疏性問題。
目前,已有很多專家提出了一些有效的解決數據稀疏性的方法。這些方法基本可以分為兩大類,一種是在數據稀疏性不變的情況下提高已有算法的精度,另一種就是采用一些可行的方法來盡量減小數據集的稀疏性。其中有用到奇異值分解(SVD)技術,通過對輸入矩陣降維來降低數據稀疏性的。也有結合奇異值分解與最近鄰算法,通過奇異值分解平滑輸入矩陣,然后采用最近鄰算法預測目標用戶的標簽缺失值。但是降維通常會導致用戶標簽信息丟失,并且分解算法復雜度高,在標簽數據極端稀疏的情況下,效果并不理想。也有通過計算項目相似度來填充標簽矩陣的方法,通過項目聚類,確保在同一類用戶中,所有用戶的標簽評分最為相似。還有提出一種基于k-means 聚類的方法,首先對用戶聚類,利用同類中的平均評分來預測標簽矩陣中的缺失評分,這在一定程度上解決了數據稀疏的問題。不過這些插補方法都有其局限性,并不能很好的應用于全場景。
極光研究方案:
本文將重點講述極光大數據是怎樣利用改進后的RBF神經網絡算法來高效預測用戶標簽缺失值填充稀疏矩陣,并對最終的推薦系統(tǒng)產生積極作用的。
首先我們需要構建一個RBF神經網絡。RBF神經網絡的構建過程關鍵在于隱含層的設計。好的隱含層架構可以有效地提高神經網絡性能,反之則會讓網絡性能大打折扣或者增加學習代價。隱含層的設計關鍵在于隱含層中心節(jié)點的選擇。和傳統(tǒng)的指定節(jié)點個數不同的是,我們設計了一種動態(tài)自適應的選擇方法。首先隨機確定一批中心節(jié)點,然后在此基礎上運用自適應算法動態(tài)確定中心節(jié)點數。設隨機選擇的中心節(jié)點數目為n,每個中心節(jié)點對應的節(jié)點為ki。
這樣就可以有效的解決依靠經驗指定RBF神經網絡隱含層中心節(jié)點個數存在的問題了。
在構建的用戶標簽評分矩陣中,由于用戶標簽數據的稀疏性,會直接影響到用戶相似度的計算,造成推薦系統(tǒng)的推薦質量難以保證。針對稀疏矩陣的補全,我們利用已構建的RBF神經網絡來預測標簽評分矩陣中的空缺值,填充到原始稀疏矩陣中。
實證效果:
為了驗證算法的有效性,我們采用了極光用戶畫像數據集進行試驗。數據集通過**銀行客戶對其七類金融產品的購買行為做正樣本,為其他客戶提供相應的產品推薦列表。樣本數據集由10000名用戶的有效行為特征標簽評分和對該網推出的七類金融產品的購買行為數據組成。根據試驗需要,我們將數據分為訓練集(80%)和測試集(20%)兩部分。
分別采用常用的均值插補和文中提出的算法進行稀疏矩陣填充,各自生成新的用戶評分矩陣。這里舉例展示矩陣插補的效果,U表示評分用戶,L表示有效行為特征標簽。表1是原始用戶行為特征評分矩陣,表2是均值插補后的矩陣,表3是改進算法填充后的矩陣。
通過經典協同過濾算法對測試用戶進行推薦,得出兩套推薦結果。我們采用推薦系統(tǒng)評價指標中的多樣性作為此次評價標準。好的推薦結果中要體現多樣性,比如看電影,我既喜歡看格斗類的電影,同時又喜歡愛文藝,那么給我的推薦列表中就應該這兩個類型的電影都有,而且得根據我愛好比例來推薦,比如我平時80%是看格斗類的,20%是看文藝類的,那么推薦結果中最好也是這個比例??梢愿鶕锲烽g的相似度來計算,一個推薦列表中如果所有物品間的相似度都比較高,那么往往說明都是同一類物品,缺乏多樣性。表4、5分別為兩種插補后的用戶推薦列表,FIN1~7分別代表消費金融類、借貸金融類、小額現金借貸類、金融中介、支付金融類、傳統(tǒng)金融(銀行類)和汽車金融共七類金融產品。
這里我們用差異系數(CV)來評價推薦的多樣性。可以很直觀的看到表2的差異系數遠遠大于表1,而且表2中對任一用戶七類金融產品的推薦強弱排序與表1是保持一致的。這不僅說明了改進算法插補后的用戶推薦更具多樣性,而且進一步證明了改進的RBF神經網絡算法既能很好的解決標簽稀疏問題,又可以完整的保持用戶的原始行為特征。實驗結果表明,改進的RBF神經網絡算法可以很好的解決用戶標簽的稀疏性問題,提高推薦系統(tǒng)的準確度,豐富推薦結果的多樣性。
總結:
在金融行業(yè)中,大數據的應用范圍很廣,例如花旗銀行通過大數據分析為財富管理客戶推薦產品,美國銀行利用積累的客戶點擊數據為客戶提供有競爭的信用額度服務,招商銀行利用客戶行為數據定時給客戶推送針對性的廣告,里面有客戶可能感興趣的理財產品和優(yōu)惠信息。不僅是金融領域,醫(yī) 療行業(yè)、生物技術、零售業(yè)、電商、農牧業(yè)等等,各行各業(yè)的發(fā)展都一直在依賴著數據,通過機器學習和大數據分析,決策者將會發(fā)現決定一件事、判斷一件事、了解一件事不再變得困難。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03