99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀忘掉大數據之“術”,點“數”成金
忘掉大數據之“術”,點“數”成金
2017-03-25
收藏

忘掉大數據之“術”,點“數”成金

在剛剛結束的兩會上“互聯網金融”成為了代表委員們熱議的話題。從政府工作報告對互聯網金融發(fā)展的表述中可以看到,金融行業(yè)新一輪淘汰洗牌不可避免。在3月9日華夏互金私董會上,多位行業(yè)內人士分析認為,互聯網金融淘汰賽進入到2.0時代。金融的本質決定你能否活著,而互聯網則決定你的平臺能活多久。大數據已經成為許多金融企業(yè)的核心資產,通過機器學習和大規(guī)模的大數據分析,以一種完全不同的方式來更快更精準的作出決策(如金融產品推薦),為企業(yè)創(chuàng)造更豐盛的價值,在眾多競爭對手中脫穎而出。但由于大數據行業(yè)普遍存在數據開放共享不足、基礎薄弱、應用領域單一等問題,這些問題會直接影響到模型的好壞。本文由極光大數據研究院數據挖掘工程師余承樂撰寫,探討金融產品推薦中一種完美插補用戶行為數據缺失的算法。

研究背景:

基于海量的用戶行為數據,極光大數據可提供全行業(yè)的綜合營銷整體解決方案,并且在低價值數據稠密、高價值數據稀疏處理上也有一定的研究。以金融產品智能推薦為例,眾所周知,數據稀疏性問題是影響推薦系統(tǒng)質量的一個關鍵因素,它會直接造成推薦的準確性不高。針對推薦系統(tǒng)中存在的數據稀疏性問題,最直接的解決辦法就是給空缺值設定一個固定的缺省值,一般設為評分域的中間值(如7分制評分中設為4),或者設為用戶對應標簽所有評分的平均值,這種方法在一定程度上可以提高推薦的精度,但是并不能從根本上解決用戶標簽數據的稀疏性問題。

目前,已有很多專家提出了一些有效的解決數據稀疏性的方法。這些方法基本可以分為兩大類,一種是在數據稀疏性不變的情況下提高已有算法的精度,另一種就是采用一些可行的方法來盡量減小數據集的稀疏性。其中有用到奇異值分解(SVD)技術,通過對輸入矩陣降維來降低數據稀疏性的。也有結合奇異值分解與最近鄰算法,通過奇異值分解平滑輸入矩陣,然后采用最近鄰算法預測目標用戶的標簽缺失值。但是降維通常會導致用戶標簽信息丟失,并且分解算法復雜度高,在標簽數據極端稀疏的情況下,效果并不理想。也有通過計算項目相似度來填充標簽矩陣的方法,通過項目聚類,確保在同一類用戶中,所有用戶的標簽評分最為相似。還有提出一種基于k-means 聚類的方法,首先對用戶聚類,利用同類中的平均評分來預測標簽矩陣中的缺失評分,這在一定程度上解決了數據稀疏的問題。不過這些插補方法都有其局限性,并不能很好的應用于全場景。

極光研究方案:

本文將重點講述極光大數據是怎樣利用改進后的RBF神經網絡算法來高效預測用戶標簽缺失值填充稀疏矩陣,并對最終的推薦系統(tǒng)產生積極作用的。

首先我們需要構建一個RBF神經網絡。RBF神經網絡的構建過程關鍵在于隱含層的設計。好的隱含層架構可以有效地提高神經網絡性能,反之則會讓網絡性能大打折扣或者增加學習代價。隱含層的設計關鍵在于隱含層中心節(jié)點的選擇。和傳統(tǒng)的指定節(jié)點個數不同的是,我們設計了一種動態(tài)自適應的選擇方法。首先隨機確定一批中心節(jié)點,然后在此基礎上運用自適應算法動態(tài)確定中心節(jié)點數。設隨機選擇的中心節(jié)點數目為n,每個中心節(jié)點對應的節(jié)點為ki。

這樣就可以有效的解決依靠經驗指定RBF神經網絡隱含層中心節(jié)點個數存在的問題了。

在構建的用戶標簽評分矩陣中,由于用戶標簽數據的稀疏性,會直接影響到用戶相似度的計算,造成推薦系統(tǒng)的推薦質量難以保證。針對稀疏矩陣的補全,我們利用已構建的RBF神經網絡來預測標簽評分矩陣中的空缺值,填充到原始稀疏矩陣中。

實證效果:

為了驗證算法的有效性,我們采用了極光用戶畫像數據集進行試驗。數據集通過**銀行客戶對其七類金融產品的購買行為做正樣本,為其他客戶提供相應的產品推薦列表。樣本數據集由10000名用戶的有效行為特征標簽評分和對該網推出的七類金融產品的購買行為數據組成。根據試驗需要,我們將數據分為訓練集(80%)和測試集(20%)兩部分。

分別采用常用的均值插補和文中提出的算法進行稀疏矩陣填充,各自生成新的用戶評分矩陣。這里舉例展示矩陣插補的效果,U表示評分用戶,L表示有效行為特征標簽。表1是原始用戶行為特征評分矩陣,表2是均值插補后的矩陣,表3是改進算法填充后的矩陣。

通過經典協同過濾算法對測試用戶進行推薦,得出兩套推薦結果。我們采用推薦系統(tǒng)評價指標中的多樣性作為此次評價標準。好的推薦結果中要體現多樣性,比如看電影,我既喜歡看格斗類的電影,同時又喜歡愛文藝,那么給我的推薦列表中就應該這兩個類型的電影都有,而且得根據我愛好比例來推薦,比如我平時80%是看格斗類的,20%是看文藝類的,那么推薦結果中最好也是這個比例??梢愿鶕锲烽g的相似度來計算,一個推薦列表中如果所有物品間的相似度都比較高,那么往往說明都是同一類物品,缺乏多樣性。表4、5分別為兩種插補后的用戶推薦列表,FIN1~7分別代表消費金融類、借貸金融類、小額現金借貸類、金融中介、支付金融類、傳統(tǒng)金融(銀行類)和汽車金融共七類金融產品。

這里我們用差異系數(CV)來評價推薦的多樣性。可以很直觀的看到表2的差異系數遠遠大于表1,而且表2中對任一用戶七類金融產品的推薦強弱排序與表1是保持一致的。這不僅說明了改進算法插補后的用戶推薦更具多樣性,而且進一步證明了改進的RBF神經網絡算法既能很好的解決標簽稀疏問題,又可以完整的保持用戶的原始行為特征。實驗結果表明,改進的RBF神經網絡算法可以很好的解決用戶標簽的稀疏性問題,提高推薦系統(tǒng)的準確度,豐富推薦結果的多樣性。

總結:

在金融行業(yè)中,大數據的應用范圍很廣,例如花旗銀行通過大數據分析為財富管理客戶推薦產品,美國銀行利用積累的客戶點擊數據為客戶提供有競爭的信用額度服務,招商銀行利用客戶行為數據定時給客戶推送針對性的廣告,里面有客戶可能感興趣的理財產品和優(yōu)惠信息。不僅是金融領域,醫(yī) 療行業(yè)、生物技術、零售業(yè)、電商、農牧業(yè)等等,各行各業(yè)的發(fā)展都一直在依賴著數據,通過機器學習大數據分析,決策者將會發(fā)現決定一件事、判斷一件事、了解一件事不再變得困難。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數1:配置參數 // 參數2:回調,回調的第一個參數驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }