99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀聊一聊特征學(xué)習(xí)在用戶偏好預(yù)測中的應(yīng)用
聊一聊特征學(xué)習(xí)在用戶偏好預(yù)測中的應(yīng)用
2017-03-02
收藏


本文聊聊如何利用客戶購買行為預(yù)測其偏好


為了基于客戶購買行為預(yù)測其偏好,可以利用機(jī)器學(xué)習(xí)中比較新興的稀疏編碼和稀疏限制性玻爾茲曼機(jī)將原始數(shù)據(jù)變換成稀疏高緯表示。這些特征學(xué)習(xí)技巧獨(dú)立于預(yù)測模型,比如 logit model ,并且可以使得偏好預(yù)測的準(zhǔn)確率得以提升。

提取到的特征一般是比較抽象的,通常具有一定的解釋性,但也不是所有的特征都具有較好的解釋性意義。特征學(xué)習(xí)并不是簡單的尋找新數(shù)據(jù),所學(xué)特征本質(zhì)上是原始數(shù)據(jù)的函數(shù)。給定偏好預(yù)測模型,比如 logit 模型或支持向量機(jī),經(jīng)過特征學(xué)習(xí)之后會比在原始數(shù)據(jù)中直接利用偏好預(yù)測模型取得更好的效果,預(yù)測準(zhǔn)確率會有較大程度的提升。

特征學(xué)習(xí)方不需要領(lǐng)域知識,可以用于多種類型的數(shù)據(jù)。特征學(xué)習(xí)在很多領(lǐng)域都取得較好的效果,比如圖像分類,語音識別,信息檢索,自然語言處理等。

特征學(xué)習(xí)方法能夠捕捉原始數(shù)據(jù)中的隱含因子,這些隱含因子可以通過對原始數(shù)據(jù)進(jìn)行編碼得到。通常的做法如下,將原始數(shù)據(jù)映射到高維特征空間中,其維度高于原始數(shù)據(jù)所在空間,然后引入稀疏性限制或稀疏性約束因子,進(jìn)而使得原數(shù)據(jù)可以由高維空間中部分因子來表示。這里的映射和新特征空間中的表示都是由最小化某種描述重構(gòu)誤差的目標(biāo)函數(shù)來決定的,重構(gòu)誤差是指原始變量和新特征表示之間的誤差,其中還包含了對特征激活施加的稀疏性約束或懲罰項(xiàng)。

其中一種方法是稀疏編碼,這種方法跟主成分分析類似,因?yàn)樗鼘⒃瓟?shù)據(jù)嵌入到新的基中。跟主成分分析不同之處在于,只有從特征表示到原始數(shù)據(jù)的解碼是線性的,編碼過程基于線性重構(gòu)誤差和 L1 范數(shù)的稀疏懲罰項(xiàng),這種做法可以保證系數(shù)是實(shí)值,并且具有稀疏性。由于基向量不再正交,稀疏編碼可以用來學(xué)習(xí)完備的基集合,其中基的個數(shù)多于原空間的維度?;陚涞膬?yōu)勢在于可以有效地捕捉數(shù)據(jù)中潛在的統(tǒng)計(jì)分布,編碼效率更高。

一般情況下,稀疏編碼的數(shù)學(xué)表示如下:


其中x表示原空間中的向量,b 是新空間中的向量,h 是系數(shù),β 是稀疏性系數(shù)。

如果原空間中包含了高斯分布的變量,如年齡,二項(xiàng)分布的變量,如性別,類別變量,如區(qū)域。則稀疏編碼的數(shù)學(xué)表示如下:


稀疏編碼的優(yōu)化算法可以利用共軛梯度法和投影梯度搜索法。

第二種方法是稀疏限制性玻爾茲曼機(jī)。它是一般玻爾茲曼機(jī)的一種特殊情形,玻爾茲曼機(jī)是一種無向圖模型,其中狀態(tài)空間關(guān)聯(lián)的能量表示該狀態(tài)中找到系統(tǒng)的概率。限制性玻爾茲曼機(jī)中,每個狀態(tài)由顯式節(jié)點(diǎn)和隱式節(jié)點(diǎn)共同決定,每個節(jié)點(diǎn)都對應(yīng)一個隨機(jī)變量。隱含節(jié)點(diǎn)取值隨機(jī)并且是二值的,這種節(jié)點(diǎn)可以增加系統(tǒng)模型的表示能力,并且可以看作捕捉高維表示的特征。這里的限制性是指沒有顯式節(jié)點(diǎn)內(nèi)部的連接,也沒有隱式節(jié)點(diǎn)內(nèi)部的連接。

限制性玻爾茲曼機(jī)的某個狀態(tài)所對應(yīng)的概率如下:


針對實(shí)數(shù)取值的變量,其能量函數(shù)如下:


二項(xiàng)分布的變量,其能量函數(shù)如下:


類別隨機(jī)變量,其能量函數(shù)如下:


單個隱層節(jié)點(diǎn)的條件密度如下:


給定一個輸入,隱含層表示如下:


由于限制性,即層內(nèi)之間沒有連接,則


為訓(xùn)練限制性玻爾茲曼機(jī),可以利用梯度下降法來訓(xùn)練。梯度如下:


最后來介紹下整體流程。


首先將數(shù)據(jù)集分割成訓(xùn)練集,驗(yàn)證集和測試集,然后在訓(xùn)練集上編碼和學(xué)習(xí)特征,進(jìn)而利用偏好模型加以預(yù)測,在驗(yàn)證集合中驗(yàn)證效果,最后在測試集中查看效果。
這里的預(yù)測模型包含L1 and L2 logit 模型,樸素貝葉斯,L1 and L2 線性和核化的支持向量機(jī),以及隨機(jī)森林等。

實(shí)驗(yàn)結(jié)果如下


實(shí)驗(yàn)結(jié)果表明利用稀疏編碼或稀釋限制性玻爾茲曼機(jī)提取特征,可以提高預(yù)測精度。其中數(shù)據(jù)集是機(jī)車購買數(shù)據(jù),整合了 Maritz 汽車購買調(diào)查(Maritz Research Inc., 2007. Maritz Research 2006 new vehicle customer satisfactions survey. Information online at: http://www.maritz.com.),Chrome 汽車規(guī)格數(shù)據(jù)庫(Chrome Systems Inc., 2008. Chrome New Vehicle Database. Information inline at: http://www. chrome.com.), 美國人口調(diào)查局的收入和消費(fèi)數(shù)據(jù)(United States Census Bureau, 2006. 2006 U.S. Census estimates. Information online at: http://www.census. gov.)。


作者    Frank
本文為 CDA 志愿者Frank原創(chuàng)作品,轉(zhuǎn)載需授權(quán)


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }