99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

^{<blockquote id="oj2ih"></blockquote>}

熱線電話：13121318867

登錄

首頁精彩閱讀機(jī)器學(xué)習(xí)模型設(shè)計(jì)五要素

機(jī)器學(xué)習(xí)模型設(shè)計(jì)五要素

2018-08-26

機(jī)器學(xué)習(xí)模型設(shè)計(jì)五要素

數(shù)據(jù)可能沒什么用，但是數(shù)據(jù)中包含的信息有用，能夠減少不確定性，數(shù)據(jù)中信息量決定了算法能達(dá)到的上限。

數(shù)據(jù)環(huán)節(jié)是整個(gè)模型搭建過程中工作量最大的地方，從埋點(diǎn)，日志上報(bào)，清洗，存儲(chǔ)到特征工程，用戶畫像，物品畫像，都是些搬磚的工作也被認(rèn)為最沒有含金量同時(shí)也是最重要的地方。這塊跟要解決的問題，所選的模型有很大關(guān)系，需要具體問題具體分析，以個(gè)性化為例講講特征工程中的信息損失：

我們搭模型的目的是預(yù)測未來 -“以往鑒來，未卜先知 ”，進(jìn)一步要預(yù)測每個(gè)人的未來，實(shí)時(shí)預(yù)測每個(gè)人的未來。要想做好這件事情，對(duì)過去、對(duì)用戶、對(duì)物品越了解越好，首先需要采集用戶的行為（什么人在什么時(shí)間什么地點(diǎn)以什么方式對(duì)什么東西做了什么事情做到什么程度），然后進(jìn)行歸因找到影響用戶點(diǎn)擊的因素，構(gòu)建用戶興趣圖譜，最后在此基礎(chǔ)上去做預(yù)測。

這個(gè)過程中，每個(gè)環(huán)節(jié)都會(huì)有信息損失，有些是因?yàn)椴杉坏?，比如用戶?dāng)時(shí)所處的環(huán)境，心情等等；有些是采集得到但是暫時(shí)沒有辦法用起來，比如電商領(lǐng)域用戶直接感知到是一張圖片，點(diǎn)或不點(diǎn)很大程度上取決于這張圖片，深度學(xué)習(xí)火之前這部分信息很難利用起來；還有些是采集得到，也用的起來，但是因?yàn)榧庸な侄卧斐傻膿p失，比如時(shí)間窗口取多久，特征離散成幾段等等。

起步階段，先搞“量”再搞“率”應(yīng)該是出效果最快的方式。

#2 f(x)

f(x)的設(shè)計(jì)主要圍繞參數(shù)量和結(jié)構(gòu)兩個(gè)方向做創(chuàng)新，這兩個(gè)參數(shù)決定了算法的學(xué)習(xí)能力，從數(shù)據(jù)里面挖掘信息的能力（信息利用率），類比到人身上就是“天賦”、“潛質(zhì)”類的東西，衡量這個(gè)模型有多“聰明”。相應(yīng)地，上面的{x,y}就是你經(jīng)歷了多少事情，經(jīng)歷越多+越聰明就能悟出越多的道理。

模型復(fù)雜度-VC維

參數(shù)量表示模型復(fù)雜度，一般用VC維衡量。VC維越大，模型就越復(fù)雜，學(xué)習(xí)能力就越強(qiáng)。在數(shù)據(jù)量比較小的時(shí)候，高 VC 維的模型比低 VC 維的模型效果要差，但這只是故事的一部分；有了更多數(shù)據(jù)以后，就會(huì)發(fā)現(xiàn)低 VC 維模型效果再也漲不上去了，但高的 VC 維模型還在不斷上升。這時(shí)候高VC維模型可以對(duì)低VC維模型說：你考90分是因?yàn)槟愕膶?shí)力在那里，我考100分是因?yàn)榫砻嬷挥?00分。

當(dāng)然VC維并不是越高越好，要和問題復(fù)雜度匹配：

-- 如果模型設(shè)計(jì)的比實(shí)際簡單，模型表達(dá)能力不夠，產(chǎn)生 high bias；

-- 如果模型設(shè)計(jì)的比實(shí)際復(fù)雜，模型容易o(hù)ver-fit，產(chǎn)生 high variance；而且模型越復(fù)雜，需要的樣本量越大，DL動(dòng)輒上億樣本

模型結(jié)構(gòu)

模型結(jié)構(gòu)要解決的是把參數(shù)以哪種方式結(jié)合起來，可以搞成“平面的”，“立體的”，甚至還可以加上“時(shí)間軸”。不同的模型結(jié)構(gòu)有自身獨(dú)特的性質(zhì)，能夠捕捉到數(shù)據(jù)中不同的模式，我們看看三種典型的：

LR：

只能學(xué)到線性信息，靠人工特征工程來提高非線性擬合能力

MLR：

與lr相比表達(dá)能力更強(qiáng)，lr不管什么用戶什么物品全部共用一套參數(shù)，mlr可以做到每個(gè)分片擁有自己的參數(shù)：

-- 男生跟女生行為模式不一樣，那就訓(xùn)練兩個(gè)模型，男生一個(gè)女生一個(gè)，不共享參數(shù)

-- 服裝行業(yè)跟3C行業(yè)規(guī)律不一樣，那就訓(xùn)練兩個(gè)模型，服裝一個(gè)3C一個(gè)，不共享參數(shù)

沿著這條路走到盡頭可以給每個(gè)人訓(xùn)練一個(gè)模型，這才是真正的“個(gè)性化”！

FM：

自動(dòng)做特征交叉，挖掘非線性信息

DL：

能夠以任意精度逼近任意連續(xù)函數(shù)，意思就是“都在里面了，需要啥你自己找吧”，不想花心思做假設(shè)推公式的時(shí)候就找它。

#3 objective

目標(biāo)函數(shù)，做事之前先定一個(gè)小目標(biāo)，它決定了接下來我們往哪個(gè)方向走?？偟膩碚f，既要好又要簡單；已有很多標(biāo)準(zhǔn)方法可以選，可創(chuàng)新的空間不大，不過自己搞一個(gè)損失函數(shù)聽起來也不錯(cuò)，坐等大牛。

損失函數(shù)：rmse/logloss/hinge/...
懲罰項(xiàng)：L1/L2/L21/dropout/weight decay/...

P（model|data） = P(data|model) * P(model)/P(data) —> log(d|m) + log(m)

#4 optimization

目標(biāo)有了，模型設(shè)計(jì)的足夠聰明了，不學(xué)習(xí)或者學(xué)習(xí)方法不對(duì)，又是一個(gè)“傷仲永”式的悲劇。這里要解決的問題是如何更快更好的學(xué)習(xí)。拋開貝葉斯派的方法，大致分為兩類：

達(dá)爾文式

啟發(fā)式算法，仿達(dá)爾文進(jìn)化論，通過適應(yīng)度函數(shù)進(jìn)行“物競天擇，適者生存”式優(yōu)化，比較有代表性的：遺傳算法GA，粒子群算法PSO，蟻群算法AA；適合解決復(fù)雜，指數(shù)規(guī)模，高維度，大空間等特征問題，如物流路經(jīng)問題；問題是比較收斂慢，工業(yè)界很少用。

拉馬克式

拉馬克進(jìn)化論，獲得性遺傳，直接修改基因(w)；比較有代表性的分兩類：

-- sgd variants（sgd/Nesterov/Adagrad/RMSprop/Adam/...）

-- newton variants（newton/lbfgs/...）

#5 evaluation

怎么才算一個(gè)好的模型并沒有統(tǒng)一標(biāo)準(zhǔn)，一個(gè)模型部署上線或多或少的都會(huì)牽扯到多方利益。以個(gè)性化場景為例，就牽扯到用戶，供應(yīng)商/內(nèi)容生產(chǎn)方以及產(chǎn)品運(yùn)營三者的博弈。總的來說，一個(gè)“三好模型”要滿足以下三個(gè)層面：

算法層面：準(zhǔn)確率，覆蓋率，auc，logloss...
公司層面：revenue，ctr，cvr...
用戶層面：用戶體驗(yàn)，滿意度，驚喜度...

#0 模型調(diào)優(yōu)思路

拆解之后，模型調(diào)優(yōu)的思路也很清晰了：

想長胖，首先要有東西吃；其次要能吃，啥都能吃不挑食；最后消化要好

用一條公式來概括：模型效果 ∝ 數(shù)據(jù)信息量 x 算法信息利用率

一方面，擴(kuò)充“信息量”，用戶畫像和物品畫像要做好，把圖片/文本這類不好量化處理的數(shù)據(jù)利用起來；
另一方面，改進(jìn)f(x)提高“信息利用率”，挖到之前挖不到的規(guī)律；

不過在大數(shù)據(jù)的初級(jí)階段，效果主要來自于第一方面吧。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

特征特征工程損失函數(shù) 用戶畫像模型部署精度準(zhǔn)確率特征交叉

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當(dāng)選的奇跡會(huì)再發(fā)生嗎？

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機(jī)器學(xué)習(xí)模型設(shè)計(jì)五要素

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機(jī)器學(xué)習(xí)模型設(shè)計(jì)五要素

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...