99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀機(jī)器學(xué)習(xí)—海量數(shù)據(jù)挖掘解決方案

機(jī)器學(xué)習(xí)—海量數(shù)據(jù)挖掘解決方案

2016-04-12

機(jī)器學(xué)習(xí)—海量數(shù)據(jù)挖掘解決方案

大數(shù)據(jù)時代里，互聯(lián)網(wǎng)用戶每天都會直接或間接使用到大數(shù)據(jù)技術(shù)的成果，直接面向用戶的比如搜索引擎的排序結(jié)果，間接影響用戶的比如網(wǎng)絡(luò)游戲的流失用戶預(yù)測、支付平臺的欺詐交易監(jiān)測等等。達(dá)觀數(shù)據(jù)技術(shù)團(tuán)隊(duì)開發(fā)過智能文本內(nèi)容審核系統(tǒng)、作弊監(jiān)測系統(tǒng)、用戶建模系統(tǒng)等多個基于大數(shù)據(jù)技術(shù)的應(yīng)用系統(tǒng)。機(jī)器學(xué)習(xí)是大數(shù)據(jù)挖掘的一大基礎(chǔ)，本文以機(jī)器學(xué)習(xí)為切入點(diǎn)，將達(dá)觀在大數(shù)據(jù) 技術(shù)實(shí)踐時的一些經(jīng)驗(yàn)與大家分享。

互聯(lián)網(wǎng)的海量數(shù)據(jù)不可能靠人工一個個處理，只能依靠計(jì)算機(jī)批量處理。最初的做法是人為設(shè)定好一些規(guī)則，由機(jī)器來執(zhí)行。比如明確指定計(jì)算機(jī)給男性、30歲的用戶推送汽車廣告。很明顯如此粗略的規(guī)則不會有好效果，因?yàn)閷θ巳旱亩ㄎ徊粔蚓_。要提高精度必須增加對用戶的特征描述。但特征一多規(guī)則就很難制定，即使定下了規(guī)則也沒法根據(jù)實(shí)際情況靈活變化。機(jī)器學(xué)習(xí)可以很好的解決以上問題，從一定程度上賦予了計(jì)算機(jī)以“學(xué)習(xí)”的能力，使得千人千面成為可能。

圖 1 面對大量的特征，人工難以確定使用的規(guī)則

有監(jiān)督 機(jī)器學(xué)習(xí)技術(shù)

機(jī)器學(xué)習(xí)以統(tǒng)計(jì)學(xué)為理論基礎(chǔ)，利用算法讓機(jī)器具有類似人類一般的自動“學(xué)習(xí)”能力，即對已知的訓(xùn)練數(shù)據(jù)做統(tǒng)計(jì)分析從而獲得規(guī)律，再運(yùn)用規(guī)律對未知數(shù)據(jù)做預(yù)測分析。機(jī)器學(xué)習(xí)主要包含四大類別：有監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。

有監(jiān)督學(xué)習(xí)，顧名思義，是在“人類監(jiān)督”下學(xué)習(xí)，要求訓(xùn)練數(shù)據(jù)既有特征也有目標(biāo)，目標(biāo)是人為設(shè)定好的。以文本分類為例，一篇文章的字、詞、句、段是其特征(文本的內(nèi)容是什么)，文章的類別(時事、科技、娛樂等等)就是目標(biāo)。訓(xùn)練集文章的類別是人為設(shè)定的，相當(dāng)于明確告訴機(jī)器什么樣的內(nèi)容該屬于什么類別，機(jī)器在此基礎(chǔ)上總結(jié)規(guī)律。無監(jiān)督學(xué)習(xí)就是數(shù)據(jù)只有特征沒有目標(biāo)，最常見的算法是聚類。聚類算法會把相似的樣本聚集成一個子集，優(yōu)點(diǎn)是數(shù)據(jù)無需人工標(biāo)注，但缺點(diǎn)也很明顯——無法給出子集的實(shí)際含義。半監(jiān)督學(xué)習(xí)介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間，其訓(xùn)練集數(shù)據(jù)有一小部分是人工標(biāo)注過的。增強(qiáng)學(xué)習(xí)強(qiáng)調(diào)基于環(huán)境而行動，在探索未知領(lǐng)域和遵從現(xiàn)有只是之間尋求平衡。

有監(jiān)督學(xué)習(xí)的研究起步較早，方法比較成熟。在大多數(shù)應(yīng)用場景中，我們希望機(jī)器輸出的結(jié)果具有實(shí)際含義，比如文本分類就是讓機(jī)器告訴我們一篇文章是時事還是科技類文章。這樣的場景下有監(jiān)督學(xué)習(xí)也更為適用。有監(jiān)督學(xué)習(xí)主要包含回歸分析和統(tǒng)計(jì)分類兩大類算法。

回歸分析——預(yù)估點(diǎn)擊率的利器

回歸分析建模的是自變量和因變量之間的相關(guān)關(guān)系(如圖2所示)，在機(jī)器學(xué)習(xí)領(lǐng)域，自變量是樣本的特征向量，因變量是預(yù)測值。回歸分析最經(jīng)典的應(yīng)用場景是廣告點(diǎn)擊率(CTR)預(yù)估。簡單而言，CTR預(yù)估是根據(jù)用戶數(shù)據(jù)和廣告數(shù)據(jù)，估計(jì)用戶點(diǎn)擊某個廣告的可能性大小。我們假設(shè)用戶數(shù)據(jù)+廣告數(shù)據(jù)和廣告點(diǎn)擊率之間的關(guān)系符合某個分布，使用回歸分析方法在已有點(diǎn)擊數(shù)據(jù)上擬合出該分布。達(dá)觀科技在線上預(yù)測時就把用戶數(shù)據(jù)和廣告數(shù)據(jù)作為輸出傳給擬合出的分布，得到用戶點(diǎn)擊該廣告的概率值。

回歸分析

圖 2 回歸分析示意圖

統(tǒng)計(jì)分類——被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法

統(tǒng)計(jì)分類要解決的問題是，如何將一個樣本點(diǎn)分到類別集合中的一個或多個類，比如圖3所表示的就是將數(shù)據(jù)分為3個類。

數(shù)據(jù)統(tǒng)計(jì)

圖 3 統(tǒng)計(jì)分類示意圖

現(xiàn)實(shí)場景中我們往往需要把數(shù)據(jù)分成不同的類別，以方便我們分析和使用，因而統(tǒng)計(jì)分類方法具有廣闊的應(yīng)用范圍。達(dá)觀數(shù)據(jù)團(tuán)隊(duì)開發(fā)的用戶建模、內(nèi)容審核系統(tǒng)、反作弊系統(tǒng)等都使用到了統(tǒng)計(jì)分類模型。比如反作弊系統(tǒng)，目的是區(qū)分用戶行為是否作弊，抽象出來就是個分類問題：輸入是用戶的各種行為數(shù)據(jù)經(jīng)過處理后得到的特征，輸出只有兩個類別——“作弊”和“非作弊”。接下來我就簡單介紹一下最具代表性的分類算法——支持向量機(jī)(Support Vector Machine, SVM)，一窺機(jī)器學(xué)習(xí)的工作原理。SVM絕不是入門級的機(jī)器學(xué)習(xí)算法，選擇介紹它是因?yàn)椋?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)需要解決的數(shù)據(jù)線性不可分、過擬合等問題，SVM都給出了比較可靠的解決方案，借此我們也可以對機(jī)器學(xué)習(xí)有個大概的認(rèn)識。

理想情況下SVM的理論模型

SVM針對分類問題的前提假設(shè)直觀易懂，由此推演出的模型求解過程也是順理成章一氣呵成。我們通常先從最簡單的情況入手，假設(shè)數(shù)據(jù)是線性可分的。SVM認(rèn)為此時的最優(yōu)分類面，是使得樣本集到分類面的最小幾何距離最大化的超平面，這個距離成為“間隔(margin)”。如圖4所示，黑色實(shí)線就是最優(yōu)分類面，兩邊兩條虛線之間的幾何距離就是此時的最優(yōu)間隔。數(shù)據(jù)點(diǎn)離分類面越遠(yuǎn)，分類的置信度也越高。

<a href='/map/svm/' style='color:#000;font-size:inherit;'>SVM</a>最優(yōu)分類面

圖 4 SVM最優(yōu)分類面示意圖

SVM假設(shè)線性分類面的函數(shù)形式為

<a href='/map/svm/' style='color:#000;font-size:inherit;'>SVM</a>最優(yōu)分類面函數(shù)

(1)鑒于篇幅關(guān)系，我們略去推導(dǎo)過程。在最大化間隔的假設(shè)下，可以得到SVM的原目標(biāo)函數(shù)為： <a href='/map/svm/' style='color:#000;font-size:inherit;'>SVM</a>的原目標(biāo)函數(shù)

(2)其中表示第i個樣本的特征向量，是第i個樣本的類標(biāo)簽，SVM令。由約束條件可知，樣本點(diǎn)必然落在最優(yōu)間隔的邊緣(圖4中虛線)上或外面，通過推導(dǎo)分析最終可以知道，只有落在間隔邊緣上的少量數(shù)據(jù)點(diǎn)決定了分類面，這些樣本被稱為支持向量，而其他的點(diǎn)沒有任何作用。這一特性大大節(jié)省了求解SVM的計(jì)算量。

線性不可分情況的處理

按照達(dá)觀數(shù)據(jù)的經(jīng)驗(yàn)，真實(shí)環(huán)境的問題往往是線性不可分的，數(shù)據(jù)采集的時候也不可避免的會引入噪聲。應(yīng)對這兩種情況只需對原始SVM模型做有限的一點(diǎn)改進(jìn)。針對數(shù)據(jù)線性不可分的情況，SVM通過引入核函數(shù)(Kernel Function)將數(shù)據(jù)映射到高維空間來解決，圖5直觀的表示了映射的過程。核函數(shù)實(shí)際上是兩個數(shù)據(jù)點(diǎn)在高維空間中的內(nèi)積。它先在原空間進(jìn)行計(jì)算再將結(jié)果映射到高維空間，避免了先把數(shù)據(jù)點(diǎn)映射到高維空間再計(jì)算所可能導(dǎo)致的維數(shù)災(zāi)難問題。核函數(shù)可以從容的處理包括無限維在內(nèi)的任何特征空間映射。

<a href='/map/svm/' style='color:#000;font-size:inherit;'>SVM</a>核函數(shù)的作用原理圖

圖 5 SVM核函數(shù)的作用原理圖

SVM如何規(guī)避過擬合

過擬合(Overfitting)表現(xiàn)為在訓(xùn)練數(shù)據(jù)上模型的預(yù)測錯誤很低，在未知數(shù)據(jù)上預(yù)測錯誤卻很高。圖6的藍(lán)色曲線代表訓(xùn)練錯誤，紅色曲線代表真實(shí)錯誤，可以看到隨著模型復(fù)雜度的升高，模型對訓(xùn)練數(shù)據(jù)的擬合程度越好(訓(xùn)練錯誤越低)，但到了一定程度之后真實(shí)錯誤反而上升，即為過擬合。

圖 6 過擬合

過擬合主要源于我們采集的訓(xùn)練樣本帶有噪聲，有部分樣本嚴(yán)重偏離其正常位置，統(tǒng)計(jì)學(xué)上稱之為outlier。前面已經(jīng)提到，決定SVM最優(yōu)分類面的只是占少數(shù)的支持向量，如果碰巧這些支持向量中存在outlier，而我們又要求SVM盡可能完美的去擬合這樣的數(shù)據(jù)，得到的分類面可能就會有問題。如圖7所示，黑色加粗虛線代表最優(yōu)分類面，帶黑圈的藍(lán)色數(shù)據(jù)點(diǎn)代表outlier?？梢钥吹給utlier嚴(yán)重偏離了正常藍(lán)色數(shù)據(jù)點(diǎn)的位置，所在位置又恰巧使其成為了支持向量，導(dǎo)致了最終的分類面(深紅色實(shí)線)嚴(yán)重偏離最優(yōu)分類面。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

SVM 機(jī)器學(xué)習(xí) 特征有監(jiān)督過擬合有監(jiān)督學(xué)習(xí) 大數(shù)據(jù) 無監(jiān)督學(xué)習(xí)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當(dāng)選的奇跡會再發(fā)生嗎？

CDA報考指南

報考流程
考試時間
報名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗(yàn)證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機(jī)器學(xué)習(xí)—海量數(shù)據(jù)挖掘解決方案

有監(jiān)督 機(jī)器學(xué)習(xí)技術(shù)

回歸分析——預(yù)估點(diǎn)擊率的利器

統(tǒng)計(jì)分類——被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法

理想情況下SVM的理論模型

線性不可分情況的處理

SVM如何規(guī)避過擬合

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機(jī)器學(xué)習(xí)—海量數(shù)據(jù)挖掘解決方案

有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)

回歸分析——預(yù)估點(diǎn)擊率的利器

統(tǒng)計(jì)分類——被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法

理想情況下SVM的理論模型

線性不可分情況的處理

SVM如何規(guī)避過擬合

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...