99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

^{<blockquote id="qxrma"><code id="qxrma"></code></blockquote>}

熱線電話：13121318867

登錄

首頁精彩閱讀機器學習實踐中應(yīng)避免的7種常見錯誤

機器學習實踐中應(yīng)避免的7種常見錯誤

2016-06-02

機器學習實踐中應(yīng)避免的7種常見錯誤

在機器學習領(lǐng)域，每個給定的建模問題都存在幾十種解法，本文作者認為，模型算法的假設(shè)并不一定適用于手頭的數(shù)據(jù)；在追求模型最佳性能時，重要的是選擇適合數(shù)據(jù)集（尤其是“大數(shù)據(jù)”）的模型算法。

統(tǒng)計建模和工程開發(fā)很相似。

在工程開發(fā)中，人們有多種方法搭建一套鍵-值存儲系統(tǒng)，每種設(shè)計針對使用模式有一套不同的假設(shè)。在統(tǒng)計建模中，也有很多算法來構(gòu)造一個分類器，每種算法對數(shù)據(jù)也有各自的假設(shè)集合。

當處理少量數(shù)據(jù)時，因為實驗成本很低，我們盡可能多的嘗試各種算法，從而選出效果最優(yōu)的算法。但提到“大數(shù)據(jù)”，提前分析數(shù)據(jù)，然后設(shè)計相應(yīng)“管道”模型（預(yù)處理，建模，優(yōu)化算法，評價，產(chǎn)品化）是事半功倍的。

正如在我以前的文章里提到，每個給定的建模問題都存在幾十種解法。每個模型會提出不同的假設(shè)條件，我們也很難直觀辨別哪些假設(shè)是合理的。在業(yè)界，大多數(shù)從業(yè)人員傾向于挑選他們熟悉的建模算法，而不是最適合數(shù)據(jù)集的那個。在這篇文章中，我將分享一些常見的認識誤區(qū)（要避免的）。在今后的文章中再介紹一些最佳實踐方法（應(yīng)該做的）。

1. 想當然地使用默認損失函數(shù)

很多從業(yè)者喜歡用默認的損失函數(shù)（比如平方誤差）來訓練和選擇最優(yōu)模型。事實上，默認的損失函數(shù)很少能滿足我們的業(yè)務(wù)需求。拿詐騙檢測來說。當我們檢測詐騙交易時，我們的業(yè)務(wù)需求是盡量減少詐騙帶來的損失。然而現(xiàn)有二元分類器默認的損失函數(shù)對誤報和漏報的危害一視同仁。對于我們的業(yè)務(wù)需求，損失函數(shù)不僅對漏報的懲罰要超過誤報，對漏報的懲罰程度也要和詐騙金額成比例。而且，詐騙檢測的訓練數(shù)據(jù)集往往正負樣本極度不均衡。在這種情況下，損失函數(shù)就要偏向于照顧稀少類（如通過升/降采樣等）。

2. 用普通線性模型處理非線性問題

當需要構(gòu)建一個二元分類器時，很多人馬上就想到用邏輯回歸，因為它很簡單。但是，他們忘記了邏輯回歸是線性模型，非線性因素的交叉特征需要靠手工編碼處理。回到剛才詐騙檢測的例子，要獲得好的模型效果，就需要引入“帳單地址=送貨地址 && 交易金額<$ 50”之類的高階交叉特征。因此，在處理包含交叉特征的問題上我們應(yīng)該盡可能選擇非線性模型，比如有核函數(shù)的SVM，或者基于樹的分類器。

3.忽視異常值

異常值很有意思。根據(jù)上下文情況，它們要么需要被特別處理，要么應(yīng)該被完全忽略。就拿收入預(yù)測來說。如果觀察到收入有異常尖峰，我們可能要加倍注意他們，并分析是什么原因造成這些峰值。但如果異常值是由于機械誤差、測量誤差或者其它任何非普遍化因素導致的，那我們最好在準備訓練數(shù)據(jù)之前過濾掉這些異常值。

有些模型算法對異常值非常靈敏。比如，AdaBoost 會對它們“倍加關(guān)注”，賦予一個相當大的權(quán)重值。相反，決策樹就簡單地把它們當做錯誤分類來處理。如果數(shù)據(jù)集包含相當數(shù)量的異常值，那么，使用一種具有異常值魯棒性的建模算法或直接過濾掉異常值是非常重要的。

4. 樣本數(shù)遠小于特征數(shù)時使用高方差模型

SVM是最流行的建模算法之一，它的強大功能之一就在于用不同核函數(shù)去擬合模型。SVM內(nèi)核被認為是可以自發(fā)組合現(xiàn)有特征，從而形成更高維度特征空間的方法。由于獲得這項強大功能的代價幾乎忽略不計，大多數(shù)人在訓練SVM模型時默認使用核函數(shù)。然而，當訓練樣本數(shù)遠遠少于特征維度時（n<<p）—— 常見于醫(yī)學數(shù)據(jù)——高維特征空間數(shù)據(jù)過擬合風險會隨之增加。事實上，在上述情況下我們應(yīng)該完全避免使用高方差模型。

5. 不做標準化的L1/L2正則化

使用L1或L2正則化是線性回歸或邏輯回歸懲罰權(quán)重系數(shù)值過大的常用方法。然而，許多人在使用這些正則化方法時都沒有意識到標準化的重要性。

再回到詐騙檢測，設(shè)想一個把交易金額作為特征的線性回歸模型。如果不做正則化，當交易金額以美元為單位時，其擬合系數(shù)將會是以美分為單位時的100倍。同時，因為L1/L2正則化對系數(shù)值大的項懲罰更重，美元作為單位時交易金額這個維度將會受到更多的懲罰。因此，正則化并不是一視同仁，它往往在更小尺度上懲罰特征。為了緩解這一問題，需要在預(yù)處理過程中標準化所有特征，使它們處在平等的位置。

6.不考慮線性相關(guān)就使用線性模型

假設(shè)構(gòu)建一個含有X1和X2兩個變量的線性模型，真實的模型是Y = X1 + X2。理想情況下，如果數(shù)據(jù)僅含有少量噪點，線性回歸模型能夠還原真實模型。然而，如果X1和X2存在線性相關(guān)，對于大多數(shù)優(yōu)化算法而言，無論Y = 2 * X1 , Y = 3 * X1-X2 還是 Y = 100 * X1-99 * X2效果都一樣好。盡管這個問題沒有造成我們預(yù)測的偏差，看上去它似乎并無大礙。但是，它使問題變得病態(tài)了，因為系數(shù)權(quán)重無法得到解釋。

7. 把線性模型或者邏輯回歸模型系數(shù)的絕對值解釋為特征重要性

因為很多現(xiàn)成的線性回歸方法返回每個系數(shù)的p值，很多人就認為系數(shù)的絕對值越大，對應(yīng)的特征就發(fā)揮更大作用。事實并非如此，因為一方面縮放變量就會改變系數(shù)絕對值，另一方面如果特征是線性相關(guān)的，其系數(shù)可以從一維特征轉(zhuǎn)移到另一維特征。此外，數(shù)據(jù)集包含的特征維度越多，特征之間就越有可能線性相關(guān)，用系數(shù)解釋特征重要性就越不靠譜。

以上就是機器學習實踐操作中的7個常見錯誤。這個列表并不完整，它只是激發(fā)讀者去思考，模型算法的假設(shè)并不一定適用于手頭的數(shù)據(jù)。在追求模型最佳性能時，重要的是選擇適合數(shù)據(jù)的模型算法，而不是你最熟悉的那個。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

特征損失函數(shù) 邏輯回歸線性回歸 SVM 機器學習特征空間大數(shù)據(jù)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習實踐中應(yīng)避免的7種常見錯誤

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習實踐中應(yīng)避免的7種常見錯誤

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...