99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀機器學習的數(shù)據(jù)準備：為什么它如此重要，我們應該怎么做？

機器學習的數(shù)據(jù)準備：為什么它如此重要，我們應該怎么做？

2019-12-09

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的數(shù)據(jù)準備：為什么它如此重要，我們應該怎么做？

作者 | Nandhini TS

編譯 | CDA數(shù)據(jù)分析師

Data Preparation for Machine learning : Why it’s important and how to do it

編碼是成功的業(yè)務模型的前提。

建立成功的AI / ML模型有3個方面：算法，數(shù)據(jù)和計算。

雖然建立準確的算法和計算技能的應用是過程的一部分，但這是什么基礎呢？

使用正確的數(shù)據(jù)奠定基礎

從自動駕駛汽車等基于AI的大規(guī)模技術革命到構建非常簡單的算法，您都需要正確格式的數(shù)據(jù)。實際上，特斯拉和福特一直在通過行車記錄儀，傳感器和倒車攝像頭收集數(shù)據(jù)，并對其進行分析以制造出無人駕駛和全自動汽車，以確保安全的道路。

收集數(shù)據(jù)之后的下一步是準備數(shù)據(jù)的過程，這將成為本文的重點，并將在后續(xù)部分中詳細討論。在深入研究數(shù)據(jù)準備過程的概念之前，讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學家，您需要了解數(shù)據(jù)準備的重要性，以實現(xiàn)模型所需的認知能力。

什么是數(shù)據(jù)準備？

數(shù)據(jù)是每個組織的寶貴資源。但是，如果我們不進一步分析該聲明，它可能會否定自己。企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講，它用于制定明智的業(yè)務決策，執(zhí)行成功的銷售和營銷活動等。但是，這些不能僅用原始數(shù)據(jù)來實現(xiàn)。

數(shù)據(jù)只有經(jīng)過清洗，貼標簽，注釋和準備后，才能成為寶貴的資源。數(shù)據(jù)經(jīng)過適應性測試的各個階段后，便最終具備進行進一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具，CRM數(shù)據(jù)庫，開發(fā)用于分析模型的算法，數(shù)據(jù)管理工具等。

現(xiàn)在，重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現(xiàn)此輸出的基礎在于數(shù)據(jù)的健康狀況。此外，無論您是構建自己的模型還是從第三方那里獲得模型，都必須確保標記，擴充，干凈，結構化的整個過程背后的數(shù)據(jù)都經(jīng)過標記，概括，即數(shù)據(jù)準備。

正如Wikipedia所定義的，數(shù)據(jù)準備是將原始數(shù)據(jù)（可能來自不同的數(shù)據(jù)源）操縱（或預處理）為可以方便，準確地進行分析的形式的行為，例如出于商業(yè)目的。數(shù)據(jù)準備是數(shù)據(jù)分析項目的第一步，可以包括許多離散任務，例如加載數(shù)據(jù)或數(shù)據(jù)攝取，數(shù)據(jù)融合，數(shù)據(jù)清理，數(shù)據(jù)擴充和數(shù)據(jù)交付。

機器學習數(shù)據(jù)準備的重要性

根據(jù)Cognilytica的最新研究，其中記錄并分析了組織，機構和最終用戶企業(yè)的響應，以識別在標記，注釋，清理，擴充和豐富機器學習模型的數(shù)據(jù)上花費了大量時間。

數(shù)據(jù)科學家80％以上的時間都花在準備數(shù)據(jù)上。盡管這是一個好兆頭，但考慮到隨著良好的數(shù)據(jù)進入建立分析模型，準確的人會得到輸出。但是，理想情況下，數(shù)據(jù)科學家應該將更多的時間花在與數(shù)據(jù)交互，高級分析，培訓和評估模型以及部署到生產上。

只有20％的時間進入流程的主要部分。為了克服時間限制，組織需要利用用于數(shù)據(jù)工程，標記和準備的專家解決方案來減少在清理，擴充，標記和豐富數(shù)據(jù)上花費的時間（取決于項目的復雜性）。

這將我們帶入了“ 垃圾中的垃圾 ”概念，即輸出的質量取決于輸入的質量。

數(shù)據(jù)準備過程

以下是針對機器學習模型的數(shù)據(jù)準備過程的簡要介紹：

數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程，通常是從非結構化源（如網(wǎng)頁，PDF文檔，假脫機文件，電子郵件等）中檢索數(shù)據(jù)。部署從網(wǎng)絡中提取信息的過程稱為網(wǎng)絡刮。

數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質量并通過格式帶來結構的過程。這有助于評估質量和對特定標準的一致性。當數(shù)據(jù)集不平衡且配置不當時，大多數(shù)機器學習模型將無法正常工作。

數(shù)據(jù)清理可確保數(shù)據(jù)干凈，全面，無錯誤，并提供準確的信息，因為它不僅可以檢測文本和數(shù)字的異常值，還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息，以確保您的數(shù)據(jù)是干凈的。

數(shù)據(jù)轉換是對數(shù)據(jù)進行轉換以使其均勻。地址，名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示，數(shù)據(jù)轉換有助于對此進行標準化和規(guī)范化。

數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個人信息以保護隱私的過程。

數(shù)據(jù)擴充用于使可用于訓練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經(jīng)網(wǎng)絡。

數(shù)據(jù)采樣識別大型數(shù)據(jù)集中的代表性子集，以分析和處理數(shù)據(jù)。

特征工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性，您可以將數(shù)據(jù)集合并以將其合并為一個。

這是一個例子：

假設有兩列，一列是收入，另一列是輸出分類（A，B，C）。輸出A，B，C取決于收入范圍$ 2k-$ 3K，$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入范圍內分配數(shù)值1,2和3?，F(xiàn)在，這些數(shù)值被映射到我們最初創(chuàng)建的3個數(shù)據(jù)集。

在這里，收入范圍是要素工程。

數(shù)據(jù)準備過程的另一個重要部分是標記。為了使這個概念易于理解，讓我以熱飲料（例如茶）為例。

現(xiàn)在，該項目的目標是確定特定類型茶中所含咖啡因的百分比或數(shù)量。

紅茶含咖啡因20 毫克茶+牛奶含咖啡因11 毫克草茶含咖啡因0毫克伯爵灰茶咖啡因40毫克

注意：（咖啡因百分比以100克茶計算）

因此，ML模型將為咖啡因含量最高的伯爵茶分配一個數(shù)值，例如1，為紅茶分配2，依此類推。這將我們帶入有助于識別數(shù)據(jù)集的標簽概念。

數(shù)據(jù)標記-數(shù)據(jù)準備必不可少的組成部分

標記只是將標簽分配給一組未標記的數(shù)據(jù)，以使其更易于識別以進行預測分析。

這些標簽表明照片中的動物是狗還是狐貍（請參見下圖）。

通過向模型提供數(shù)百萬個標記數(shù)據(jù)，標記可以幫助機器學習模型猜測和預測一條未標記數(shù)據(jù)。

數(shù)據(jù)標記的一些用例：

視頻和圖像的圖像分類/注釋包括圖像的注釋，其描述，邊界框定義等。
會話標記一個典型的例子是聊天機器人，其中對數(shù)據(jù)進行標記和訓練以使與用戶的對話更加真實和相關。
情感分析數(shù)據(jù)

標簽是文本還是圖像，以了解內容的情感，例如在推文中。

語音和文本NLP

是音頻和文本源的標簽。

人臉檢測標簽圖像集和訓練，以進行準確的檢測和預測

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

機器學習數(shù)據(jù)分析特征工程特征神經(jīng)網(wǎng)絡業(yè)務模型字段 NLP

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇機器學習之深度學習的未來

下一篇人工智能中的線性代數(shù)：如何理解并更好地應用它？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調，回調的第一個參數(shù)驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習的數(shù)據(jù)準備：為什么它如此重要，我們應該怎么做？

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習的數(shù)據(jù)準備：為什么它如此重要，我們應該怎么做？

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

機器學習的數(shù)據(jù)準備：為什么它如此重要，我們應該怎么做？

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...