99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀機器學習的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?
機器學習的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?
2019-12-09
收藏
<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?

作者 | Nandhini TS

編譯 | CDA數(shù)據(jù)分析師

Data Preparation for Machine learning : Why it’s important and how to do it

編碼是成功的業(yè)務模型的前提。

建立成功的AI / ML模型3個方面算法,數(shù)據(jù)和計算。

雖然建立準確的算法和計算技能的應用是過程的一部分,但這是什么基礎呢?

使用正確的數(shù)據(jù)奠定基礎

從自動駕駛汽車等基于AI的大規(guī)模技術革命到構建非常簡單的算法,您都需要正確格式的數(shù)據(jù)。實際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對其進行分析以制造出無人駕駛和全自動汽車,以確保安全的道路。

收集數(shù)據(jù)之后的下一步是準備數(shù)據(jù)的過程,這將成為本文的重點,并將在后續(xù)部分中詳細討論。在深入研究數(shù)據(jù)準備過程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學家,您需要了解數(shù)據(jù)準備的重要性,以實現(xiàn)模型所需的認知能力。

什么是數(shù)據(jù)準備?

數(shù)據(jù)是每個組織的寶貴資源。但是,如果我們不進一步分析該聲明,它可能會否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務決策,執(zhí)行成功的銷售和營銷活動等。但是,這些不能僅用原始數(shù)據(jù)來實現(xiàn)。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?

數(shù)據(jù)只有經過清洗,貼標簽,注釋和準備后,才能成為寶貴的資源。數(shù)據(jù)經過適應性測試的各個階段后,便最終具備進行進一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫,開發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。

現(xiàn)在,重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現(xiàn)此輸出的基礎在于數(shù)據(jù)的健康狀況。此外,無論您是構建自己的模型還是從第三方那里獲得模型,都必須確保標記,擴充,干凈,結構化的整個過程背后的數(shù)據(jù)都經過標記,概括,即數(shù)據(jù)準備。

正如Wikipedia所定義的,數(shù)據(jù)準備是將原始數(shù)據(jù)(可能來自不同的數(shù)據(jù)源)操縱(或預處理)為可以方便,準確地進行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準備是數(shù)據(jù)分析項目的第一步,可以包括許多離散任務,例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴充和數(shù)據(jù)交付。

機器學習數(shù)據(jù)準備的重要性

根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機構和最終用戶企業(yè)的響應,以識別在標記,注釋,清理,擴充和豐富機器學習模型的數(shù)據(jù)上花費了大量時間。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?

數(shù)據(jù)科學家80%以上的時間都花在準備數(shù)據(jù)上。盡管這是一個好兆頭,但考慮到隨著良好的數(shù)據(jù)進入建立分析模型,準確的人會得到輸出。但是,理想情況下,數(shù)據(jù)科學家應該將更多的時間花在與數(shù)據(jù)交互,高級分析,培訓和評估模型以及部署到生產上。

只有20%的時間進入流程的主要部分。為了克服時間限制,組織需要利用用于數(shù)據(jù)工程,標記和準備的專家解決方案來減少在清理,擴充,標記和豐富數(shù)據(jù)上花費的時間(取決于項目的復雜性)。

這將我們帶入了“ 垃圾中的垃圾 ”概念,即輸出的質量取決于輸入的質量。

數(shù)據(jù)準備過程

以下是針對機器學習模型的數(shù)據(jù)準備過程的簡要介紹:

數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程,通常是從非結構化源(如網(wǎng)頁,PDF文檔,假脫機文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡中提取信息的過程稱為網(wǎng)絡刮。

數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質量并通過格式帶來結構的過程。這有助于評估質量和對特定標準的一致性。當數(shù)據(jù)集不平衡且配置不當時,大多數(shù)機器學習模型將無法正常工作。

數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無錯誤,并提供準確的信息,因為它不僅可以檢測文本和數(shù)字的異常值,還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息,以確保您的數(shù)據(jù)是干凈的。

數(shù)據(jù)轉換是對數(shù)據(jù)進行轉換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉換有助于對此進行標準化和規(guī)范化。

數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個人信息以保護隱私的過程。

數(shù)據(jù)擴充用于使可用于訓練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經網(wǎng)絡。

數(shù)據(jù)采樣識別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。

特征工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性,您可以將數(shù)據(jù)集合并以將其合并為一個。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?

這是一個例子:

假設有兩列,一列是收入,另一列是輸出分類(A,B,C)。輸出A,B,C取決于收入范圍$ 2k-$ 3K,$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入范圍內分配數(shù)值1,2和3?,F(xiàn)在,這些數(shù)值被映射到我們最初創(chuàng)建的3個數(shù)據(jù)集。

在這里,收入范圍是要素工程。

數(shù)據(jù)準備過程的另一個重要部分是標記。為了使這個概念易于理解,讓我以熱飲料(例如茶)為例。

現(xiàn)在,該項目的目標是確定特定類型茶中所含咖啡因的百分比或數(shù)量。

紅茶含咖啡因20 毫克 茶+牛奶含咖啡因11 毫克 草 茶含咖啡因0毫克伯爵灰茶咖啡因40毫克

注意:(咖啡因百分比以100克茶計算)

因此,ML模型將為咖啡因含量最高的伯爵茶分配一個數(shù)值,例如1,為紅茶分配2,依此類推。這將我們帶入有助于識別數(shù)據(jù)集的標簽概念。

數(shù)據(jù)標記-數(shù)據(jù)準備必不可少的組成部分

標記只是將標簽分配給一組未標記的數(shù)據(jù),以使其更易于識別以進行預測分析。

這些標簽表明照片中的動物是狗還是狐貍(請參見下圖)。

通過向模型提供數(shù)百萬個標記數(shù)據(jù),標記可以幫助機器學習模型猜測和預測一條未標記數(shù)據(jù)。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的數(shù)據(jù)準備:為什么它如此重要,我們應該怎么做?

數(shù)據(jù)標記的一些用例:

  • 視頻和圖像的圖像分類/注釋包括圖像的注釋,其描述,邊界框定義等。
  • 會話標記一個典型的例子是聊天機器人,其中對數(shù)據(jù)進行標記和訓練以使與用戶的對話更加真實和相關。
  • 情感分析數(shù)據(jù)

標簽是文本還是圖像,以了解內容的情感,例如在推文中。

語音和文本NLP

是音頻和文本源的標簽。

  • 人臉檢測標簽圖像集和訓練,以進行準確的檢測和預測

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }