
作者 | Nandhini TS
編譯 | CDA數(shù)據(jù)分析師
Data Preparation for Machine learning : Why it’s important and how to do it
編碼是成功的業(yè)務模型的前提。
建立成功的AI / ML模型有3個方面:算法,數(shù)據(jù)和計算。
雖然建立準確的算法和計算技能的應用是過程的一部分,但這是什么基礎呢?
使用正確的數(shù)據(jù)奠定基礎
從自動駕駛汽車等基于AI的大規(guī)模技術革命到構建非常簡單的算法,您都需要正確格式的數(shù)據(jù)。實際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對其進行分析以制造出無人駕駛和全自動汽車,以確保安全的道路。
收集數(shù)據(jù)之后的下一步是準備數(shù)據(jù)的過程,這將成為本文的重點,并將在后續(xù)部分中詳細討論。在深入研究數(shù)據(jù)準備過程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學家,您需要了解數(shù)據(jù)準備的重要性,以實現(xiàn)模型所需的認知能力。
什么是數(shù)據(jù)準備?
數(shù)據(jù)是每個組織的寶貴資源。但是,如果我們不進一步分析該聲明,它可能會否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務決策,執(zhí)行成功的銷售和營銷活動等。但是,這些不能僅用原始數(shù)據(jù)來實現(xiàn)。
數(shù)據(jù)只有經過清洗,貼標簽,注釋和準備后,才能成為寶貴的資源。數(shù)據(jù)經過適應性測試的各個階段后,便最終具備進行進一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫,開發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。
現(xiàn)在,重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現(xiàn)此輸出的基礎在于數(shù)據(jù)的健康狀況。此外,無論您是構建自己的模型還是從第三方那里獲得模型,都必須確保標記,擴充,干凈,結構化的整個過程背后的數(shù)據(jù)都經過標記,概括,即數(shù)據(jù)準備。
正如Wikipedia所定義的,數(shù)據(jù)準備是將原始數(shù)據(jù)(可能來自不同的數(shù)據(jù)源)操縱(或預處理)為可以方便,準確地進行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準備是數(shù)據(jù)分析項目的第一步,可以包括許多離散任務,例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴充和數(shù)據(jù)交付。
機器學習數(shù)據(jù)準備的重要性
根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機構和最終用戶企業(yè)的響應,以識別在標記,注釋,清理,擴充和豐富機器學習模型的數(shù)據(jù)上花費了大量時間。
數(shù)據(jù)科學家80%以上的時間都花在準備數(shù)據(jù)上。盡管這是一個好兆頭,但考慮到隨著良好的數(shù)據(jù)進入建立分析模型,準確的人會得到輸出。但是,理想情況下,數(shù)據(jù)科學家應該將更多的時間花在與數(shù)據(jù)交互,高級分析,培訓和評估模型以及部署到生產上。
只有20%的時間進入流程的主要部分。為了克服時間限制,組織需要利用用于數(shù)據(jù)工程,標記和準備的專家解決方案來減少在清理,擴充,標記和豐富數(shù)據(jù)上花費的時間(取決于項目的復雜性)。
這將我們帶入了“ 垃圾中的垃圾 ”概念,即輸出的質量取決于輸入的質量。
數(shù)據(jù)準備過程
以下是針對機器學習模型的數(shù)據(jù)準備過程的簡要介紹:
數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程,通常是從非結構化源(如網(wǎng)頁,PDF文檔,假脫機文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡中提取信息的過程稱為網(wǎng)絡刮。
數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質量并通過格式帶來結構的過程。這有助于評估質量和對特定標準的一致性。當數(shù)據(jù)集不平衡且配置不當時,大多數(shù)機器學習模型將無法正常工作。
數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無錯誤,并提供準確的信息,因為它不僅可以檢測文本和數(shù)字的異常值,還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息,以確保您的數(shù)據(jù)是干凈的。
數(shù)據(jù)轉換是對數(shù)據(jù)進行轉換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉換有助于對此進行標準化和規(guī)范化。
數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個人信息以保護隱私的過程。
數(shù)據(jù)擴充用于使可用于訓練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經網(wǎng)絡。
數(shù)據(jù)采樣識別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。
特征工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性,您可以將數(shù)據(jù)集合并以將其合并為一個。
這是一個例子:
假設有兩列,一列是收入,另一列是輸出分類(A,B,C)。輸出A,B,C取決于收入范圍$ 2k-$ 3K,$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入范圍內分配數(shù)值1,2和3?,F(xiàn)在,這些數(shù)值被映射到我們最初創(chuàng)建的3個數(shù)據(jù)集。
在這里,收入范圍是要素工程。
數(shù)據(jù)準備過程的另一個重要部分是標記。為了使這個概念易于理解,讓我以熱飲料(例如茶)為例。
現(xiàn)在,該項目的目標是確定特定類型茶中所含咖啡因的百分比或數(shù)量。
紅茶含咖啡因20 毫克 茶+牛奶含咖啡因11 毫克 草 茶含咖啡因0毫克伯爵灰茶咖啡因40毫克
注意:(咖啡因百分比以100克茶計算)
因此,ML模型將為咖啡因含量最高的伯爵茶分配一個數(shù)值,例如1,為紅茶分配2,依此類推。這將我們帶入有助于識別數(shù)據(jù)集的標簽概念。
數(shù)據(jù)標記-數(shù)據(jù)準備必不可少的組成部分
標記只是將標簽分配給一組未標記的數(shù)據(jù),以使其更易于識別以進行預測分析。
這些標簽表明照片中的動物是狗還是狐貍(請參見下圖)。
通過向模型提供數(shù)百萬個標記數(shù)據(jù),標記可以幫助機器學習模型猜測和預測一條未標記數(shù)據(jù)。
數(shù)據(jù)標記的一些用例:
標簽是文本還是圖像,以了解內容的情感,例如在推文中。
語音和文本NLP
是音頻和文本源的標簽。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03