
作者 | Nandhini TS
編譯 | CDA數(shù)據(jù)分析師
Data Preparation for Machine learning : Why it’s important and how to do it
編碼是成功的業(yè)務模型的前提。
建立成功的AI / ML模型有3個方面:算法,數(shù)據(jù)和計算。
雖然建立準確的算法和計算技能的應用是過程的一部分,但這是什么基礎呢?
使用正確的數(shù)據(jù)奠定基礎
從自動駕駛汽車等基于AI的大規(guī)模技術革命到構建非常簡單的算法,您都需要正確格式的數(shù)據(jù)。實際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對其進行分析以制造出無人駕駛和全自動汽車,以確保安全的道路。
收集數(shù)據(jù)之后的下一步是準備數(shù)據(jù)的過程,這將成為本文的重點,并將在后續(xù)部分中詳細討論。在深入研究數(shù)據(jù)準備過程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學家,您需要了解數(shù)據(jù)準備的重要性,以實現(xiàn)模型所需的認知能力。
什么是數(shù)據(jù)準備?
數(shù)據(jù)是每個組織的寶貴資源。但是,如果我們不進一步分析該聲明,它可能會否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務決策,執(zhí)行成功的銷售和營銷活動等。但是,這些不能僅用原始數(shù)據(jù)來實現(xiàn)。
數(shù)據(jù)只有經(jīng)過清洗,貼標簽,注釋和準備后,才能成為寶貴的資源。數(shù)據(jù)經(jīng)過適應性測試的各個階段后,便最終具備進行進一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫,開發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。
現(xiàn)在,重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現(xiàn)此輸出的基礎在于數(shù)據(jù)的健康狀況。此外,無論您是構建自己的模型還是從第三方那里獲得模型,都必須確保標記,擴充,干凈,結構化的整個過程背后的數(shù)據(jù)都經(jīng)過標記,概括,即數(shù)據(jù)準備。
正如Wikipedia所定義的,數(shù)據(jù)準備是將原始數(shù)據(jù)(可能來自不同的數(shù)據(jù)源)操縱(或預處理)為可以方便,準確地進行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準備是數(shù)據(jù)分析項目的第一步,可以包括許多離散任務,例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴充和數(shù)據(jù)交付。
機器學習數(shù)據(jù)準備的重要性
根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機構和最終用戶企業(yè)的響應,以識別在標記,注釋,清理,擴充和豐富機器學習模型的數(shù)據(jù)上花費了大量時間。
數(shù)據(jù)科學家80%以上的時間都花在準備數(shù)據(jù)上。盡管這是一個好兆頭,但考慮到隨著良好的數(shù)據(jù)進入建立分析模型,準確的人會得到輸出。但是,理想情況下,數(shù)據(jù)科學家應該將更多的時間花在與數(shù)據(jù)交互,高級分析,培訓和評估模型以及部署到生產上。
只有20%的時間進入流程的主要部分。為了克服時間限制,組織需要利用用于數(shù)據(jù)工程,標記和準備的專家解決方案來減少在清理,擴充,標記和豐富數(shù)據(jù)上花費的時間(取決于項目的復雜性)。
這將我們帶入了“ 垃圾中的垃圾 ”概念,即輸出的質量取決于輸入的質量。
數(shù)據(jù)準備過程
以下是針對機器學習模型的數(shù)據(jù)準備過程的簡要介紹:
數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程,通常是從非結構化源(如網(wǎng)頁,PDF文檔,假脫機文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡中提取信息的過程稱為網(wǎng)絡刮。
數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質量并通過格式帶來結構的過程。這有助于評估質量和對特定標準的一致性。當數(shù)據(jù)集不平衡且配置不當時,大多數(shù)機器學習模型將無法正常工作。
數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無錯誤,并提供準確的信息,因為它不僅可以檢測文本和數(shù)字的異常值,還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息,以確保您的數(shù)據(jù)是干凈的。
數(shù)據(jù)轉換是對數(shù)據(jù)進行轉換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉換有助于對此進行標準化和規(guī)范化。
數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個人信息以保護隱私的過程。
數(shù)據(jù)擴充用于使可用于訓練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經(jīng)網(wǎng)絡。
數(shù)據(jù)采樣識別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。
特征工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性,您可以將數(shù)據(jù)集合并以將其合并為一個。
這是一個例子:
假設有兩列,一列是收入,另一列是輸出分類(A,B,C)。輸出A,B,C取決于收入范圍$ 2k-$ 3K,$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入范圍內分配數(shù)值1,2和3?,F(xiàn)在,這些數(shù)值被映射到我們最初創(chuàng)建的3個數(shù)據(jù)集。
在這里,收入范圍是要素工程。
數(shù)據(jù)準備過程的另一個重要部分是標記。為了使這個概念易于理解,讓我以熱飲料(例如茶)為例。
現(xiàn)在,該項目的目標是確定特定類型茶中所含咖啡因的百分比或數(shù)量。
紅茶含咖啡因20 毫克 茶+牛奶含咖啡因11 毫克 草 茶含咖啡因0毫克伯爵灰茶咖啡因40毫克
注意:(咖啡因百分比以100克茶計算)
因此,ML模型將為咖啡因含量最高的伯爵茶分配一個數(shù)值,例如1,為紅茶分配2,依此類推。這將我們帶入有助于識別數(shù)據(jù)集的標簽概念。
數(shù)據(jù)標記-數(shù)據(jù)準備必不可少的組成部分
標記只是將標簽分配給一組未標記的數(shù)據(jù),以使其更易于識別以進行預測分析。
這些標簽表明照片中的動物是狗還是狐貍(請參見下圖)。
通過向模型提供數(shù)百萬個標記數(shù)據(jù),標記可以幫助機器學習模型猜測和預測一條未標記數(shù)據(jù)。
數(shù)據(jù)標記的一些用例:
標簽是文本還是圖像,以了解內容的情感,例如在推文中。
語音和文本NLP
是音頻和文本源的標簽。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10