99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁(yè)大數(shù)據(jù)時(shí)代【CDA干貨】數(shù)據(jù)清洗工具全景指南：從入門到進(jìn)階的實(shí)操路徑

【CDA干貨】數(shù)據(jù)清洗工具全景指南：從入門到進(jìn)階的實(shí)操路徑

2025-08-29

數(shù)據(jù)清洗工具全景指南：從入門到進(jìn)階的實(shí)操路徑

在數(shù)據(jù)驅(qū)動(dòng)決策的鏈條中，“數(shù)據(jù)清洗” 是決定后續(xù)分析與建模有效性的 “第一道關(guān)卡”—— 據(jù) Gartner 統(tǒng)計(jì)，數(shù)據(jù)分析師約 60% 的時(shí)間消耗在清洗臟數(shù)據(jù)（如缺失值、異常值、格式混亂）上。而選擇適配的清洗工具，能將這一耗時(shí)降低 30%-50%。本文將按 “工具輕量化程度 + 數(shù)據(jù)量規(guī)?！?分類，從 “輕量入門工具（Excel、WPS）”“專業(yè)代碼工具（Python、SQL）”“可視化流程工具（Tableau Prep）”“大數(shù)據(jù)清洗工具（Spark）” 四個(gè)維度，詳解各類工具的核心功能、實(shí)操場(chǎng)景與選擇邏輯，幫不同角色（業(yè)務(wù)人員、數(shù)據(jù)分析師、大數(shù)據(jù)工程師）高效完成數(shù)據(jù)清洗。

一、認(rèn)知前提：數(shù)據(jù)清洗的核心任務(wù)與工具需求

在介紹工具前，需先明確數(shù)據(jù)清洗的 “核心任務(wù)”—— 工具的價(jià)值本質(zhì)是 “高效解決這些任務(wù)”，而非單純追求技術(shù)復(fù)雜度。數(shù)據(jù)清洗的核心任務(wù)可歸納為五類，不同工具在處理這些任務(wù)時(shí)各有優(yōu)劣：

清洗任務(wù)	定義與場(chǎng)景舉例	工具核心需求
1. 缺失值處理	數(shù)據(jù)字段為空（如用戶表中 “年齡” 字段缺失 30%）	支持批量填充（均值 / 中位數(shù)）、條件刪除
2. 異常值處理	超出合理范圍的數(shù)據(jù)（如電商訂單中 “客單價(jià) 10 萬(wàn)元”）	支持規(guī)則篩選（3σ 原則）、可視化識(shí)別
3. 重復(fù)值處理	完全重復(fù)或關(guān)鍵字段重復(fù)的數(shù)據(jù)（如重復(fù)錄入的訂單）	支持按字段去重、保留最新 / 最早記錄
4. 格式統(tǒng)一	字段格式不一致（如 “日期” 同時(shí)存在 “2025/08/29”“29-08-2025”）	支持批量格式轉(zhuǎn)換、正則匹配修正
5. 數(shù)據(jù)關(guān)聯(lián)補(bǔ)全	多表數(shù)據(jù)需合并（如 “用戶表” 與 “訂單表” 通過(guò) “用戶 ID” 關(guān)聯(lián)補(bǔ)全用戶信息）	支持表連接（左聯(lián) / 內(nèi)聯(lián)）、字段匹配

工具選擇需匹配 “數(shù)據(jù)量（KB 級(jí)→TB 級(jí)）”“技術(shù)能力（零代碼→代碼開(kāi)發(fā)）”“業(yè)務(wù)場(chǎng)景（臨時(shí)分析→批量自動(dòng)化）” 三大維度，避免 “用大炮打蚊子”（如用 Spark 處理 Excel 小數(shù)據(jù)）或 “用小刀砍大樹(shù)”（如用 Excel 處理百萬(wàn)行數(shù)據(jù)）。

二、輕量入門工具：零代碼操作，適配小數(shù)據(jù)與業(yè)務(wù)人員

輕量工具以 “可視化操作、零代碼” 為核心優(yōu)勢(shì)，適合業(yè)務(wù)人員（如運(yùn)營(yíng)、市場(chǎng)）處理 KB 級(jí)至 MB 級(jí)小數(shù)據(jù)（如月度銷售報(bào)表、用戶調(diào)研數(shù)據(jù)），無(wú)需技術(shù)背景即可快速上手。

1. Excel/WPS 表格：最易上手的 “即時(shí)清洗工具”

核心功能與實(shí)操案例

Excel/WPS 是數(shù)據(jù)清洗的 “入門首選”，通過(guò)內(nèi)置功能即可完成 80% 的基礎(chǔ)清洗任務(wù)：

缺失值處理：

場(chǎng)景：用戶調(diào)研表中 “收入” 字段缺失 15%，需填充合理值。

操作：選中 “收入” 列→菜單欄 “數(shù)據(jù)”→“缺失值”→選擇 “填充中位數(shù)”（避免極端值影響），或 “按相鄰單元格填充”（適用于時(shí)序數(shù)據(jù)如日期）。

進(jìn)階：用 “IF 函數(shù)” 條件填充，如=IF(A2="", 中位數(shù), A2)（A2 為收入字段）。
異常值識(shí)別與刪除：

場(chǎng)景：月度銷售表中 “銷量” 字段出現(xiàn) “10000 件”（遠(yuǎn)超月均 2000 件），需定位并核實(shí)。

操作：選中 “銷量” 列→菜單欄 “開(kāi)始”→“條件格式”→“突出顯示單元格規(guī)則”→“大于”→輸入 “5000”（3 倍均值閾值），異常值會(huì)自動(dòng)標(biāo)紅；核實(shí)為錯(cuò)誤數(shù)據(jù)后，選中標(biāo)紅單元格→右鍵 “刪除”→“刪除整行”。
重復(fù)值處理：

場(chǎng)景：訂單表中存在重復(fù)錄入的 “訂單 ID”，需保留最新一條。

操作：選中數(shù)據(jù)區(qū)域→菜單欄 “數(shù)據(jù)”→“刪除重復(fù)項(xiàng)”→勾選 “訂單 ID”（關(guān)鍵去重字段）→勾選 “保留最后一條記錄”→確認(rèn)，即可批量刪除重復(fù)訂單。
格式統(tǒng)一：

場(chǎng)景：“日期” 字段同時(shí)存在 “2025/08/29”“29-08-2025” 兩種格式，需統(tǒng)一為 “2025-08-29”。

操作：選中 “日期” 列→菜單欄 “數(shù)據(jù)”→“分列”→選擇 “日期”→目標(biāo)格式 “YMD”→完成；或用 “TEXT 函數(shù)” 批量轉(zhuǎn)換：=TEXT(A2, "YYYY-MM-DD")。

適用場(chǎng)景與優(yōu)缺點(diǎn)

適用場(chǎng)景：臨時(shí)數(shù)據(jù)清洗（如周報(bào) / 月報(bào)分析）、小數(shù)據(jù)集（≤10 萬(wàn)行）、非技術(shù)人員操作。
優(yōu)點(diǎn)：零代碼、即時(shí)響應(yīng)、與日常辦公場(chǎng)景無(wú)縫銜接；
缺點(diǎn)：數(shù)據(jù)量超過(guò) 10 萬(wàn)行時(shí)卡頓明顯，不支持自動(dòng)化批量處理（如每日定時(shí)清洗）。

2. 騰訊文檔 / 飛書(shū)表格：多人協(xié)作的 “在線清洗工具”

核心優(yōu)勢(shì)與場(chǎng)景

騰訊文檔 / 飛書(shū)表格在 Excel 基礎(chǔ)上增加了 “多人實(shí)時(shí)協(xié)作” 功能，適合團(tuán)隊(duì)共同處理數(shù)據(jù)（如跨部門聯(lián)合清洗用戶數(shù)據(jù)）：

實(shí)時(shí)協(xié)同：多人同時(shí)編輯同一份數(shù)據(jù)，清洗操作（如刪除重復(fù)值、填充缺失值）實(shí)時(shí)同步，避免版本混亂（如運(yùn)營(yíng)填充缺失的用戶標(biāo)簽，分析師同步處理異常值）。
在線存儲(chǔ)與共享：數(shù)據(jù)無(wú)需本地下載，直接通過(guò)鏈接共享，支持設(shè)置 “編輯權(quán)限”（如僅允許特定人刪除數(shù)據(jù)），降低數(shù)據(jù)泄露風(fēng)險(xiǎn)。
輕量自動(dòng)化：支持 “智能填充”（如輸入 “2025-08-29” 后，下拉自動(dòng)生成后續(xù)日期）、“公式模板”（如預(yù)設(shè)缺失值填充公式，團(tuán)隊(duì)成員直接復(fù)用）。

適用場(chǎng)景

跨團(tuán)隊(duì)協(xié)作清洗（如市場(chǎng)與運(yùn)營(yíng)共同處理活動(dòng)用戶數(shù)據(jù)）；
需隨時(shí)隨地訪問(wèn)（如出差時(shí)通過(guò)手機(jī)端修改清洗規(guī)則）；
數(shù)據(jù)安全性要求不高的輕量場(chǎng)景（如內(nèi)部調(diào)研數(shù)據(jù)）。

三、專業(yè)代碼工具：可編程操作，適配中大數(shù)據(jù)與分析師

當(dāng)數(shù)據(jù)量達(dá)到 “十萬(wàn)行至百萬(wàn)行”（MB 級(jí)至 GB 級(jí)），或需自動(dòng)化、標(biāo)準(zhǔn)化清洗流程時(shí)，需用 Python、SQL 等代碼工具 —— 這類工具適合數(shù)據(jù)分析師、數(shù)據(jù)工程師，通過(guò)代碼實(shí)現(xiàn) “批量處理、邏輯復(fù)用、自動(dòng)化調(diào)度”。

1. Python（Pandas+NumPy）：數(shù)據(jù)分析師的 “核心清洗工具”

Python 的 Pandas 庫(kù)是數(shù)據(jù)清洗的 “瑞士軍刀”，支持結(jié)構(gòu)化數(shù)據(jù)（如 CSV、Excel）的高效處理，NumPy 輔助數(shù)值計(jì)算，二者結(jié)合可完成 90% 的中大數(shù)據(jù)清洗任務(wù)。

核心功能與實(shí)操代碼案例

批量缺失值處理：

場(chǎng)景：電商訂單數(shù)據(jù)（100 萬(wàn)行）中 “支付時(shí)間” 缺失 5%、“優(yōu)惠金額” 缺失 10%，需分別處理。

代碼：

import pandas as pd

# 讀取數(shù)據(jù)

df = pd.read_csv("order_data.csv")

# 1. 支付時(shí)間（關(guān)鍵字段）：缺失值刪除行

df = df.dropna(subset=["支付時(shí)間"])

# 2. 優(yōu)惠金額（非關(guān)鍵字段）：用均值填充

df["優(yōu)惠金額"] = df["優(yōu)惠金額"].fillna(df["優(yōu)惠金額"].mean())

# 查看清洗后缺失值占比

print(df.isnull().sum() / len(df))  # 輸出均為0，清洗完成

異常值處理（3σ 原則）：

場(chǎng)景：用戶消費(fèi)數(shù)據(jù)中 “單次消費(fèi)金額” 存在異常值（如 10 萬(wàn)元），需用 3σ 原則篩選正常數(shù)據(jù)。

代碼：

import numpy as np

# 計(jì)算均值與標(biāo)準(zhǔn)差

mean = df["單次消費(fèi)金額"].mean()

std = df["單次消費(fèi)金額"].std()

# 篩選正常數(shù)據(jù)（在[均值-3σ, 均值+3σ]范圍內(nèi)）

df_normal = df[(df["單次消費(fèi)金額"] >= mean - 3*std) & (df["單次消費(fèi)金額"] <= mean + 3*std)]

# 查看異常值數(shù)量

print(f"異常值數(shù)量：{len(df) - len(df_normal)}")  # 輸出異常值數(shù)量，便于后續(xù)核實(shí)

重復(fù)值與格式統(tǒng)一：

場(chǎng)景：用戶表中 “用戶 ID” 存在重復(fù)，需保留 “注冊(cè)時(shí)間” 最新的記錄；“手機(jī)號(hào)” 字段存在 “138-1234-5678”“13812345678” 兩種格式，需統(tǒng)一為無(wú)分隔符格式。

代碼：

# 1. 按“用戶ID”去重，保留注冊(cè)時(shí)間最新的記錄

df = df.sort_values("注冊(cè)時(shí)間", ascending=False)  # 按注冊(cè)時(shí)間降序排列

df = df.drop_duplicates(subset=["用戶ID"], keep="first")  # 保留第一條（最新）記錄

# 2. 手機(jī)號(hào)格式統(tǒng)一：用正則去除非數(shù)字字符

df["手機(jī)號(hào)"] = df["手機(jī)號(hào)"].str.replace(r"[^d]", "", regex=True)  # 去除“-”等符號(hào)

自動(dòng)化腳本與調(diào)度：

場(chǎng)景：需每日自動(dòng)清洗前一天的訂單數(shù)據(jù)，生成標(biāo)準(zhǔn)化文件。

代碼：結(jié)合schedule庫(kù)實(shí)現(xiàn)定時(shí)調(diào)度：

import schedule

import time

def daily_clean():

   # 讀取前一天數(shù)據(jù)（假設(shè)數(shù)據(jù)按日期命名，如“order_20250828.csv”）

   yesterday = pd.Timestamp.now() - pd.Timedelta(days=1)

   file_name = f"order_{yesterday.strftime('%Y%m%d')}.csv"

   df = pd.read_csv(file_name)

   # 執(zhí)行清洗邏輯（缺失值、異常值、格式統(tǒng)一）

   # ...（省略上述清洗代碼）

   # 保存清洗后的數(shù)據(jù)

   df.to_csv(f"cleaned_order_{yesterday.strftime('%Y%m%d')}.csv", index=False)

   print(f"{file_name}清洗完成")

# 每天凌晨2點(diǎn)執(zhí)行清洗

schedule.every().day.at("02:00").do(daily_clean)

while True:

   schedule.run_pending()

   time.sleep(60)

適用場(chǎng)景與優(yōu)缺點(diǎn)

適用場(chǎng)景：中大數(shù)據(jù)（10 萬(wàn)行→百萬(wàn)行）、需自動(dòng)化清洗（如每日 / 每周定時(shí)任務(wù)）、復(fù)雜邏輯處理（如正則匹配修正格式、多條件篩選）；
優(yōu)點(diǎn)：處理效率高（百萬(wàn)行數(shù)據(jù)分鐘級(jí)完成）、代碼可復(fù)用（清洗邏輯封裝為函數(shù)，不同數(shù)據(jù)集直接調(diào)用）、支持多種數(shù)據(jù)格式（CSV、Excel、JSON）；
缺點(diǎn)：需掌握基礎(chǔ) Python 語(yǔ)法，上手門檻高于 Excel。

2. SQL：數(shù)據(jù)庫(kù)層面的 “源頭清洗工具”

當(dāng)數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)（如 MySQL、PostgreSQL）中時(shí)，SQL 可直接在 “數(shù)據(jù)源頭” 完成清洗，避免將臟數(shù)據(jù)導(dǎo)出后再處理，適合數(shù)據(jù)分析師與工程師處理數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)。

核心功能與實(shí)操 SQL 案例

數(shù)據(jù)篩選（刪除異常值）：

場(chǎng)景：數(shù)據(jù)庫(kù) “sales” 表中 “銷售額” 字段存在負(fù)數(shù)（異常值），需篩選出正常數(shù)據(jù)并生成新表。

SQL：

-- 創(chuàng)建清洗后的新表，排除銷售額<0的異常數(shù)據(jù)

CREATE TABLE cleaned_sales AS

SELECT * FROM sales

WHERE 銷售額 >= 0;  -- 篩選正常數(shù)據(jù)

缺失值處理（條件填充與刪除）：

場(chǎng)景：“users” 表中 “郵箱” 字段缺失（非關(guān)鍵），用 “未知郵箱” 填充；“用戶 ID” 缺失（關(guān)鍵），直接刪除該行。

SQL：

-- 1. 填充郵箱缺失值

UPDATE users

SET 郵箱 = 'unknown@example.com'

WHERE 郵箱 IS NULL;

-- 2. 刪除用戶ID缺失的行

DELETE FROM users

WHERE 用戶ID IS NULL;

數(shù)據(jù)關(guān)聯(lián)補(bǔ)全（多表連接）：

場(chǎng)景：“訂單表（orders）” 僅有 “用戶 ID”，需關(guān)聯(lián) “用戶表（users）” 補(bǔ)全 “用戶等級(jí)” 字段，生成含用戶等級(jí)的訂單表。

SQL：

-- 左連接補(bǔ)全用戶等級(jí)（保留所有訂單，即使無(wú)匹配用戶）

CREATE TABLE orders_with_level AS

SELECT o.*, u.用戶等級(jí)

FROM orders o

LEFT JOIN users u ON o.用戶ID = u.用戶ID;

重復(fù)值處理（按字段去重）：

場(chǎng)景：“l(fā)og” 表中 “日志 ID” 存在重復(fù)，需保留 “創(chuàng)建時(shí)間” 最新的記錄。

SQL（MySQL）：

-- 先給重復(fù)記錄打標(biāo)記，保留最新一條

DELETE FROM log

WHERE 日志ID IN (

   SELECT 日志ID FROM (

       -- 找出重復(fù)的日志ID，且不是最新的記錄

       SELECT 日志ID

       FROM log

       GROUP BY 日志ID

       HAVING COUNT(*) > 1

   ) t1

) AND 創(chuàng)建時(shí)間 NOT IN (

   SELECT max_time FROM (

       -- 找出每個(gè)重復(fù)日志ID的最新時(shí)間

       SELECT 日志ID, MAX(創(chuàng)建時(shí)間) AS max_time

       FROM log

       GROUP BY 日志ID

       HAVING COUNT(*) > 1

   ) t2

   WHERE log.日志ID = t2.日志ID

);

適用場(chǎng)景與優(yōu)缺點(diǎn)

適用場(chǎng)景：數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)清洗（避免數(shù)據(jù)導(dǎo)出導(dǎo)入耗時(shí)）、多表關(guān)聯(lián)補(bǔ)全（如訂單表關(guān)聯(lián)用戶表）、批量更新數(shù)據(jù)（如全表字段格式修正）；
優(yōu)點(diǎn)：直接操作數(shù)據(jù)源，減少數(shù)據(jù)傳輸損耗；支持復(fù)雜表連接與聚合邏輯；
缺點(diǎn)：不支持可視化操作，需掌握 SQL 語(yǔ)法；處理非結(jié)構(gòu)化數(shù)據(jù)（如文本、圖片）能力弱。

三、可視化流程工具：低代碼 + 流程化，適配復(fù)雜清洗邏輯與團(tuán)隊(duì)協(xié)作

可視化流程工具介于 “零代碼” 與 “代碼” 之間，通過(guò) “拖拽組件” 搭建清洗流程，支持實(shí)時(shí)預(yù)覽與邏輯調(diào)整，適合需要 “流程可視化、團(tuán)隊(duì)復(fù)用” 的場(chǎng)景（如數(shù)據(jù)分析師向業(yè)務(wù)人員展示清洗邏輯）。

Tableau Prep：數(shù)據(jù)分析與可視化協(xié)同的 “流程化工具”

Tableau Prep 是 Tableau 生態(tài)的核心清洗工具，以 “流程畫(huà)布 + 實(shí)時(shí)預(yù)覽” 為特色，清洗完成后可直接對(duì)接 Tableau Desktop 進(jìn)行可視化分析，無(wú)需導(dǎo)出數(shù)據(jù)。

核心功能與實(shí)操流程

流程化清洗畫(huà)布：

場(chǎng)景：電商 “用戶訂單數(shù)據(jù)” 需完成 “去重→缺失值填充→格式統(tǒng)一→表關(guān)聯(lián)” 四步清洗，需可視化展示流程。

操作步驟：

連接數(shù)據(jù)：在 Tableau Prep 中連接 “訂單表”“用戶表”（支持 Excel、數(shù)據(jù)庫(kù)、CSV 等）；
拖拽組件搭建流程：

第一步 “去重”：拖拽 “移除重復(fù)項(xiàng)” 組件，勾選 “訂單 ID” 字段，實(shí)時(shí)預(yù)覽重復(fù)項(xiàng)數(shù)量（如顯示 “移除 120 條重復(fù)訂單”）；
第二步 “缺失值填充”：拖拽 “清理值” 組件，選中 “優(yōu)惠金額” 字段，選擇 “填充中位數(shù)”，預(yù)覽填充后缺失值占比變?yōu)?0；
第三步 “格式統(tǒng)一”：拖拽 “更改數(shù)據(jù)類型” 組件，將 “日期” 字段從 “文本” 改為 “日期”，自動(dòng)統(tǒng)一格式為 “YYYY-MM-DD”；
第四步 “表關(guān)聯(lián)”：拖拽 “合并” 組件，選擇 “訂單表” 與 “用戶表”，通過(guò) “用戶 ID” 左聯(lián)，補(bǔ)全 “用戶等級(jí)” 字段；

實(shí)時(shí)預(yù)覽與調(diào)整：每步操作后右側(cè)均顯示 “清洗前后對(duì)比”（如 “訂單表清洗前 100 萬(wàn)行，清洗后 98.8 萬(wàn)行”），若發(fā)現(xiàn)異常（如關(guān)聯(lián)后用戶等級(jí)缺失過(guò)多），可直接回溯調(diào)整組件參數(shù)。

清洗邏輯復(fù)用與分享：

操作：將搭建好的清洗流程保存為 “Prep 流程文件（.tfl）”，團(tuán)隊(duì)成員可直接打開(kāi)復(fù)用，或修改部分組件（如調(diào)整缺失值填充方式）適配新數(shù)據(jù)集；清洗完成后，點(diǎn)擊 “輸出”→“發(fā)布到 Tableau Server”，其他成員可直接在 Server 上獲取清洗后的數(shù)據(jù)用于分析。

適用場(chǎng)景與優(yōu)缺點(diǎn)

適用場(chǎng)景：需可視化展示清洗流程（如向業(yè)務(wù)團(tuán)隊(duì)匯報(bào)清洗邏輯）、Tableau 生態(tài)用戶（清洗后直接對(duì)接可視化）、中等數(shù)據(jù)量（MB 級(jí)至 GB 級(jí)）；
優(yōu)點(diǎn)：流程直觀、實(shí)時(shí)預(yù)覽降低操作風(fēng)險(xiǎn)、與可視化工具無(wú)縫銜接；
缺點(diǎn)：價(jià)格較高（需購(gòu)買 Tableau license）、處理 TB 級(jí)大數(shù)據(jù)時(shí)效率低于 Spark。

四、大數(shù)據(jù)清洗工具：分布式處理，適配 TB 級(jí)數(shù)據(jù)與工程師

當(dāng)數(shù)據(jù)量達(dá)到 TB 級(jí)甚至 PB 級(jí)（如日志數(shù)據(jù)、用戶行為數(shù)據(jù)），單臺(tái)機(jī)器無(wú)法承載，需用分布式計(jì)算框架（如 Spark）進(jìn)行清洗，適合大數(shù)據(jù)工程師處理企業(yè)級(jí)海量數(shù)據(jù)。

Apache Spark：分布式大數(shù)據(jù)清洗的 “行業(yè)標(biāo)準(zhǔn)工具”

Spark 基于分布式計(jì)算架構(gòu)，可將數(shù)據(jù)拆分到多臺(tái)機(jī)器并行處理，清洗效率隨集群節(jié)點(diǎn)增加而提升，支持 Scala、Python（PySpark）、Java 三種開(kāi)發(fā)語(yǔ)言，其中 PySpark 因語(yǔ)法簡(jiǎn)潔成為數(shù)據(jù)分析師的首選。

核心功能與實(shí)操案例（PySpark）

分布式重復(fù)值處理：

場(chǎng)景：TB 級(jí)用戶行為日志數(shù)據(jù)（存儲(chǔ)在 HDFS 中）存在大量重復(fù)日志，需按 “日志 ID” 去重。

代碼（PySpark）：

from pyspark.sql import SparkSession

# 初始化SparkSession（分布式集群入口）

spark = SparkSession.builder.appName("LogCleaning").getOrCreate()

# 讀取HDFS中的日志數(shù)據(jù)（Parquet格式，大數(shù)據(jù)常用格式）

log_df = spark.read.parquet("hdfs:///user/data/user_log.parquet")

# 按“日志ID”去重，保留第一條記錄

cleaned_log_df = log_df.dropDuplicates(subset=["日志ID"])

# 保存清洗后的數(shù)據(jù)到HDFS

cleaned_log_df.write.parquet("hdfs:///user/data/cleaned_user_log.parquet", mode="overwrite")

# 查看清洗效果

print(f"清洗前數(shù)據(jù)量：{log_df.count()}")  # 輸出“1000000000”（10億行）

print(f"清洗后數(shù)據(jù)量：{cleaned_log_df.count()}")  # 輸出“920000000”（9.2億行）

分布式異常值篩選：

場(chǎng)景：TB 級(jí)電商交易數(shù)據(jù)中 “交易金額” 異常值（>10 萬(wàn)元或 < 0）需篩選刪除。

代碼（PySpark）：

# 計(jì)算交易金額的均值與標(biāo)準(zhǔn)差（分布式計(jì)算，多節(jié)點(diǎn)并行）

stats = transaction_df.select(

   F.mean("交易金額").alias("mean"),

   F.stddev("交易金額").alias("std")

).collect()[0]

mean = stats["mean"]

std = stats["std"]

# 篩選正常數(shù)據(jù)（均值±3σ范圍內(nèi)）

normal_transaction_df = transaction_df.filter(

   (transaction_df["交易金額"] >= mean - 3*std) &&#x20;

   (transaction_df["交易金額"] <= mean + 3*std)

)

適用場(chǎng)景與優(yōu)缺點(diǎn)

適用場(chǎng)景：TB 級(jí)至 PB 級(jí)海量數(shù)據(jù)（如用戶行為日志、物聯(lián)網(wǎng)傳感器數(shù)據(jù)）、企業(yè)級(jí)分布式集群環(huán)境、批量自動(dòng)化清洗（如每日凌晨處理前一天全量日志）；
優(yōu)點(diǎn)：分布式并行處理，效率極高（TB 級(jí)數(shù)據(jù)小時(shí)級(jí)完成）；支持多種數(shù)據(jù)源（HDFS、Hive、Kafka）；
缺點(diǎn)：需搭建分布式集群（如 Hadoop/YARN），運(yùn)維成本高；需掌握 Spark 核心概念（如 RDD、DataFrame），上手門檻高。

五、工具選擇方法論與跨場(chǎng)景協(xié)同方案

1. 工具選擇三要素

要素 1：數(shù)據(jù)量規(guī)模
- KB 級(jí)→MB 級(jí)（如 Excel 報(bào)表）：選 Excel/WPS；
- MB 級(jí)→GB 級(jí)（如百萬(wàn)行訂單數(shù)據(jù)）：選 Python（Pandas）、Tableau Prep；
- GB 級(jí)→TB 級(jí)（如千萬(wàn)行用戶數(shù)據(jù)）：選 PySpark（單節(jié)點(diǎn)）、SQL（數(shù)據(jù)庫(kù)內(nèi)）；
- TB 級(jí)以上（如海量日志）：選 Spark（分布式集群）。
要素 2：技術(shù)能力
- 零代碼（業(yè)務(wù)人員）：Excel/WPS、騰訊文檔、Tableau Prep；
- 基礎(chǔ)代碼（數(shù)據(jù)分析師）：Python（Pandas）、SQL；
- 高級(jí)代碼（大數(shù)據(jù)工程師）：Spark（Scala/PySpark）。
要素 3：業(yè)務(wù)場(chǎng)景
- 臨時(shí)單次清洗：Excel/WPS；
- 團(tuán)隊(duì)協(xié)作清洗：騰訊文檔、Tableau Prep；
- 自動(dòng)化批量清洗：Python（schedule 調(diào)度）、Spark（Airflow 調(diào)度）；
- 清洗后需可視化：Tableau Prep（直接對(duì)接 Tableau）。

2. 跨工具協(xié)同案例：電商全鏈路數(shù)據(jù)清洗

場(chǎng)景：某電商需處理 “用戶表（MySQL）→訂單表（Excel）→日志表（HDFS）” 三類數(shù)據(jù)，最終生成分析用的標(biāo)準(zhǔn)化數(shù)據(jù)集。

協(xié)同流程：

SQL 清洗用戶表：在 MySQL 中用 SQL 刪除 “用戶 ID” 缺失的記錄，補(bǔ)全 “郵箱” 缺失值，導(dǎo)出為 CSV 文件；
Python 清洗訂單表：用 Pandas 讀取 Excel 訂單表，去重、統(tǒng)一日期格式，與 SQL 導(dǎo)出的用戶表 CSV 關(guān)聯(lián)補(bǔ)全 “用戶等級(jí)”；
Spark 清洗日志表：用 PySpark 處理 HDFS 中的 TB 級(jí)日志數(shù)據(jù)，篩選 “下單行為” 日志，提取 “用戶 ID”“下單時(shí)間” 字段；
Tableau Prep 整合數(shù)據(jù)：將 Python 清洗后的訂單數(shù)據(jù)與 Spark 清洗后的日志數(shù)據(jù)導(dǎo)入 Tableau Prep，合并為 “用戶 - 訂單 - 日志” 全鏈路數(shù)據(jù)集，發(fā)布到 Tableau Server 供分析師使用。

六、未來(lái)趨勢(shì)：AI 輔助與低代碼融合

1. AI 輔助自動(dòng)清洗

工具將集成 AI 能力，自動(dòng)識(shí)別臟數(shù)據(jù)類型并推薦清洗方案：

例：Alteryx Designer 已支持 “智能數(shù)據(jù) profiling”，自動(dòng)檢測(cè)缺失值 / 異常值占比，推薦 “填充均值” 或 “刪除” 方案；
未來(lái)方向：通過(guò)大語(yǔ)言模型（LLM）理解業(yè)務(wù)需求（如 “清洗電商訂單數(shù)據(jù)”），自動(dòng)生成清洗代碼（Pandas/SQL），降低技術(shù)門檻。

2. 低代碼與代碼工具融合

工具將打破 “零代碼” 與 “代碼” 的界限，支持 “拖拽生成代碼 + 手動(dòng)修改代碼”：

例：Microsoft Power Query（Excel 內(nèi)置）支持拖拽清洗組件，同時(shí)自動(dòng)生成 M 語(yǔ)言代碼，高級(jí)用戶可修改代碼優(yōu)化邏輯；
未來(lái)方向：Tableau Prep、Alteryx 等工具將支持導(dǎo)入 Python/SQL 代碼片段，嵌入可視化流程，兼顧易用性與靈活性。

結(jié)語(yǔ)

數(shù)據(jù)清洗工具的核心價(jià)值不是 “技術(shù)炫酷”，而是 “匹配場(chǎng)景、提升效率”—— 業(yè)務(wù)人員用 Excel 快速處理報(bào)表，分析師用 Python 實(shí)現(xiàn)自動(dòng)化清洗，工程師用 Spark 處理海量數(shù)據(jù)，不同工具在數(shù)據(jù)鏈路中各司其職，共同保障數(shù)據(jù)質(zhì)量。未來(lái)，隨著 AI 與低代碼技術(shù)的發(fā)展，數(shù)據(jù)清洗將更 “智能”“低門檻”，但 “理解業(yè)務(wù)需求、選擇適配工具” 的核心邏輯不會(huì)改變。只有讓工具服務(wù)于數(shù)據(jù)價(jià)值，才能讓后續(xù)的分析與建模真正落地，釋放數(shù)據(jù)的商業(yè)潛力。

免費(fèi)加入閱讀：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

字段 SQL 缺失值數(shù)據(jù)清洗異常值大數(shù)據(jù) 數(shù)據(jù)分析 HDFS

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇【CDA干貨】機(jī)器學(xué)習(xí)中的參數(shù)優(yōu)化：以預(yù)測(cè)結(jié)果為核心的閉環(huán)調(diào)優(yōu)路徑

下一篇CDA 數(shù)據(jù)分析師：企業(yè)數(shù)字化轉(zhuǎn)型的核心引擎 —— 從能力落地到價(jià)值躍遷

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

^{<sub id="xy9pv"></sub>}

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn)：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

【CDA干貨】數(shù)據(jù)清洗工具全景指南：從入門到進(jìn)階的實(shí)操路徑

數(shù)據(jù)清洗工具全景指南：從入門到進(jìn)階的實(shí)操路徑

一、認(rèn)知前提：數(shù)據(jù)清洗的核心任務(wù)與工具需求

二、輕量入門工具：零代碼操作，適配小數(shù)據(jù)與業(yè)務(wù)人員

1. Excel/WPS 表格：最易上手的 “即時(shí)清洗工具”

核心功能與實(shí)操案例

適用場(chǎng)景與優(yōu)缺點(diǎn)

2. 騰訊文檔 / 飛書(shū)表格：多人協(xié)作的 “在線清洗工具”

核心優(yōu)勢(shì)與場(chǎng)景

適用場(chǎng)景

三、專業(yè)代碼工具：可編程操作，適配中大數(shù)據(jù)與分析師

1. Python（Pandas+NumPy）：數(shù)據(jù)分析師的 “核心清洗工具”

核心功能與實(shí)操代碼案例

適用場(chǎng)景與優(yōu)缺點(diǎn)

2. SQL：數(shù)據(jù)庫(kù)層面的 “源頭清洗工具”

核心功能與實(shí)操 SQL 案例

適用場(chǎng)景與優(yōu)缺點(diǎn)

三、可視化流程工具：低代碼 + 流程化，適配復(fù)雜清洗邏輯與團(tuán)隊(duì)協(xié)作

Tableau Prep：數(shù)據(jù)分析與可視化協(xié)同的 “流程化工具”

核心功能與實(shí)操流程

適用場(chǎng)景與優(yōu)缺點(diǎn)

四、大數(shù)據(jù)清洗工具：分布式處理，適配 TB 級(jí)數(shù)據(jù)與工程師

Apache Spark：分布式大數(shù)據(jù)清洗的 “行業(yè)標(biāo)準(zhǔn)工具”

核心功能與實(shí)操案例（PySpark）

適用場(chǎng)景與優(yōu)缺點(diǎn)

五、工具選擇方法論與跨場(chǎng)景協(xié)同方案

1. 工具選擇三要素

2. 跨工具協(xié)同案例：電商全鏈路數(shù)據(jù)清洗

六、未來(lái)趨勢(shì)：AI 輔助與低代碼融合

1. AI 輔助自動(dòng)清洗

2. 低代碼與代碼工具融合

結(jié)語(yǔ)

推薦學(xué)習(xí)書(shū)籍 《CDA一級(jí)教材》適合CDA一級(jí)考生備考，也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校，累計(jì)已有10萬(wàn)+在讀~ !

免費(fèi)加入閱讀：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見(jiàn)問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

二、輕量入門工具：零代碼操作，適配小數(shù)據(jù)與業(yè)務(wù)人員

三、專業(yè)代碼工具：可編程操作，適配中大數(shù)據(jù)與分析師

三、可視化流程工具：低代碼 + 流程化，適配復(fù)雜清洗邏輯與團(tuán)隊(duì)協(xié)作

四、大數(shù)據(jù)清洗工具：分布式處理，適配 TB 級(jí)數(shù)據(jù)與工程師

五、工具選擇方法論與跨場(chǎng)景協(xié)同方案

推薦學(xué)習(xí)書(shū)籍《CDA一級(jí)教材》適合CDA一級(jí)考生備考，也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校，累計(jì)已有10萬(wàn)+在讀~ !

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...