
在 CDA(Certified Data Analyst)數(shù)據(jù)分析師認證體系中,描述性統(tǒng)計是貫穿初級到中級認證的核心模塊,占比約 15%。不同于推斷統(tǒng)計的 “概率預(yù)測”,描述性統(tǒng)計通過整理、概括數(shù)據(jù)的基礎(chǔ)特征,將零散數(shù)據(jù)轉(zhuǎn)化為可解讀的信息,是 CDA 分析師開展后續(xù)分析(如建模、預(yù)測)的前置環(huán)節(jié)。根據(jù) CDA 考試大綱,該模塊要求掌握 “集中趨勢、離散程度、分布形態(tài)” 三大類指標的計算與解讀,以及 “數(shù)據(jù)可視化與業(yè)務(wù)洞察轉(zhuǎn)化” 能力 —— 例如,某零售企業(yè)的 CDA 分析師通過描述性統(tǒng)計發(fā)現(xiàn)客單價的中位數(shù)顯著低于均值,進而定位低收入客群的消費痛點,為促銷策略提供方向。
描述性統(tǒng)計的核心是通過量化指標揭示數(shù)據(jù) “是什么”,而非 “為什么”,其指標體系可分為三大維度,每類指標在 CDA 認證中均有明確考核標準:
集中趨勢反映數(shù)據(jù)的平均水平,是 CDA 分析師判斷數(shù)據(jù)整體特征的首要工具,核心指標包括:
均值(Mean):所有數(shù)據(jù)的算術(shù)平均,適用于對稱分布且無異常值的場景。例如,某電商平臺日均訂單量的均值為 5000 單,可作為基礎(chǔ)運營目標的參考。
CDA 考點提示:均值對異常值敏感,若存在極端大值(如單日促銷訂單 10 萬單),需結(jié)合中位數(shù)修正結(jié)論。
中位數(shù)(Median):將數(shù)據(jù)排序后位于中間位置的數(shù)值,適用于偏態(tài)分布或含異常值的數(shù)據(jù)。例如,某公司員工薪資分布呈右偏(少數(shù)高管薪資極高),此時中位數(shù)(8000 元 / 月)比均值(12000 元 / 月)更能反映普通員工的薪資水平。
眾數(shù)(Mode):數(shù)據(jù)中出現(xiàn)頻率最高的數(shù)值,適用于分類數(shù)據(jù)或離散數(shù)據(jù)。例如,某快消品牌的產(chǎn)品規(guī)格中,“500ml” 的銷量占比達 60%,眾數(shù)指標直接指導(dǎo)生產(chǎn)備貨。
離散程度衡量數(shù)據(jù)的分散程度,是 CDA 認證中 “風(fēng)險評估”“穩(wěn)定性分析” 的關(guān)鍵,核心指標包括:
標準差(Standard Deviation):反映數(shù)據(jù)與均值的平均偏離度,值越小說明數(shù)據(jù)越穩(wěn)定。例如,某連鎖超市的日銷售額標準差為 2000 元(均值 5 萬元),說明銷售額波動可控;若標準差達 1 萬元,則需排查門店運營問題。
四分位數(shù)(Quartiles)與四分位距(IQR):通過 Q1(25% 分位數(shù))、Q2(中位數(shù))、Q3(75% 分位數(shù))劃分數(shù)據(jù)區(qū)間,IQR=Q3-Q1,可有效識別異常值(超出 Q1-1.5IQR 或 Q3+1.5IQR 的數(shù)值)。
CDA 實踐案例:某金融平臺通過四分位距篩選出 “貸款金額超過 Q3+1.5IQR” 的客戶,作為高風(fēng)險群體重點審核。
變異系數(shù)(CV):標準差與均值的比值,用于對比不同量級數(shù)據(jù)的離散程度。例如,A 產(chǎn)品日均銷量均值 100 件、標準差 20 件,B 產(chǎn)品均值 500 件、標準差 50 件,通過 CV(A=0.2,B=0.1)可知 B 產(chǎn)品銷量更穩(wěn)定。
分布形態(tài)揭示數(shù)據(jù)的概率分布規(guī)律,是 CDA 分析師選擇后續(xù)分析方法的依據(jù),核心指標包括:
偏度(Skewness):衡量數(shù)據(jù)分布的不對稱性。偏度 > 0(右偏)表示數(shù)據(jù)集中在左側(cè),右側(cè)有長尾(如用戶消費金額,多數(shù)人小額消費,少數(shù)人高額消費);偏度 < 0(左偏)表示數(shù)據(jù)集中在右側(cè),左側(cè)有長尾(如產(chǎn)品使用壽命,多數(shù)產(chǎn)品達標,少數(shù)提前損壞)。
峰度(Kurtosis):衡量數(shù)據(jù)分布的陡峭程度。峰度 > 0(尖峰分布)表示數(shù)據(jù)集中在均值附近,波動?。ㄈ绯墒飚a(chǎn)品的質(zhì)量檢測數(shù)據(jù));峰度 < 0(平峰分布)表示數(shù)據(jù)分散,波動大(如新產(chǎn)品的用戶反饋評分)。
CDA 分析師開展描述性統(tǒng)計需遵循 “數(shù)據(jù)清洗→指標計算→解讀可視化→業(yè)務(wù)落地” 四步流程,且需熟練運用 Python/R 工具實現(xiàn):
描述性統(tǒng)計的準確性依賴數(shù)據(jù)質(zhì)量,CDA 認證要求優(yōu)先處理兩類問題:
缺失值:若缺失率 <5%,可通過 “均值 / 中位數(shù)填充”(數(shù)值型數(shù)據(jù))或 “眾數(shù)填充”(分類數(shù)據(jù));若缺失率 > 20%,需評估字段必要性(如某用戶行為數(shù)據(jù)中 “瀏覽時長” 缺失率 30%,可直接刪除該字段)。
import pandas as pd
import numpy as np
# 讀取數(shù)據(jù)
data = pd.read_csv("sales_data.csv")
# 計算Z-score
z_scores = np.abs((data["sales"] - data["sales"].mean()) / data["sales"].std())
# 篩選正常數(shù)據(jù)(Z-score<3)
clean_data = data[z_scores < 3]
CDA 認證推薦使用 Python 的pandas
庫或 R 的summary()
函數(shù)快速生成描述性統(tǒng)計指標,例如:
# 計算集中趨勢
mean_sales = clean_data["sales"].mean() # 均值
median_sales = clean_data["sales"].median() # 中位數(shù)
mode_sales = clean_data["sales"].mode()[0] # 眾數(shù)
# 計算離散程度
std_sales = clean_data["sales"].std() # 標準差
iqr_sales = clean_data["sales"].quantile(0.75) - clean_data["sales"].quantile(0.25) # 四分位距
# 輸出結(jié)果
print(f"銷量均值:{mean_sales:.2f},中位數(shù):{median_sales:.2f}")
print(f"銷量標準差:{std_sales:.2f},四分位距:{iqr_sales:.2f}")
CDA 認證強調(diào) “讓數(shù)據(jù)說話”,需通過可視化將指標轉(zhuǎn)化為業(yè)務(wù)語言:
基礎(chǔ)可視化:用折線圖展示均值變化趨勢,箱線圖呈現(xiàn)離散程度(如某門店月度銷量箱線圖,可直觀看到 Q4 存在多個異常高值,對應(yīng)雙 11 促銷);
BI 工具應(yīng)用:在 FineBI 或 Tableau 中搭建 “描述性統(tǒng)計看板”,聯(lián)動篩選 “區(qū)域 - 時間 - 產(chǎn)品” 維度,例如某品牌通過看板發(fā)現(xiàn) “華東區(qū)域客單價中位數(shù)高于全國 15%”,進而加大該區(qū)域的高端產(chǎn)品投放。
某連鎖便利店的 CDA 分析師對 2024 年 Q1 消費數(shù)據(jù)開展描述性統(tǒng)計:
集中趨勢:客單價均值 35 元,中位數(shù) 30 元(說明存在高消費客群拉高均值);
離散程度:客單價標準差 18 元,四分位距 22 元(消費金額差異較大);
分布形態(tài):客單價偏度 = 1.2(右偏),峰度 = 0.8(平峰)。
業(yè)務(wù)落地:針對高消費客群(客單價 > Q3=48 元)推出 “會員專屬套餐”,針對普通客群(客單價 15-30 元)推出 “組合優(yōu)惠”,推動 Q2 整體客單價提升 8%。
某銀行 CDA 分析師對申請貸款客戶的收入數(shù)據(jù)進行描述性統(tǒng)計:
收入中位數(shù) 8000 元 / 月,均值 10500 元 / 月(存在高收入客戶);
收入標準差 5000 元,異常值界定為 “收入> 8000+1.5×(12000-6000)=17000 元” 或 “收入 < 6000-1.5×6000=-3000 元”(排除負收入異常值);
高收入客戶(>17000 元)占比 5%,但其貸款違約率僅 0.3%(遠低于平均 2%)。
業(yè)務(wù)落地:將收入中位數(shù)作為基礎(chǔ)授信門檻,對高收入客戶簡化審核流程,提升審批效率的同時降低風(fēng)險。
考點聚焦:重點掌握 “異常值處理方法”“偏度 / 峰度的業(yè)務(wù)解讀”“不同數(shù)據(jù)類型(數(shù)值型 / 分類型)的指標選擇”—— 例如,分類數(shù)據(jù)(如用戶性別)僅能用眾數(shù)描述集中趨勢,不能用均值。
工具深化:除pandas
外,學(xué)習(xí) Python 的scipy.stats
庫計算偏度、峰度,用seaborn
繪制更專業(yè)的分布可視化圖表(如小提琴圖結(jié)合箱線圖,同時展示分布形態(tài)與離散程度)。
業(yè)務(wù)關(guān)聯(lián):避免 “唯指標論”,例如某產(chǎn)品的銷量均值下降,但中位數(shù)上升,需結(jié)合業(yè)務(wù)場景分析(可能是低端產(chǎn)品銷量減少,高端產(chǎn)品銷量穩(wěn)定,并非整體下滑)。
描述性統(tǒng)計是 CDA 數(shù)據(jù)分析師的 “基本功”,其價值不在于復(fù)雜的計算,而在于從基礎(chǔ)指標中挖掘業(yè)務(wù)痛點。通過掌握集中趨勢、離散程度、分布形態(tài)的核心邏輯,結(jié)合 CDA 認證的工具與流程要求,分析師可將零散數(shù)據(jù)轉(zhuǎn)化為決策依據(jù),為企業(yè)的精細化運營奠定基礎(chǔ)。建議備考 CDA 的讀者通過 SQLPub、Kaggle 等平臺練習(xí)真實數(shù)據(jù)集,在實踐中提升指標解讀與業(yè)務(wù)轉(zhuǎn)化能力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10