
海量數(shù)據(jù)對比分析,技術(shù)面試?yán)锏哪切╅T道
最近有很多用戶說到了年終需要回顧這一年的工作,根據(jù)這一年的數(shù)據(jù)看看有沒有異常的情況,那么哪種圖能夠清晰直觀地展現(xiàn)出這一信息呢?
答案只有一個,那就是…
箱形圖
箱形圖(英文:Box plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖。因型狀如箱子而得名。在各種領(lǐng)域也經(jīng)常被使用,常見于品質(zhì)管理,快速識別異常值。
箱形圖最大的優(yōu)點(diǎn)就是不受異常值的影響,能夠準(zhǔn)確穩(wěn)定地描繪出數(shù)據(jù)的離散分布情況,同時也利于數(shù)據(jù)的清洗。
想要搞懂箱形圖,那么一定要了解…
五大因“數(shù)”
我們一組序列數(shù)為例:12,15,17,19,20,23,25,28,30,33,34,35,36,37講解這五大因“數(shù)”
1、下四分位數(shù)Q1
(1)確定四分位數(shù)的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的項(xiàng)數(shù)。
(2)根據(jù)位置,計(jì)算相應(yīng)的四分位數(shù)。
例中:
Q1所在的位置=(14+1)/4=3.75,
Q1=0.25×第三項(xiàng)+0.75×第四項(xiàng)=0.25×17+0.75×19=18.5;
2、中位數(shù)(第二個四分位數(shù))Q2
中位數(shù),即一組數(shù)由小到大排列處于中間位置的數(shù)。若序列數(shù)為偶數(shù)個,該組的中位數(shù)為中間兩個數(shù)的平均數(shù)。
例中:
Q2所在的位置=2(14+1)/4=7.5,
Q2=0.5×第七項(xiàng)+0.5×第八項(xiàng)=0.5×25+0.5×28=26.5
3、上四分位數(shù)Q3
計(jì)算方法同下四分位數(shù)。
例中:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一項(xiàng)+0.25×第十二項(xiàng)=0.75×34+0.25×35=34.25。
4、上限
上限是非異常范圍內(nèi)的最大值。
首先要知道什么是四分位距如何計(jì)算的?
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
5、下限
下限是非異常范圍內(nèi)的最小值。
下限=Q1-1.5IQR
講了這么多的“數(shù)學(xué)知識”,那么箱形圖到底如何通過BDP應(yīng)用到實(shí)際的工作呢?我們還是用一個實(shí)例來幫助大家理解。
現(xiàn)在有“2017年各季度各地區(qū)分公司銷售業(yè)績”工作表,我們想要找出各季度哪些分公司業(yè)績屬于不正常范圍內(nèi)。
數(shù)據(jù)示例如下圖:
BDP箱形圖結(jié)果:
從上圖可以清晰的找出異常點(diǎn),例如第二季度北京分公司的銷售額為22147元,該值比上限10759元還要大,所以定義為異常值。
箱形圖的價值
1.直觀明了地識別數(shù)據(jù)批中的異常值
上文講了很久的識別異常值,其實(shí)箱線圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的耐抗性,多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會很大地?cái)_動四分位數(shù),所以異常值不會影響箱形圖的數(shù)據(jù)形狀,箱線圖識別異常值的結(jié)果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優(yōu)越性。
2.利用箱線圖判斷數(shù)據(jù)批的偏態(tài)和尾重
對于標(biāo)準(zhǔn)正態(tài)分布的樣本,只有極少值為異常值。異常值越多說明尾部越重,自由度越?。醋杂勺儎拥牧康膫€數(shù));
而偏態(tài)表示偏離程度,異常值集中在較小值一側(cè),則分布呈左偏態(tài);異常值集中在較大值一側(cè),則分布呈右偏態(tài)。
3.利用箱線圖比較幾批數(shù)據(jù)的形狀
同一數(shù)軸上,幾批數(shù)據(jù)的箱線圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息便昭然若揭。如上圖,可直觀得看出第三季度各分公司的銷售額大體都在下降。
但箱形圖也有他的局限性,比如:不能精確地衡量數(shù)據(jù)分布的偏態(tài)和尾重程度;對于批量比較大的數(shù)據(jù),反映的信息更加模糊以及用中位數(shù)代表總體評價水平有一定的局限性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10