
Excel-箱線圖(數(shù)據(jù)分布)分析
箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),它是用一組數(shù)據(jù)中的最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)和最大值來反映數(shù)據(jù)分布的中心位置和散布范圍,可以粗略地看出數(shù)據(jù)是否具有對稱性。通過將多組數(shù)據(jù)的箱線圖畫在同一坐標上,則可以清晰地顯示各組數(shù)據(jù)的分布差異,為發(fā)現(xiàn)問題、改進流程提供線索。
1.什么是四分位數(shù)
箱線圖需要用到統(tǒng)計學的四分位數(shù)(Quartile)的概念,所謂四分位數(shù),就是把組中所有數(shù)據(jù)由小到大排列并分成四等份,處于三個分割點位置的數(shù)字就是四分位數(shù)。
第一四分位數(shù)(Q1),又稱“較小四分位數(shù)”或“下四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
第二四分位數(shù)(Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
第三四分位數(shù)(Q3),又稱“較大四分位數(shù)”或“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位間距(InterQuartile Range,IQR)。
計算四分位數(shù)首先要確定Q1、Q2、Q3的位置(n表示數(shù)字的總個數(shù)):
Q1的位置=(n+1)/4
Q2的位置=(n+1)/2
Q3的位置=3(n+1)/4
對于數(shù)字個數(shù)為奇數(shù)的,其四分位數(shù)比較容易確定。例如,數(shù)字“5、47、48、15、42、41、7、39、45、40、35”共有11項,由小到大排列的結果為“5、7、15、35、39、40、41、42、45、47、48”,計算結果如下:
Q1的位置=(11+1)/4=3,該位置的數(shù)字是15。
Q2的位置=(11+1)/2=6,該位置的數(shù)字是40。
Q3的位置=3(11+1)/4=9,該位置的數(shù)字是45。
而對于數(shù)字個數(shù)為偶數(shù)的,其四分位數(shù)確定起來稍微繁瑣一點。例如,數(shù)字“8、17、38、39、42、44”共有6項,位置計算結果如下:
Q1的位置=(6+1)/4=1.75
Q2的位置=(6+1)/2=3.5
Q3的位置=3(6+1)/4=5.25
這時的數(shù)字以數(shù)據(jù)連續(xù)為前提,由所確定位置的前后兩個數(shù)字共同確定。例如,Q2的位置為3.5,則由第3個數(shù)字38和第4個數(shù)字39共同確定,計算方法是:38+(39-38)×3.5的小數(shù)部分,即38+1×0.5=38.5。該結果實際上是38和39的平均數(shù)。
同理,Q1、Q3的計算結果如下:
Q1 = 8+(17-8)×0.75=14.75
Q3 = 42+(44-42)×0.25=42.5
Excel為計算四分位數(shù)提供了QUARTILE(array,quart)函數(shù),其中array參數(shù)用于指定要計算四分位數(shù)值的數(shù)組或數(shù)值型單元格區(qū)域,quart指定返回哪一個四分位值,可用值如下:
0,返回最小值;
1,返回第一個四分位數(shù);
2,返回第二個四分位數(shù),即中位數(shù);
3,返回第三個四分位數(shù);
4,返回最大值。
圖9-51箱線圖的結構
四分位間距框的頂部線條是第三四分位數(shù)的位置,即Q3,表示有75%的數(shù)據(jù)小于等于此值。底部線條是第一四分位數(shù)的位置,即Q1,表示有25%的數(shù)據(jù)小于此值。則整個四分位間距框所代表的是數(shù)據(jù)集中50%(即75%-25%)的數(shù)據(jù),四分位間距框的高度就是這些數(shù)據(jù)涉及的范圍,能夠表現(xiàn)出數(shù)據(jù)的集中程度。Q2是數(shù)據(jù)中位數(shù)的位置。
Whisker上限是延伸至距框頂部1.5倍框高范圍內(nèi)的最大數(shù)據(jù)點,Whisker下限是延伸至距框底部1.5倍框高范圍內(nèi)的最小數(shù)據(jù)點,超出Whisker上限或下限的數(shù)值將使用星號“*”表示。但是,在Excel中繪制箱線圖需要借助股價圖來實現(xiàn),因此無法展現(xiàn)異常值,Whisker上限將延伸至數(shù)據(jù)最大值的位置,Whisker下限將延伸至數(shù)據(jù)最小值的位置。
3.繪制箱線圖
圖9-52中的A2:F8區(qū)域和H2:M8區(qū)域分別是華北和華南是某段時間客戶訂單收貨天數(shù)的統(tǒng)計結果,C11:C15和J11:J15是利用QUARTILE函數(shù)計算的華北、華南收貨天數(shù)的四分位數(shù)結果。
圖9-52收貨天數(shù)的四分位數(shù)計算結果
在Excel中繪制箱線圖需要借助股價圖的“開盤-盤高-盤底-收盤”圖來實現(xiàn)。根據(jù)Excel繪圖時放置數(shù)據(jù)系列的位置,開盤、盤高、盤底、收盤應分別對應Q1、Q0、Q2、Q4。下面是繪圖步驟:
準備圖表數(shù)據(jù)。根據(jù)對應關系,在表格的B18:E18區(qū)域分別輸入華北客戶的Q1、Q0、Q2、Q4統(tǒng)計數(shù)字,將Q3輸入到最后的F18單元格中,在A18中輸入一個日期型數(shù)據(jù)(注意,必須為日期型),如“2013/1/1”。然后在第19行中輸入華南客戶的數(shù)據(jù),A19中的日期遞增1天,最終結果如圖9-53所示。
圖9-53準備圖表數(shù)據(jù)
插入圖表。選定A18:E19區(qū)域,在“插入”功能區(qū)的“圖表”模塊中單擊“其他圖表”,選擇股價圖部分的“開盤-盤高-盤底-收盤圖”按鈕,即可看到繪制的股價圖,如圖9-54所示。
圖9-54插入股價圖
添加Q3數(shù)據(jù)系列。由圖9-54可以看出,四分位間距框的頂部線條使用的是Q4(最大值)位置,而是不是箱線圖要求的Q3位置。右擊繪圖區(qū),在彈出的快捷菜單中選擇“選擇數(shù)據(jù)”命令,打開“選擇數(shù)據(jù)源”對話框。單擊“添加”按鈕打開“編輯數(shù)據(jù)系列”對話框,在“系列名稱”折疊框中輸入“Q3”,在系列值折疊框中選擇F18:F19區(qū)域,單擊“確定”按鈕即可看到股價圖變成了箱線圖,如圖9-55所示。四分位間距框的高度小了很多,單擊頂部線條與Whisker上限交匯處,可以看到使用的是Q3數(shù)據(jù)。
圖9-55添加Q3數(shù)據(jù)系列
顯示中位數(shù)線。至此,四分位間距框雖然已經(jīng)繪制正確了,但是還缺少中位數(shù)線,即Q2。選擇圖例中的“系列3”標簽,然后單擊鼠標右鍵,在彈出的快捷菜單中選擇“設置數(shù)據(jù)系列格式”命令,打開“設置數(shù)據(jù)系列格式”對話框。在“數(shù)據(jù)標記選項”中將標記類型設置為內(nèi)置的“-”形狀,單擊“關閉”按鈕即可看到中位線顯示了出來,如圖9-56所示。
圖9-56顯示中位數(shù)線
美化圖表。首先要修改分類軸(橫軸)標簽,由于插入股價圖時的限制在A18和A19單元格中輸入了日期型數(shù)據(jù),但是在圖表插入后,可以將其修改為其他數(shù)據(jù)類型的值,因此在A18和A19單元格分別輸入“華北”、“華南”。其次是刪除圖例欄,對于箱線圖而言這并不需要。最后,可以為圖表添加一個標題。最終美化后結果如圖9-57所示。
圖9-57美化后的圖表
由圖9-57可以看出,華北和華南客戶的中位數(shù)位置、四分位間距框的位置與高度基本相同,說明兩區(qū)域的客戶收貨天數(shù)基本相同。但是,從Whisker上限和Whisker下限看,華南客戶的收貨天數(shù)范圍小于華北客戶,說明流程更加穩(wěn)定。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10