
基本描述數(shù)據(jù)匯總的圖形顯示
除了在大部分統(tǒng)計或圖形數(shù)據(jù)表示軟件包中使用的條形圖、餅圖和線圖之外,還有一些常用的圖用于顯示數(shù)據(jù)匯總和分布,包括直方圖、分位數(shù)圖、q-q圖、散布圖和局部回歸(loess)曲線。對于數(shù)據(jù)的直觀觀察,這些圖是非常有幫助的。
畫直方圖(或頻率直方圖)是一種概括給定屬性分布的圖形方法。屬性A的直方圖將A的數(shù)據(jù)分布劃分成不相交的子集或桶。通常,每個桶的寬度是一致的。每個桶用一個矩形表示,其高度等于桶中的值計數(shù)或相對頻率。如果A是分類的,如車型或商品類型,則對A的每個已知值畫一個矩形,而結(jié)果圖更多地稱作條形圖。如果A是數(shù)值的,更多地使用術(shù)語直方圖。對于數(shù)值屬性,構(gòu)造直方圖的劃分規(guī)則在2.5.4節(jié)討論。例如,在等寬的直方圖中,每個桶代表數(shù)值屬性A的等寬值域。
表2-1 AllElectronics的一個分店銷售的商品單價數(shù)據(jù)集
圖2-4顯示表2-1中數(shù)據(jù)的直方圖,其中,桶定義成等寬的,代表增量20美元,而頻率是商品的銷售數(shù)量。直方圖至少有一個世紀(jì)了,是一種廣泛使用的單變量圖形方法。然而,對于比較單變量觀測組,它可能不如分位數(shù)圖、q-q圖和盒圖方法有效。
圖2-4 表2-1中數(shù)據(jù)集的直方圖
分位數(shù)圖(quantile plot)是一種觀察單變量數(shù)據(jù)分布的簡單有效方法。首先,它顯示給定屬性的所有數(shù)據(jù)(允許用戶評估總的情況和不尋常的出現(xiàn))。其次,它繪出了分位數(shù)信息。
這一步使用的機(jī)制與2.2.2節(jié)討論的百分位數(shù)計算稍微有點不同。設(shè)xi (i = 1, ., N)是按遞增序排序的數(shù)據(jù),使得x1是最小的觀測值,而xN是最大的。每個觀測值xi與一個百分?jǐn)?shù)fi配對,指出大約100fi%的數(shù)據(jù)小于或等于xi。我們說“大約”,因為可能沒有一個精確的小數(shù)值fi,使得數(shù)據(jù)的fi%小于或等于xi。注意,0.25分位數(shù)對應(yīng)于四分位數(shù)Q1,0.50分位數(shù)對應(yīng)于中位數(shù),而0.75分位數(shù)對應(yīng)于Q3。令
這些數(shù)由1/2N(稍大于0)到1-1/2N(稍小于1),以相同的步長1/N遞增。在分位數(shù)圖中,xi 對著fi畫出。這使得我們可以基于分位數(shù)比較不同的分布。例如,給定兩個不同時間段銷售數(shù)據(jù)的分位數(shù)圖,我們一眼就可以比較它們的Q1,中位數(shù),Q3,以及其他fi值。圖2-5顯示了表2-1單價數(shù)據(jù)的分位數(shù)圖。
圖2-5 表2-1單價數(shù)據(jù)的分位數(shù)圖
分位數(shù)-分位數(shù)圖或q-q圖對著另一個對應(yīng)的分位數(shù),繪制一個單變量分布的分位數(shù)。它是一種強(qiáng)有力的可視化工具,使得用戶可以觀察從一個分布到另一個是否有移位。
假定對于變量單價有兩個觀測集,取自兩個不同的分店。設(shè)x1, ., xN是取自第一個分店的數(shù)據(jù),y1, ., yM是取自第二個分店的數(shù)據(jù),每組數(shù)據(jù)都按遞增序排序。如果M = N(即每個集合中的點數(shù)相等),則我們簡單地對著xi畫yi,其中yi和xi都是各自數(shù)據(jù)集的第(i-0.5) / N個分位數(shù)。如果M < N(即第二個分店的觀測值比第一個少),則可能只有M個點在q-q圖中。這里,yi是y數(shù)據(jù)的第(i-0.5) / M個分位數(shù),對著x數(shù)據(jù)的第(i-0.5) / M個分位數(shù)畫。在典型情況下,該計算涉及插值。
圖2-6顯示在給定的時間段,AllElectronics的兩個不同分店銷售的商品單價數(shù)據(jù)的分位數(shù)分位數(shù)圖。每個點對應(yīng)于每個數(shù)據(jù)集的相同的分位數(shù),并顯示分店1與分店2相對的銷售商品單價。例如,左下角的最低點對應(yīng)于分位數(shù)0.03。(為幫助比較,我們也畫了一條直線,代表對于給定的分位數(shù),兩個分店的單價相同的情況。此外,加黑的點分別對應(yīng)于Q1、中位數(shù)和Q3。)我們看到,在分位數(shù)0.03,分店1銷售的商品單價比分店2稍低。換言之,在分店1銷售
的商品3%低于或等于40美元,而在分店2銷售的商品3%低于或等于42美元。在最高分位數(shù),我們看到分店2的商品單價稍微低于分店1。一般地,我們注意到分店1的分布相對于分店2有一個移位,分店1銷售的商品單價趨向于比分店2低。
散布圖(scatter plot)是確定兩個數(shù)值屬性之間看上去是否有聯(lián)系、模式或趨勢的最有效的圖形方法之一。為構(gòu)造散布圖,每個值對視為一個代數(shù)坐標(biāo)對,并作為一個點畫在平面上。圖2-7 顯示表2-1中數(shù)據(jù)集的散布圖。散布圖是一種觀察雙變量數(shù)據(jù)有用的方法,用于觀察點的簇和離群點,或考察相關(guān)聯(lián)系的可能性。在圖2-8中,我們看到兩個不同數(shù)據(jù)集中兩個屬性之間的正相關(guān)和負(fù)相關(guān)的例子。圖2-9顯示了三種情況,每個數(shù)據(jù)集的兩個屬性之間都不存在相關(guān)聯(lián)系。
圖2-6 兩個不同分店的單價數(shù)據(jù)的分位數(shù)-分位數(shù)圖
圖2-7 表2-1中數(shù)據(jù)的散布圖
圖2-8 散布圖可以用來發(fā)現(xiàn)屬性之間的a)正相關(guān)或b)負(fù)相關(guān)
圖2-9 三種情況,其中每個數(shù)據(jù)集中兩個屬性之間都不存在觀察到的相關(guān)
圖2-10 表2-1中數(shù)據(jù)集的loess曲線
在處理多個屬性時,散布圖矩陣(scatter-plot matrix)是散布圖的一種有用的擴(kuò)充。給定n個屬性,散布圖矩陣是散布圖的n×n柵格,提供每個屬性(或維)與每個其他屬性的可視化表示。隨著所研究的屬性數(shù)量增加,散布圖的有效性降低。在這種情況下,用必要進(jìn)行諸如放大(zooming)和搖動(panning)等用戶交互操作,幫助有效地解釋單個散布圖。
loess曲線是另一種重要的圖形探查工具,它添加一條光滑曲線到散布圖,以便更好地理解依賴模式。loess一詞是“局部回歸”(local regression)的縮寫。圖2-10顯示表2-1中數(shù)據(jù)集的loess曲線。
為了擬合loess曲線,需要設(shè)置兩個參數(shù)—光滑參數(shù)α,被回歸擬合的多項式的次數(shù)λ。α可以是正數(shù)(典型值在1/4~1之間),而λ可以是1或2。選擇α的目的是產(chǎn)生一個擬合,它盡59 ~可能光滑,而不過分破壞數(shù)據(jù)中潛在的模式。曲線隨α增大而變得更光滑。然而,可能出現(xiàn)擬60 合不足,表明可能“丟失”數(shù)據(jù)模式。如果α太小,跟蹤了潛在的模式,但可能過分?jǐn)M合數(shù)據(jù),曲線中的局部“擺動”可能不被數(shù)據(jù)支持。如果數(shù)據(jù)的潛在模式具有“溫和的”曲率,而沒有局部極大和極小,則局部線性擬合通常就足夠了(λ = 1)。然而,如果存在局部極大和極小,則二次擬合(λ = 2)一般做得更好,它遵循數(shù)據(jù)模式并且保持局部光滑性。
總而言之,描述性數(shù)據(jù)匯總提供了數(shù)據(jù)總體行為的有價值的洞察。通過幫助識別噪聲和離群點,它們對于數(shù)據(jù)清理特別有用。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10