
基本描述數(shù)據(jù)匯總的圖形顯示
除了在大部分統(tǒng)計或圖形數(shù)據(jù)表示軟件包中使用的條形圖、餅圖和線圖之外,還有一些常用的圖用于顯示數(shù)據(jù)匯總和分布,包括直方圖、分位數(shù)圖、q-q圖、散布圖和局部回歸(loess)曲線。對于數(shù)據(jù)的直觀觀察,這些圖是非常有幫助的。
畫直方圖(或頻率直方圖)是一種概括給定屬性分布的圖形方法。屬性A的直方圖將A的數(shù)據(jù)分布劃分成不相交的子集或桶。通常,每個桶的寬度是一致的。每個桶用一個矩形表示,其高度等于桶中的值計數(shù)或相對頻率。如果A是分類的,如車型或商品類型,則對A的每個已知值畫一個矩形,而結果圖更多地稱作條形圖。如果A是數(shù)值的,更多地使用術語直方圖。對于數(shù)值屬性,構造直方圖的劃分規(guī)則在2.5.4節(jié)討論。例如,在等寬的直方圖中,每個桶代表數(shù)值屬性A的等寬值域。
表2-1 AllElectronics的一個分店銷售的商品單價數(shù)據(jù)集
圖2-4顯示表2-1中數(shù)據(jù)的直方圖,其中,桶定義成等寬的,代表增量20美元,而頻率是商品的銷售數(shù)量。直方圖至少有一個世紀了,是一種廣泛使用的單變量圖形方法。然而,對于比較單變量觀測組,它可能不如分位數(shù)圖、q-q圖和盒圖方法有效。
圖2-4 表2-1中數(shù)據(jù)集的直方圖
分位數(shù)圖(quantile plot)是一種觀察單變量數(shù)據(jù)分布的簡單有效方法。首先,它顯示給定屬性的所有數(shù)據(jù)(允許用戶評估總的情況和不尋常的出現(xiàn))。其次,它繪出了分位數(shù)信息。
這一步使用的機制與2.2.2節(jié)討論的百分位數(shù)計算稍微有點不同。設xi (i = 1, ., N)是按遞增序排序的數(shù)據(jù),使得x1是最小的觀測值,而xN是最大的。每個觀測值xi與一個百分數(shù)fi配對,指出大約100fi%的數(shù)據(jù)小于或等于xi。我們說“大約”,因為可能沒有一個精確的小數(shù)值fi,使得數(shù)據(jù)的fi%小于或等于xi。注意,0.25分位數(shù)對應于四分位數(shù)Q1,0.50分位數(shù)對應于中位數(shù),而0.75分位數(shù)對應于Q3。令
這些數(shù)由1/2N(稍大于0)到1-1/2N(稍小于1),以相同的步長1/N遞增。在分位數(shù)圖中,xi 對著fi畫出。這使得我們可以基于分位數(shù)比較不同的分布。例如,給定兩個不同時間段銷售數(shù)據(jù)的分位數(shù)圖,我們一眼就可以比較它們的Q1,中位數(shù),Q3,以及其他fi值。圖2-5顯示了表2-1單價數(shù)據(jù)的分位數(shù)圖。
圖2-5 表2-1單價數(shù)據(jù)的分位數(shù)圖
分位數(shù)-分位數(shù)圖或q-q圖對著另一個對應的分位數(shù),繪制一個單變量分布的分位數(shù)。它是一種強有力的可視化工具,使得用戶可以觀察從一個分布到另一個是否有移位。
假定對于變量單價有兩個觀測集,取自兩個不同的分店。設x1, ., xN是取自第一個分店的數(shù)據(jù),y1, ., yM是取自第二個分店的數(shù)據(jù),每組數(shù)據(jù)都按遞增序排序。如果M = N(即每個集合中的點數(shù)相等),則我們簡單地對著xi畫yi,其中yi和xi都是各自數(shù)據(jù)集的第(i-0.5) / N個分位數(shù)。如果M < N(即第二個分店的觀測值比第一個少),則可能只有M個點在q-q圖中。這里,yi是y數(shù)據(jù)的第(i-0.5) / M個分位數(shù),對著x數(shù)據(jù)的第(i-0.5) / M個分位數(shù)畫。在典型情況下,該計算涉及插值。
圖2-6顯示在給定的時間段,AllElectronics的兩個不同分店銷售的商品單價數(shù)據(jù)的分位數(shù)分位數(shù)圖。每個點對應于每個數(shù)據(jù)集的相同的分位數(shù),并顯示分店1與分店2相對的銷售商品單價。例如,左下角的最低點對應于分位數(shù)0.03。(為幫助比較,我們也畫了一條直線,代表對于給定的分位數(shù),兩個分店的單價相同的情況。此外,加黑的點分別對應于Q1、中位數(shù)和Q3。)我們看到,在分位數(shù)0.03,分店1銷售的商品單價比分店2稍低。換言之,在分店1銷售
的商品3%低于或等于40美元,而在分店2銷售的商品3%低于或等于42美元。在最高分位數(shù),我們看到分店2的商品單價稍微低于分店1。一般地,我們注意到分店1的分布相對于分店2有一個移位,分店1銷售的商品單價趨向于比分店2低。
散布圖(scatter plot)是確定兩個數(shù)值屬性之間看上去是否有聯(lián)系、模式或趨勢的最有效的圖形方法之一。為構造散布圖,每個值對視為一個代數(shù)坐標對,并作為一個點畫在平面上。圖2-7 顯示表2-1中數(shù)據(jù)集的散布圖。散布圖是一種觀察雙變量數(shù)據(jù)有用的方法,用于觀察點的簇和離群點,或考察相關聯(lián)系的可能性。在圖2-8中,我們看到兩個不同數(shù)據(jù)集中兩個屬性之間的正相關和負相關的例子。圖2-9顯示了三種情況,每個數(shù)據(jù)集的兩個屬性之間都不存在相關聯(lián)系。
圖2-6 兩個不同分店的單價數(shù)據(jù)的分位數(shù)-分位數(shù)圖
圖2-7 表2-1中數(shù)據(jù)的散布圖
圖2-8 散布圖可以用來發(fā)現(xiàn)屬性之間的a)正相關或b)負相關
圖2-9 三種情況,其中每個數(shù)據(jù)集中兩個屬性之間都不存在觀察到的相關
圖2-10 表2-1中數(shù)據(jù)集的loess曲線
在處理多個屬性時,散布圖矩陣(scatter-plot matrix)是散布圖的一種有用的擴充。給定n個屬性,散布圖矩陣是散布圖的n×n柵格,提供每個屬性(或維)與每個其他屬性的可視化表示。隨著所研究的屬性數(shù)量增加,散布圖的有效性降低。在這種情況下,用必要進行諸如放大(zooming)和搖動(panning)等用戶交互操作,幫助有效地解釋單個散布圖。
loess曲線是另一種重要的圖形探查工具,它添加一條光滑曲線到散布圖,以便更好地理解依賴模式。loess一詞是“局部回歸”(local regression)的縮寫。圖2-10顯示表2-1中數(shù)據(jù)集的loess曲線。
為了擬合loess曲線,需要設置兩個參數(shù)—光滑參數(shù)α,被回歸擬合的多項式的次數(shù)λ。α可以是正數(shù)(典型值在1/4~1之間),而λ可以是1或2。選擇α的目的是產(chǎn)生一個擬合,它盡59 ~可能光滑,而不過分破壞數(shù)據(jù)中潛在的模式。曲線隨α增大而變得更光滑。然而,可能出現(xiàn)擬60 合不足,表明可能“丟失”數(shù)據(jù)模式。如果α太小,跟蹤了潛在的模式,但可能過分擬合數(shù)據(jù),曲線中的局部“擺動”可能不被數(shù)據(jù)支持。如果數(shù)據(jù)的潛在模式具有“溫和的”曲率,而沒有局部極大和極小,則局部線性擬合通常就足夠了(λ = 1)。然而,如果存在局部極大和極小,則二次擬合(λ = 2)一般做得更好,它遵循數(shù)據(jù)模式并且保持局部光滑性。
總而言之,描述性數(shù)據(jù)匯總提供了數(shù)據(jù)總體行為的有價值的洞察。通過幫助識別噪聲和離群點,它們對于數(shù)據(jù)清理特別有用。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03