
描述性數(shù)據(jù)匯總
對于成功的數(shù)據(jù)預處理,獲得數(shù)據(jù)的總體印象是至關重要的。描述性數(shù)據(jù)匯總技術可以用來識別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應當視為噪聲或離群點。因此,在討論具體的數(shù)據(jù)預處理之前,我們首先介紹描述性數(shù)據(jù)匯總的基本概念。
對于許多數(shù)據(jù)預處理任務,用戶希望知道關于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartile range, IQR)和方差(variance)。這些描述性統(tǒng)計量有助于理解數(shù)據(jù)的分布。這些度量在統(tǒng)計學界已經(jīng)廣泛研究。
從數(shù)據(jù)挖掘的角度,我們需要考察如何在大型數(shù)據(jù)庫中有效地計算它們。特殊地,我們需要引進分布式度量、代數(shù)度量和整體度量的概念。知道我們處理的度量類型可能有助于我們選擇它的有效實現(xiàn)。
2.2.1 度量數(shù)據(jù)的中心趨勢
我們考察度量數(shù)據(jù)中心趨勢的各種方法。數(shù)據(jù)集的“中心”最常用、最有效的數(shù)值度量是(算術)均值。設x1, x2,., xN是(如某個像salary這樣的屬性)N個值或觀測的集合。
該值集的均值是
這對應于關系數(shù)據(jù)庫系統(tǒng)提供的內(nèi)部聚集函數(shù)average(SQL中為avg())。
分布式度量(distributive measure)是一種可以通過如下方法計算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計算每個子集的度量,然后合并計算結果,得到原(整個)數(shù)據(jù)集的度量值。sum()和count()都是分布式度量,因為它們都可以用這種方法計算。其他例子包括max()和min()。代數(shù)度量(algebraic measure)是可以通過應用一個代數(shù)函數(shù)于一個或多個分布度量計算的度量。因此,average(或mean())是代數(shù)度量,因為它可以通過sum()/count() 計算。當我們計算數(shù)據(jù)立方體時,sum()和count()可以在預計算時保留。這樣,導出數(shù)據(jù)立方體的average是直截了當?shù)摹?/span>
有時,集合中每個值xi與一個權值wi相關聯(lián),i = 1, ., N。權值反映對應值的顯著性、重要性或出現(xiàn)頻率。在這種情況下,我們可以計算
這稱為加權算術均值(weighted arithmetic mean)或加權平均(weighted average)。注意,加權平均是代數(shù)度量的又一個例子。
盡管均值是描述數(shù)據(jù)集的最有用的單個量,但不總是度量數(shù)據(jù)中心的最好方法。均值的主要問題是對于極端值(如離群值)很敏感。即使少量極端值也可能影響均值。例如,公司的平均工資可能被少數(shù)高報酬的經(jīng)理的工資顯著抬高。類似地,班級的考試平均成績可能因為少數(shù)幾個非常低的成績而降低相當多。為了抵銷少數(shù)極端值的影響,我們可以使用截斷均值(trimmed mean)。截斷均值是去掉高、低極端值得到的均值。例如,我們可以將工資的觀
測值排序,并在計算均值前去掉上下各2%的值。我們應當避免在兩端截斷的比例太大(如20%),因為這可能導致?lián)p失有價值的信息。
對于傾斜的(非對稱的)數(shù)據(jù),數(shù)據(jù)中心的一個較好度量是中位數(shù)。設給定的N個不同值的數(shù)據(jù)集按數(shù)值序排序。如果N是奇數(shù),則中位數(shù)是有序集的中間值;否則(即,如果N是偶數(shù)),中位數(shù)是中間兩個值的平均值。
整體度量(holistic measure)是必須對整個數(shù)據(jù)集計算的度量。整體度量不能通過將給定數(shù)據(jù)劃分成子集并合并每個子集上度量得到的值來計算。中位數(shù)是整體度量的一個例子。計算整體度量的開銷比計算上述分布度量的開銷大得多。
然而,我們可以容易地計算數(shù)據(jù)集中位數(shù)的近似值。假定數(shù)據(jù)根據(jù)它們的xi值劃分成區(qū)間,并且已知每個區(qū)間的頻率(即數(shù)據(jù)值的個數(shù))。例如,可以根據(jù)年薪將人劃分到諸如10~20K, 20~30K等區(qū)間。令包含中位數(shù)頻率的區(qū)間為中位數(shù)區(qū)間。我們可以使用如下公式插值計算整個數(shù)據(jù)集的中位數(shù)的近似值:
數(shù)據(jù)立方體的計算在第3、4章詳細介紹。
其中,L1是中位數(shù)區(qū)間的下界,N是整個數(shù)據(jù)集的值的個數(shù),(Σfreq)l是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和,freqmedian是中位數(shù)區(qū)間的頻率,而width是中位數(shù)區(qū)間的寬度。
另一種中心趨勢度量是眾數(shù)。數(shù)據(jù)集的眾數(shù)是集合中出現(xiàn)頻率最高的值??赡茏罡哳l率對應多個不同值,導致多個眾數(shù)。具有一個、兩個或三個眾數(shù)的數(shù)據(jù)集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。一般,具有兩個或更多眾數(shù)的數(shù)據(jù)集是多峰的(multimodal)。在另一種極端情況下,如果每個數(shù)據(jù)值僅出現(xiàn)一次,則它沒有眾數(shù)。
對于適度傾斜(非對稱的)的單峰頻率曲線,我們有下面的經(jīng)驗關系
mean-mode = 3×(mean-median) (2-4)
這意味如果均值和中位數(shù)已知,適度傾斜的單峰頻率曲線的眾數(shù)容易計算。
在完全對稱的數(shù)據(jù)分布單峰頻率曲線中,均值、中位數(shù)和眾數(shù)都是相同的中心值,如圖2-2a 所示。然而,在大部分實際應用中數(shù)據(jù)不是對稱的。它們可能是正傾斜的,其中眾數(shù)出現(xiàn)在小于中位數(shù)的值上(圖2-2b);或者是負傾斜的,其中眾數(shù)出現(xiàn)在大于中位數(shù)的值上(圖2-2c)。
中列數(shù)也可以用來評估數(shù)據(jù)集的中心趨勢。中列數(shù)是數(shù)據(jù)集的最大和最小值的平均值。中列數(shù)是代數(shù)度量,因為它容易使用SQL的聚集函數(shù)max()和min()計算。
2.2.2 度量數(shù)據(jù)的離散程度
數(shù)值數(shù)據(jù)趨向于分散的程度稱為數(shù)據(jù)的離差或方差。數(shù)據(jù)離中趨勢的最常用度量是極差、五數(shù)概括(基于四分位數(shù))、中間四分位數(shù)極差和標準差。盒圖根據(jù)五數(shù)概括繪制,是一種識別離群點的有用工具。
1. 極差、四分位數(shù)、離群點和盒圖
設x1, x2,., xN是某屬性的觀測值集合。該集合的極差(range)是最大值(max())與最小值(min())之差。本節(jié)的其余部分假定數(shù)據(jù)以數(shù)值遞增序排列。
在數(shù)值序下,數(shù)據(jù)集合的第k個百分位數(shù)(percentile)是具有如下性質(zhì)的值xi:百分之k的數(shù)據(jù)項位于或低于xi。中位數(shù)(上一節(jié)討論過)是第50個百分位數(shù)。除中位數(shù)外,最常用的百分位數(shù)是四分位數(shù)(quartile)。第一個四分位數(shù)記作Q1,是第25個百分位數(shù);第三個四分位數(shù)記作Q3,是第75個百分位數(shù)。四分位數(shù)(包括中位數(shù))給出分布的中心、離散和形狀的某種指示。第一個和第三個四分位數(shù)之間的距離是分布的一種簡單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為中間四分位數(shù)極差(IQR),定義為
IQR = Q3 -Q1 (2-5)
根據(jù)類似于2.2.1節(jié)中位數(shù)分析的推理,可以斷言Q1和Q3是整體度量,IQR也是。
描述傾斜分布,單個分布數(shù)值度量(如IQR)不是非常有用的。傾斜分布兩邊的分布是不等的(圖2-2)。因此,提供兩個四分位數(shù)Q1和Q3以及中位數(shù)信息更豐富。一個識別可疑的離群點的常用經(jīng)驗是:挑出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.5×IQR處的值。
因為Q1、中位數(shù)和Q3不包含數(shù)據(jù)端點(例如尾)信息,分布形狀的更完整概括可以通過提供最高和最低數(shù)據(jù)值得到。這稱作五數(shù)概括。分布的五數(shù)概括(five-number summary)由中位數(shù),四分位數(shù)Q1和Q3,最小和最大觀測值組成,按以下次序?qū)憺镸inimum, Q1, Median, Q3, Maximum。
分布的一種流行的可視化表示是盒圖(boxplot)。盒圖體現(xiàn)了五數(shù)概括:
. 在典型情況下,盒的端點在四分位數(shù)上使得盒的長度是中間四分位數(shù)極差IQR。
. 中位數(shù)用盒內(nèi)的線標記。
. 盒外的兩條線(稱作胡須)延伸到最?。∕inimum)和最大(Maximum)觀測值。
當處理數(shù)量適中的觀測值時,值得個別地繪出潛在的離群點。在盒圖中這樣做:僅當這些值超過四分位數(shù)不到1.5×IQR時,胡須擴展到最高和最低觀測值。否則,胡須出現(xiàn)在四分位數(shù)的1.5×IQR之內(nèi)的最極端的觀測值處終止。剩下的情況個別地繪出。盒圖可以用來比較若干個可比數(shù)據(jù)集。圖2-3給出在給定的時間段,AllElectronics的4個分店銷售的商品單價數(shù)據(jù)的盒圖。對于分店1,我們看到銷售商品單價的中位數(shù)是80美元,Q1是60美元,Q3是100美元。注意,該分店的兩個邊遠的觀測值個別地繪制,因為它們的值175和202超過IQR的1.5倍,這里IQR = 40。
對于大型數(shù)據(jù)集的挖掘,盒圖的有效計算,甚至是近似的盒圖(基于五數(shù)概括的近似)仍然是一個具有挑戰(zhàn)性的問題。
圖2-3 在給定的時間段,AllElectronics的4個分店銷售的商品單價的盒圖
2. 方差和標準差
N個觀測值x1, x2, ., xN的方差是
其中, 是觀測值的均值,由式(2-1)定義。觀測值的標準差σ是方差x σ2的平方根。
作為發(fā)散性的度量,標準差σ的基本性質(zhì)是
. σ度量關于均值的發(fā)散,僅當選擇均值作為中心度量時使用。
. 僅當不存在發(fā)散時,即當所有的觀測值都具有相同值時,σ = 0;否則,σ > 0。方差和標準差是代數(shù)度量,因為它們可以由分布度量計算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意劃分進行計算,然后合并提供給式(2-6)。這樣,方差和標準差的計算在大型數(shù)據(jù)庫都是可伸縮的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構:CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08