
描述性數(shù)據(jù)匯總
對于成功的數(shù)據(jù)預(yù)處理,獲得數(shù)據(jù)的總體印象是至關(guān)重要的。描述性數(shù)據(jù)匯總技術(shù)可以用來識別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應(yīng)當(dāng)視為噪聲或離群點(diǎn)。因此,在討論具體的數(shù)據(jù)預(yù)處理之前,我們首先介紹描述性數(shù)據(jù)匯總的基本概念。
對于許多數(shù)據(jù)預(yù)處理任務(wù),用戶希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartile range, IQR)和方差(variance)。這些描述性統(tǒng)計(jì)量有助于理解數(shù)據(jù)的分布。這些度量在統(tǒng)計(jì)學(xué)界已經(jīng)廣泛研究。
從數(shù)據(jù)挖掘的角度,我們需要考察如何在大型數(shù)據(jù)庫中有效地計(jì)算它們。特殊地,我們需要引進(jìn)分布式度量、代數(shù)度量和整體度量的概念。知道我們處理的度量類型可能有助于我們選擇它的有效實(shí)現(xiàn)。
2.2.1 度量數(shù)據(jù)的中心趨勢
我們考察度量數(shù)據(jù)中心趨勢的各種方法。數(shù)據(jù)集的“中心”最常用、最有效的數(shù)值度量是(算術(shù))均值。設(shè)x1, x2,., xN是(如某個(gè)像salary這樣的屬性)N個(gè)值或觀測的集合。
該值集的均值是
這對應(yīng)于關(guān)系數(shù)據(jù)庫系統(tǒng)提供的內(nèi)部聚集函數(shù)average(SQL中為avg())。
分布式度量(distributive measure)是一種可以通過如下方法計(jì)算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原(整個(gè))數(shù)據(jù)集的度量值。sum()和count()都是分布式度量,因?yàn)樗鼈兌伎梢杂眠@種方法計(jì)算。其他例子包括max()和min()。代數(shù)度量(algebraic measure)是可以通過應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量。因此,average(或mean())是代數(shù)度量,因?yàn)樗梢酝ㄟ^sum()/count() 計(jì)算。當(dāng)我們計(jì)算數(shù)據(jù)立方體時(shí),sum()和count()可以在預(yù)計(jì)算時(shí)保留。這樣,導(dǎo)出數(shù)據(jù)立方體的average是直截了當(dāng)?shù)摹?/span>
有時(shí),集合中每個(gè)值xi與一個(gè)權(quán)值wi相關(guān)聯(lián),i = 1, ., N。權(quán)值反映對應(yīng)值的顯著性、重要性或出現(xiàn)頻率。在這種情況下,我們可以計(jì)算
這稱為加權(quán)算術(shù)均值(weighted arithmetic mean)或加權(quán)平均(weighted average)。注意,加權(quán)平均是代數(shù)度量的又一個(gè)例子。
盡管均值是描述數(shù)據(jù)集的最有用的單個(gè)量,但不總是度量數(shù)據(jù)中心的最好方法。均值的主要問題是對于極端值(如離群值)很敏感。即使少量極端值也可能影響均值。例如,公司的平均工資可能被少數(shù)高報(bào)酬的經(jīng)理的工資顯著抬高。類似地,班級的考試平均成績可能因?yàn)樯贁?shù)幾個(gè)非常低的成績而降低相當(dāng)多。為了抵銷少數(shù)極端值的影響,我們可以使用截?cái)嗑担╰rimmed mean)。截?cái)嗑凳侨サ舾?、低極端值得到的均值。例如,我們可以將工資的觀
測值排序,并在計(jì)算均值前去掉上下各2%的值。我們應(yīng)當(dāng)避免在兩端截?cái)嗟谋壤螅ㄈ?0%),因?yàn)檫@可能導(dǎo)致?lián)p失有價(jià)值的信息。
對于傾斜的(非對稱的)數(shù)據(jù),數(shù)據(jù)中心的一個(gè)較好度量是中位數(shù)。設(shè)給定的N個(gè)不同值的數(shù)據(jù)集按數(shù)值序排序。如果N是奇數(shù),則中位數(shù)是有序集的中間值;否則(即,如果N是偶數(shù)),中位數(shù)是中間兩個(gè)值的平均值。
整體度量(holistic measure)是必須對整個(gè)數(shù)據(jù)集計(jì)算的度量。整體度量不能通過將給定數(shù)據(jù)劃分成子集并合并每個(gè)子集上度量得到的值來計(jì)算。中位數(shù)是整體度量的一個(gè)例子。計(jì)算整體度量的開銷比計(jì)算上述分布度量的開銷大得多。
然而,我們可以容易地計(jì)算數(shù)據(jù)集中位數(shù)的近似值。假定數(shù)據(jù)根據(jù)它們的xi值劃分成區(qū)間,并且已知每個(gè)區(qū)間的頻率(即數(shù)據(jù)值的個(gè)數(shù))。例如,可以根據(jù)年薪將人劃分到諸如10~20K, 20~30K等區(qū)間。令包含中位數(shù)頻率的區(qū)間為中位數(shù)區(qū)間。我們可以使用如下公式插值計(jì)算整個(gè)數(shù)據(jù)集的中位數(shù)的近似值:
數(shù)據(jù)立方體的計(jì)算在第3、4章詳細(xì)介紹。
其中,L1是中位數(shù)區(qū)間的下界,N是整個(gè)數(shù)據(jù)集的值的個(gè)數(shù),(Σfreq)l是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和,freqmedian是中位數(shù)區(qū)間的頻率,而width是中位數(shù)區(qū)間的寬度。
另一種中心趨勢度量是眾數(shù)。數(shù)據(jù)集的眾數(shù)是集合中出現(xiàn)頻率最高的值。可能最高頻率對應(yīng)多個(gè)不同值,導(dǎo)致多個(gè)眾數(shù)。具有一個(gè)、兩個(gè)或三個(gè)眾數(shù)的數(shù)據(jù)集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。一般,具有兩個(gè)或更多眾數(shù)的數(shù)據(jù)集是多峰的(multimodal)。在另一種極端情況下,如果每個(gè)數(shù)據(jù)值僅出現(xiàn)一次,則它沒有眾數(shù)。
對于適度傾斜(非對稱的)的單峰頻率曲線,我們有下面的經(jīng)驗(yàn)關(guān)系
mean-mode = 3×(mean-median) (2-4)
這意味如果均值和中位數(shù)已知,適度傾斜的單峰頻率曲線的眾數(shù)容易計(jì)算。
在完全對稱的數(shù)據(jù)分布單峰頻率曲線中,均值、中位數(shù)和眾數(shù)都是相同的中心值,如圖2-2a 所示。然而,在大部分實(shí)際應(yīng)用中數(shù)據(jù)不是對稱的。它們可能是正傾斜的,其中眾數(shù)出現(xiàn)在小于中位數(shù)的值上(圖2-2b);或者是負(fù)傾斜的,其中眾數(shù)出現(xiàn)在大于中位數(shù)的值上(圖2-2c)。
中列數(shù)也可以用來評估數(shù)據(jù)集的中心趨勢。中列數(shù)是數(shù)據(jù)集的最大和最小值的平均值。中列數(shù)是代數(shù)度量,因?yàn)樗菀资褂?a href='/map/sql/' style='color:#000;font-size:inherit;'>SQL的聚集函數(shù)max()和min()計(jì)算。
2.2.2 度量數(shù)據(jù)的離散程度
數(shù)值數(shù)據(jù)趨向于分散的程度稱為數(shù)據(jù)的離差或方差。數(shù)據(jù)離中趨勢的最常用度量是極差、五數(shù)概括(基于四分位數(shù))、中間四分位數(shù)極差和標(biāo)準(zhǔn)差。盒圖根據(jù)五數(shù)概括繪制,是一種識別離群點(diǎn)的有用工具。
1. 極差、四分位數(shù)、離群點(diǎn)和盒圖
設(shè)x1, x2,., xN是某屬性的觀測值集合。該集合的極差(range)是最大值(max())與最小值(min())之差。本節(jié)的其余部分假定數(shù)據(jù)以數(shù)值遞增序排列。
在數(shù)值序下,數(shù)據(jù)集合的第k個(gè)百分位數(shù)(percentile)是具有如下性質(zhì)的值xi:百分之k的數(shù)據(jù)項(xiàng)位于或低于xi。中位數(shù)(上一節(jié)討論過)是第50個(gè)百分位數(shù)。除中位數(shù)外,最常用的百分位數(shù)是四分位數(shù)(quartile)。第一個(gè)四分位數(shù)記作Q1,是第25個(gè)百分位數(shù);第三個(gè)四分位數(shù)記作Q3,是第75個(gè)百分位數(shù)。四分位數(shù)(包括中位數(shù))給出分布的中心、離散和形狀的某種指示。第一個(gè)和第三個(gè)四分位數(shù)之間的距離是分布的一種簡單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為中間四分位數(shù)極差(IQR),定義為
IQR = Q3 -Q1 (2-5)
根據(jù)類似于2.2.1節(jié)中位數(shù)分析的推理,可以斷言Q1和Q3是整體度量,IQR也是。
描述傾斜分布,單個(gè)分布數(shù)值度量(如IQR)不是非常有用的。傾斜分布兩邊的分布是不等的(圖2-2)。因此,提供兩個(gè)四分位數(shù)Q1和Q3以及中位數(shù)信息更豐富。一個(gè)識別可疑的離群點(diǎn)的常用經(jīng)驗(yàn)是:挑出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位數(shù)1.5×IQR處的值。
因?yàn)镼1、中位數(shù)和Q3不包含數(shù)據(jù)端點(diǎn)(例如尾)信息,分布形狀的更完整概括可以通過提供最高和最低數(shù)據(jù)值得到。這稱作五數(shù)概括。分布的五數(shù)概括(five-number summary)由中位數(shù),四分位數(shù)Q1和Q3,最小和最大觀測值組成,按以下次序?qū)憺镸inimum, Q1, Median, Q3, Maximum。
分布的一種流行的可視化表示是盒圖(boxplot)。盒圖體現(xiàn)了五數(shù)概括:
. 在典型情況下,盒的端點(diǎn)在四分位數(shù)上使得盒的長度是中間四分位數(shù)極差I(lǐng)QR。
. 中位數(shù)用盒內(nèi)的線標(biāo)記。
. 盒外的兩條線(稱作胡須)延伸到最?。∕inimum)和最大(Maximum)觀測值。
當(dāng)處理數(shù)量適中的觀測值時(shí),值得個(gè)別地繪出潛在的離群點(diǎn)。在盒圖中這樣做:僅當(dāng)這些值超過四分位數(shù)不到1.5×IQR時(shí),胡須擴(kuò)展到最高和最低觀測值。否則,胡須出現(xiàn)在四分位數(shù)的1.5×IQR之內(nèi)的最極端的觀測值處終止。剩下的情況個(gè)別地繪出。盒圖可以用來比較若干個(gè)可比數(shù)據(jù)集。圖2-3給出在給定的時(shí)間段,AllElectronics的4個(gè)分店銷售的商品單價(jià)數(shù)據(jù)的盒圖。對于分店1,我們看到銷售商品單價(jià)的中位數(shù)是80美元,Q1是60美元,Q3是100美元。注意,該分店的兩個(gè)邊遠(yuǎn)的觀測值個(gè)別地繪制,因?yàn)樗鼈兊闹?75和202超過IQR的1.5倍,這里IQR = 40。
對于大型數(shù)據(jù)集的挖掘,盒圖的有效計(jì)算,甚至是近似的盒圖(基于五數(shù)概括的近似)仍然是一個(gè)具有挑戰(zhàn)性的問題。
圖2-3 在給定的時(shí)間段,AllElectronics的4個(gè)分店銷售的商品單價(jià)的盒圖
2. 方差和標(biāo)準(zhǔn)差
N個(gè)觀測值x1, x2, ., xN的方差是
其中, 是觀測值的均值,由式(2-1)定義。觀測值的標(biāo)準(zhǔn)差σ是方差x σ2的平方根。
作為發(fā)散性的度量,標(biāo)準(zhǔn)差σ的基本性質(zhì)是
. σ度量關(guān)于均值的發(fā)散,僅當(dāng)選擇均值作為中心度量時(shí)使用。
. 僅當(dāng)不存在發(fā)散時(shí),即當(dāng)所有的觀測值都具有相同值時(shí),σ = 0;否則,σ > 0。方差和標(biāo)準(zhǔn)差是代數(shù)度量,因?yàn)樗鼈兛梢杂煞植级攘坑?jì)算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意劃分進(jìn)行計(jì)算,然后合并提供給式(2-6)。這樣,方差和標(biāo)準(zhǔn)差的計(jì)算在大型數(shù)據(jù)庫都是可伸縮的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11