四虎成人国产精品永久在线,四房播色,japan丰满人妻hd

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

描述性數(shù)據(jù)匯總

2016-09-25

描述性數(shù)據(jù)匯總

對于成功的數(shù)據(jù)預(yù)處理，獲得數(shù)據(jù)的總體印象是至關(guān)重要的。描述性數(shù)據(jù)匯總技術(shù)可以用來識別數(shù)據(jù)的典型性質(zhì)，突顯哪些數(shù)據(jù)值應(yīng)當(dāng)視為噪聲或離群點(diǎn)。因此，在討論具體的數(shù)據(jù)預(yù)處理之前，我們首先介紹描述性數(shù)據(jù)匯總的基本概念。

對于許多數(shù)據(jù)預(yù)處理任務(wù)，用戶希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值（mean）、中位數(shù)（median）、眾數(shù)（mode）和中列數(shù)（midrange），而數(shù)據(jù)離中趨勢度量包括四分位數(shù)（quartiles）、四分位數(shù)極差（interquartile range, IQR）和方差（variance）。這些描述性統(tǒng)計(jì)量有助于理解數(shù)據(jù)的分布。這些度量在統(tǒng)計(jì)學(xué)界已經(jīng)廣泛研究。

從數(shù)據(jù)挖掘的角度，我們需要考察如何在大型數(shù)據(jù)庫中有效地計(jì)算它們。特殊地，我們需要引進(jìn)分布式度量、代數(shù)度量和整體度量的概念。知道我們處理的度量類型可能有助于我們選擇它的有效實(shí)現(xiàn)。

2.2.1 度量數(shù)據(jù)的中心趨勢

我們考察度量數(shù)據(jù)中心趨勢的各種方法。數(shù)據(jù)集的“中心”最常用、最有效的數(shù)值度量是（算術(shù)）均值。設(shè)x1, x2,., xN是（如某個(gè)像salary這樣的屬性）N個(gè)值或觀測的集合。

該值集的均值是

這對應(yīng)于關(guān)系數(shù)據(jù)庫系統(tǒng)提供的內(nèi)部聚集函數(shù)average（SQL中為avg()）。

分布式度量（distributive measure）是一種可以通過如下方法計(jì)算度量（即函數(shù)）：將數(shù)據(jù)集劃分成較小的子集，計(jì)算每個(gè)子集的度量，然后合并計(jì)算結(jié)果，得到原（整個(gè)）數(shù)據(jù)集的度量值。sum()和count()都是分布式度量，因?yàn)樗鼈兌伎梢杂眠@種方法計(jì)算。其他例子包括max()和min()。代數(shù)度量（algebraic measure）是可以通過應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量。因此，average（或mean()）是代數(shù)度量，因?yàn)樗梢酝ㄟ^sum()/count() 計(jì)算。當(dāng)我們計(jì)算數(shù)據(jù)立方體時(shí)，sum()和count()可以在預(yù)計(jì)算時(shí)保留。這樣，導(dǎo)出數(shù)據(jù)立方體的average是直截了當(dāng)?shù)摹?/span>

有時(shí)，集合中每個(gè)值xi與一個(gè)權(quán)值wi相關(guān)聯(lián)，i = 1, ., N。權(quán)值反映對應(yīng)值的顯著性、重要性或出現(xiàn)頻率。在這種情況下，我們可以計(jì)算

這稱為加權(quán)算術(shù)均值（weighted arithmetic mean）或加權(quán)平均（weighted average）。注意，加權(quán)平均是代數(shù)度量的又一個(gè)例子。

盡管均值是描述數(shù)據(jù)集的最有用的單個(gè)量，但不總是度量數(shù)據(jù)中心的最好方法。均值的主要問題是對于極端值（如離群值）很敏感。即使少量極端值也可能影響均值。例如，公司的平均工資可能被少數(shù)高報(bào)酬的經(jīng)理的工資顯著抬高。類似地，班級的考試平均成績可能因?yàn)樯贁?shù)幾個(gè)非常低的成績而降低相當(dāng)多。為了抵銷少數(shù)極端值的影響，我們可以使用截?cái)嗑担╰rimmed mean）。截?cái)嗑凳侨サ舾?、低極端值得到的均值。例如，我們可以將工資的觀
測值排序，并在計(jì)算均值前去掉上下各2%的值。我們應(yīng)當(dāng)避免在兩端截?cái)嗟谋壤螅ㄈ?0%），因?yàn)檫@可能導(dǎo)致?lián)p失有價(jià)值的信息。

對于傾斜的（非對稱的）數(shù)據(jù)，數(shù)據(jù)中心的一個(gè)較好度量是中位數(shù)。設(shè)給定的N個(gè)不同值的數(shù)據(jù)集按數(shù)值序排序。如果N是奇數(shù)，則中位數(shù)是有序集的中間值；否則（即，如果N是偶數(shù)），中位數(shù)是中間兩個(gè)值的平均值。

整體度量（holistic measure）是必須對整個(gè)數(shù)據(jù)集計(jì)算的度量。整體度量不能通過將給定數(shù)據(jù)劃分成子集并合并每個(gè)子集上度量得到的值來計(jì)算。中位數(shù)是整體度量的一個(gè)例子。計(jì)算整體度量的開銷比計(jì)算上述分布度量的開銷大得多。

然而，我們可以容易地計(jì)算數(shù)據(jù)集中位數(shù)的近似值。假定數(shù)據(jù)根據(jù)它們的xi值劃分成區(qū)間，并且已知每個(gè)區(qū)間的頻率（即數(shù)據(jù)值的個(gè)數(shù)）。例如，可以根據(jù)年薪將人劃分到諸如10～20K, 20～30K等區(qū)間。令包含中位數(shù)頻率的區(qū)間為中位數(shù)區(qū)間。我們可以使用如下公式插值計(jì)算整個(gè)數(shù)據(jù)集的中位數(shù)的近似值：

數(shù)據(jù)立方體的計(jì)算在第3、4章詳細(xì)介紹。

其中，L1是中位數(shù)區(qū)間的下界，N是整個(gè)數(shù)據(jù)集的值的個(gè)數(shù)，(Σfreq)l是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和，freqmedian是中位數(shù)區(qū)間的頻率，而width是中位數(shù)區(qū)間的寬度。

另一種中心趨勢度量是眾數(shù)。數(shù)據(jù)集的眾數(shù)是集合中出現(xiàn)頻率最高的值。可能最高頻率對應(yīng)多個(gè)不同值，導(dǎo)致多個(gè)眾數(shù)。具有一個(gè)、兩個(gè)或三個(gè)眾數(shù)的數(shù)據(jù)集合分別稱為單峰的（unimodal）、雙峰的（bimodal）和三峰的（trimodal）。一般，具有兩個(gè)或更多眾數(shù)的數(shù)據(jù)集是多峰的（multimodal）。在另一種極端情況下，如果每個(gè)數(shù)據(jù)值僅出現(xiàn)一次，則它沒有眾數(shù)。

對于適度傾斜（非對稱的）的單峰頻率曲線，我們有下面的經(jīng)驗(yàn)關(guān)系
mean－mode = 3×(mean－median) （2-4）

這意味如果均值和中位數(shù)已知，適度傾斜的單峰頻率曲線的眾數(shù)容易計(jì)算。

在完全對稱的數(shù)據(jù)分布單峰頻率曲線中，均值、中位數(shù)和眾數(shù)都是相同的中心值，如圖2-2a 所示。然而，在大部分實(shí)際應(yīng)用中數(shù)據(jù)不是對稱的。它們可能是正傾斜的，其中眾數(shù)出現(xiàn)在小于中位數(shù)的值上（圖2-2b）；或者是負(fù)傾斜的，其中眾數(shù)出現(xiàn)在大于中位數(shù)的值上（圖2-2c）。

中列數(shù)也可以用來評估數(shù)據(jù)集的中心趨勢。中列數(shù)是數(shù)據(jù)集的最大和最小值的平均值。中列數(shù)是代數(shù)度量，因?yàn)樗菀资褂?a href='/map/sql/' style='color:#000;font-size:inherit;'>SQL的聚集函數(shù)max()和min()計(jì)算。

2.2.2 度量數(shù)據(jù)的離散程度

數(shù)值數(shù)據(jù)趨向于分散的程度稱為數(shù)據(jù)的離差或方差。數(shù)據(jù)離中趨勢的最常用度量是極差、五數(shù)概括（基于四分位數(shù)）、中間四分位數(shù)極差和標(biāo)準(zhǔn)差。盒圖根據(jù)五數(shù)概括繪制，是一種識別離群點(diǎn)的有用工具。

1. 極差、四分位數(shù)、離群點(diǎn)和盒圖

設(shè)x1, x2,., xN是某屬性的觀測值集合。該集合的極差（range）是最大值（max()）與最小值（min()）之差。本節(jié)的其余部分假定數(shù)據(jù)以數(shù)值遞增序排列。

在數(shù)值序下，數(shù)據(jù)集合的第k個(gè)百分位數(shù)（percentile）是具有如下性質(zhì)的值xi：百分之k的數(shù)據(jù)項(xiàng)位于或低于xi。中位數(shù)（上一節(jié)討論過）是第50個(gè)百分位數(shù)。除中位數(shù)外，最常用的百分位數(shù)是四分位數(shù)（quartile）。第一個(gè)四分位數(shù)記作Q1，是第25個(gè)百分位數(shù)；第三個(gè)四分位數(shù)記作Q3，是第75個(gè)百分位數(shù)。四分位數(shù)（包括中位數(shù)）給出分布的中心、離散和形狀的某種指示。第一個(gè)和第三個(gè)四分位數(shù)之間的距離是分布的一種簡單度量，它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為中間四分位數(shù)極差（IQR），定義為

IQR = Q3 －Q1 （2-5）

根據(jù)類似于2.2.1節(jié)中位數(shù)分析的推理，可以斷言Q1和Q3是整體度量，IQR也是。

描述傾斜分布，單個(gè)分布數(shù)值度量（如IQR）不是非常有用的。傾斜分布兩邊的分布是不等的（圖2-2）。因此，提供兩個(gè)四分位數(shù)Q1和Q3以及中位數(shù)信息更豐富。一個(gè)識別可疑的離群點(diǎn)的常用經(jīng)驗(yàn)是：挑出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位數(shù)1.5×IQR處的值。

因?yàn)镼1、中位數(shù)和Q3不包含數(shù)據(jù)端點(diǎn)（例如尾）信息，分布形狀的更完整概括可以通過提供最高和最低數(shù)據(jù)值得到。這稱作五數(shù)概括。分布的五數(shù)概括（five-number summary）由中位數(shù)，四分位數(shù)Q1和Q3，最小和最大觀測值組成，按以下次序?qū)憺镸inimum, Q1, Median, Q3, Maximum。

分布的一種流行的可視化表示是盒圖（boxplot）。盒圖體現(xiàn)了五數(shù)概括：

. 在典型情況下，盒的端點(diǎn)在四分位數(shù)上使得盒的長度是中間四分位數(shù)極差I(lǐng)QR。

. 中位數(shù)用盒內(nèi)的線標(biāo)記。

. 盒外的兩條線（稱作胡須）延伸到最?。∕inimum）和最大（Maximum）觀測值。

當(dāng)處理數(shù)量適中的觀測值時(shí)，值得個(gè)別地繪出潛在的離群點(diǎn)。在盒圖中這樣做：僅當(dāng)這些值超過四分位數(shù)不到1.5×IQR時(shí)，胡須擴(kuò)展到最高和最低觀測值。否則，胡須出現(xiàn)在四分位數(shù)的1.5×IQR之內(nèi)的最極端的觀測值處終止。剩下的情況個(gè)別地繪出。盒圖可以用來比較若干個(gè)可比數(shù)據(jù)集。圖2-3給出在給定的時(shí)間段，AllElectronics的4個(gè)分店銷售的商品單價(jià)數(shù)據(jù)的盒圖。對于分店1，我們看到銷售商品單價(jià)的中位數(shù)是80美元，Q1是60美元，Q3是100美元。注意，該分店的兩個(gè)邊遠(yuǎn)的觀測值個(gè)別地繪制，因?yàn)樗鼈兊闹?75和202超過IQR的1.5倍，這里IQR = 40。

對于大型數(shù)據(jù)集的挖掘，盒圖的有效計(jì)算，甚至是近似的盒圖（基于五數(shù)概括的近似）仍然是一個(gè)具有挑戰(zhàn)性的問題。

圖2-3 在給定的時(shí)間段，AllElectronics的4個(gè)分店銷售的商品單價(jià)的盒圖

2. 方差和標(biāo)準(zhǔn)差

N個(gè)觀測值x1, x2, ., xN的方差是

其中，是觀測值的均值，由式（2-1）定義。觀測值的標(biāo)準(zhǔn)差σ是方差x σ2的平方根。

作為發(fā)散性的度量，標(biāo)準(zhǔn)差σ的基本性質(zhì)是

. σ度量關(guān)于均值的發(fā)散，僅當(dāng)選擇均值作為中心度量時(shí)使用。

. 僅當(dāng)不存在發(fā)散時(shí)，即當(dāng)所有的觀測值都具有相同值時(shí)，σ = 0；否則，σ > 0。方差和標(biāo)準(zhǔn)差是代數(shù)度量，因?yàn)樗鼈兛梢杂煞植级攘坑?jì)算。即，N（SQL的count()）、Σxi （xi的sum()）和Σxi 2（xi 2的sum()）可以按任意劃分進(jìn)行計(jì)算，然后合并提供給式（2-6）。這樣，方差和標(biāo)準(zhǔn)差的計(jì)算在大型數(shù)據(jù)庫都是可伸縮的。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；