99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀描述性數(shù)據(jù)匯總
描述性數(shù)據(jù)匯總
2016-09-25
收藏

描述性數(shù)據(jù)匯總

對于成功的數(shù)據(jù)預處理,獲得數(shù)據(jù)的總體印象是至關重要的。描述性數(shù)據(jù)匯總技術可以用來識別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應當視為噪聲或離群點。因此,在討論具體的數(shù)據(jù)預處理之前,我們首先介紹描述性數(shù)據(jù)匯總的基本概念。

對于許多數(shù)據(jù)預處理任務,用戶希望知道關于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartile range, IQR)和方差(variance)。這些描述性統(tǒng)計量有助于理解數(shù)據(jù)的分布。這些度量在統(tǒng)計學界已經(jīng)廣泛研究。

數(shù)據(jù)挖掘的角度,我們需要考察如何在大型數(shù)據(jù)庫中有效地計算它們。特殊地,我們需要引進分布式度量、代數(shù)度量和整體度量的概念。知道我們處理的度量類型可能有助于我們選擇它的有效實現(xiàn)。

2.2.1 度量數(shù)據(jù)的中心趨勢

我們考察度量數(shù)據(jù)中心趨勢的各種方法。數(shù)據(jù)集的“中心”最常用、最有效的數(shù)值度量是(算術)均值。設x1, x2,., xN是(如某個像salary這樣的屬性)N個值或觀測的集合。

該值集的均值是
 

這對應于關系數(shù)據(jù)庫系統(tǒng)提供的內(nèi)部聚集函數(shù)average(SQL中為avg())。

分布式度量(distributive measure)是一種可以通過如下方法計算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計算每個子集的度量,然后合并計算結果,得到原(整個)數(shù)據(jù)集的度量值。sum()和count()都是分布式度量,因為它們都可以用這種方法計算。其他例子包括max()和min()。代數(shù)度量(algebraic measure)是可以通過應用一個代數(shù)函數(shù)于一個或多個分布度量計算的度量。因此,average(或mean())是代數(shù)度量,因為它可以通過sum()/count() 計算。當我們計算數(shù)據(jù)立方體時,sum()和count()可以在預計算時保留。這樣,導出數(shù)據(jù)立方體的average是直截了當?shù)摹?/span>

有時,集合中每個值xi與一個權值wi相關聯(lián),i = 1, ., N。權值反映對應值的顯著性、重要性或出現(xiàn)頻率。在這種情況下,我們可以計算

這稱為加權算術均值(weighted arithmetic mean)或加權平均(weighted average)。注意,加權平均是代數(shù)度量的又一個例子。

盡管均值是描述數(shù)據(jù)集的最有用的單個量,但不總是度量數(shù)據(jù)中心的最好方法。均值的主要問題是對于極端值(如離群值)很敏感。即使少量極端值也可能影響均值。例如,公司的平均工資可能被少數(shù)高報酬的經(jīng)理的工資顯著抬高。類似地,班級的考試平均成績可能因為少數(shù)幾個非常低的成績而降低相當多。為了抵銷少數(shù)極端值的影響,我們可以使用截斷均值(trimmed mean)。截斷均值是去掉高、低極端值得到的均值。例如,我們可以將工資的觀
測值排序,并在計算均值前去掉上下各2%的值。我們應當避免在兩端截斷的比例太大(如20%),因為這可能導致?lián)p失有價值的信息。

對于傾斜的(非對稱的)數(shù)據(jù),數(shù)據(jù)中心的一個較好度量是中位數(shù)。設給定的N個不同值的數(shù)據(jù)集按數(shù)值序排序。如果N是奇數(shù),則中位數(shù)是有序集的中間值;否則(即,如果N是偶數(shù)),中位數(shù)是中間兩個值的平均值。

整體度量(holistic measure)是必須對整個數(shù)據(jù)集計算的度量。整體度量不能通過將給定數(shù)據(jù)劃分成子集并合并每個子集上度量得到的值來計算。中位數(shù)是整體度量的一個例子。計算整體度量的開銷比計算上述分布度量的開銷大得多。

然而,我們可以容易地計算數(shù)據(jù)集中位數(shù)的近似值。假定數(shù)據(jù)根據(jù)它們的xi值劃分成區(qū)間,并且已知每個區(qū)間的頻率(即數(shù)據(jù)值的個數(shù))。例如,可以根據(jù)年薪將人劃分到諸如10~20K, 20~30K等區(qū)間。令包含中位數(shù)頻率的區(qū)間為中位數(shù)區(qū)間。我們可以使用如下公式插值計算整個數(shù)據(jù)集的中位數(shù)的近似值:


數(shù)據(jù)立方體的計算在第3、4章詳細介紹。

其中,L1是中位數(shù)區(qū)間的下界,N是整個數(shù)據(jù)集的值的個數(shù),(Σfreq)l是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和,freqmedian是中位數(shù)區(qū)間的頻率,而width是中位數(shù)區(qū)間的寬度。

另一種中心趨勢度量是眾數(shù)。數(shù)據(jù)集的眾數(shù)是集合中出現(xiàn)頻率最高的值??赡茏罡哳l率對應多個不同值,導致多個眾數(shù)。具有一個、兩個或三個眾數(shù)的數(shù)據(jù)集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。一般,具有兩個或更多眾數(shù)的數(shù)據(jù)集是多峰的(multimodal)。在另一種極端情況下,如果每個數(shù)據(jù)值僅出現(xiàn)一次,則它沒有眾數(shù)。

對于適度傾斜(非對稱的)的單峰頻率曲線,我們有下面的經(jīng)驗關系
mean-mode = 3×(mean-median) (2-4)

這意味如果均值和中位數(shù)已知,適度傾斜的單峰頻率曲線的眾數(shù)容易計算。

在完全對稱的數(shù)據(jù)分布單峰頻率曲線中,均值、中位數(shù)和眾數(shù)都是相同的中心值,如圖2-2a 所示。然而,在大部分實際應用中數(shù)據(jù)不是對稱的。它們可能是正傾斜的,其中眾數(shù)出現(xiàn)在小于中位數(shù)的值上(圖2-2b);或者是負傾斜的,其中眾數(shù)出現(xiàn)在大于中位數(shù)的值上(圖2-2c)。

中列數(shù)也可以用來評估數(shù)據(jù)集的中心趨勢。中列數(shù)是數(shù)據(jù)集的最大和最小值的平均值。中列數(shù)是代數(shù)度量,因為它容易使用SQL的聚集函數(shù)max()和min()計算。

2.2.2 度量數(shù)據(jù)的離散程度

數(shù)值數(shù)據(jù)趨向于分散的程度稱為數(shù)據(jù)的離差或方差。數(shù)據(jù)離中趨勢的最常用度量是極差、五數(shù)概括(基于四分位數(shù))、中間四分位數(shù)極差和標準差。盒圖根據(jù)五數(shù)概括繪制,是一種識別離群點的有用工具。

1. 極差、四分位數(shù)、離群點和盒圖

設x1, x2,., xN是某屬性的觀測值集合。該集合的極差(range)是最大值(max())與最小值(min())之差。本節(jié)的其余部分假定數(shù)據(jù)以數(shù)值遞增序排列。

在數(shù)值序下,數(shù)據(jù)集合的第k個百分位數(shù)(percentile)是具有如下性質(zhì)的值xi:百分之k的數(shù)據(jù)項位于或低于xi。中位數(shù)(上一節(jié)討論過)是第50個百分位數(shù)。除中位數(shù)外,最常用的百分位數(shù)是四分位數(shù)(quartile)。第一個四分位數(shù)記作Q1,是第25個百分位數(shù);第三個四分位數(shù)記作Q3,是第75個百分位數(shù)。四分位數(shù)(包括中位數(shù))給出分布的中心、離散和形狀的某種指示。第一個和第三個四分位數(shù)之間的距離是分布的一種簡單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為中間四分位數(shù)極差(IQR),定義為

IQR = Q3 -Q1 (2-5)

根據(jù)類似于2.2.1節(jié)中位數(shù)分析的推理,可以斷言Q1和Q3是整體度量,IQR也是。

描述傾斜分布,單個分布數(shù)值度量(如IQR)不是非常有用的。傾斜分布兩邊的分布是不等的(圖2-2)。因此,提供兩個四分位數(shù)Q1和Q3以及中位數(shù)信息更豐富。一個識別可疑的離群點的常用經(jīng)驗是:挑出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.5×IQR處的值。

因為Q1、中位數(shù)和Q3不包含數(shù)據(jù)端點(例如尾)信息,分布形狀的更完整概括可以通過提供最高和最低數(shù)據(jù)值得到。這稱作五數(shù)概括。分布的五數(shù)概括(five-number summary)由中位數(shù),四分位數(shù)Q1和Q3,最小和最大觀測值組成,按以下次序?qū)憺镸inimum, Q1, Median, Q3, Maximum。

分布的一種流行的可視化表示是盒圖(boxplot)。盒圖體現(xiàn)了五數(shù)概括:

. 在典型情況下,盒的端點在四分位數(shù)上使得盒的長度是中間四分位數(shù)極差IQR。

. 中位數(shù)用盒內(nèi)的線標記。

. 盒外的兩條線(稱作胡須)延伸到最?。∕inimum)和最大(Maximum)觀測值。

當處理數(shù)量適中的觀測值時,值得個別地繪出潛在的離群點。在盒圖中這樣做:僅當這些值超過四分位數(shù)不到1.5×IQR時,胡須擴展到最高和最低觀測值。否則,胡須出現(xiàn)在四分位數(shù)的1.5×IQR之內(nèi)的最極端的觀測值處終止。剩下的情況個別地繪出。盒圖可以用來比較若干個可比數(shù)據(jù)集。圖2-3給出在給定的時間段,AllElectronics的4個分店銷售的商品單價數(shù)據(jù)的盒圖。對于分店1,我們看到銷售商品單價的中位數(shù)是80美元,Q1是60美元,Q3是100美元。注意,該分店的兩個邊遠的觀測值個別地繪制,因為它們的值175和202超過IQR的1.5倍,這里IQR = 40。

對于大型數(shù)據(jù)集的挖掘,盒圖的有效計算,甚至是近似的盒圖(基于五數(shù)概括的近似)仍然是一個具有挑戰(zhàn)性的問題。

圖2-3 在給定的時間段,AllElectronics的4個分店銷售的商品單價的盒圖

2. 方差和標準差

N個觀測值x1, x2, ., xN的方差是


其中, 是觀測值的均值,由式(2-1)定義。觀測值的標準差σ是方差x σ2的平方根。

作為發(fā)散性的度量,標準差σ的基本性質(zhì)是

. σ度量關于均值的發(fā)散,僅當選擇均值作為中心度量時使用。

. 僅當不存在發(fā)散時,即當所有的觀測值都具有相同值時,σ = 0;否則,σ > 0。方差和標準差是代數(shù)度量,因為它們可以由分布度量計算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意劃分進行計算,然后合并提供給式(2-6)。這樣,方差和標準差的計算在大型數(shù)據(jù)庫都是可伸縮的。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }