99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀解鎖數(shù)據(jù)分析的正確姿勢:描述統(tǒng)計
解鎖數(shù)據(jù)分析的正確姿勢:描述統(tǒng)計
2017-04-07
收藏
當(dāng)獲得一份數(shù)據(jù)集時,你會怎么做?

立馬撩起袖管進行分析么?這不是一個好建議。無數(shù)的經(jīng)驗告訴我們,如果分析師不先行了解數(shù)據(jù)集的質(zhì)量,后續(xù)的推斷分析是事倍功半的。

正確的處理方法是先使用描述統(tǒng)計。

丨什么是描述統(tǒng)計學(xué)

它是一種綜合概括數(shù)據(jù)集的方式,包括數(shù)據(jù)的加工和顯示,數(shù)據(jù)集的分布特征等。它與推斷統(tǒng)計相呼應(yīng)。

在進入統(tǒng)計學(xué)習(xí)前,先明確基礎(chǔ)概念。

數(shù)據(jù)可以分為分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù)。分類型數(shù)據(jù)是識別變量的類型,比如男女、地區(qū)、各種類別;數(shù)值型數(shù)據(jù)是表示數(shù)值的大小和多少,比如年齡中的18、19、20歲。

最明顯的區(qū)分是,分類型數(shù)據(jù)不能使用加減法,而數(shù)值型數(shù)據(jù)可以。兩者在一定程度可以互相轉(zhuǎn)換。比如年齡,18歲是數(shù)值型數(shù)據(jù),但它也可以轉(zhuǎn)換成分類數(shù)據(jù)「青少年」。我們也能用數(shù)值表示分類數(shù)據(jù),比如0代表女,1代表男,它依舊沒有計算意義,更多是方便計算機存儲而已。

分類數(shù)據(jù)和數(shù)值數(shù)據(jù)的具體應(yīng)用,會在往后的學(xué)習(xí)中繼續(xù)深入,本文先將主要精力放在數(shù)值型數(shù)據(jù)。

丨數(shù)據(jù)的度量

平均數(shù)是一種數(shù)據(jù)位置的度量,用以了解整體數(shù)據(jù),這是小學(xué)就學(xué)到的內(nèi)容??墒瞧骄鶖?shù)并不是一個權(quán)威的衡量指標(biāo),當(dāng)我們提到全國平均工資的時候,我們都是被馬云爸爸王健林爸爸平均的普通人。

平均數(shù)容易受到極值的影響,因為數(shù)據(jù)集并不能保證「干凈」,各類運營數(shù)據(jù)經(jīng)常受到擾動,比如薅羊毛黨就會拉高營銷活動的平均值。一般而言,可以用調(diào)整平均數(shù)(trimmed mean)消除異常波動,在數(shù)據(jù)集中刪除一定比例的極大值和極小值,比如5%,然后重新計算平均數(shù)。

它既然不靠譜,我們便請出中位數(shù)。將所有數(shù)據(jù)按升序排列后,位于中間的數(shù)值即中位數(shù)。當(dāng)數(shù)據(jù)集是奇數(shù),中位數(shù)是中間的數(shù)值,當(dāng)數(shù)據(jù)集是偶數(shù),中位數(shù)是中間兩個數(shù)的平均值。這也是小學(xué)的內(nèi)容。

另外一種度量是眾數(shù),它是數(shù)據(jù)集出現(xiàn)頻次最多的數(shù)據(jù),當(dāng)有多個眾數(shù)時,稱為多眾數(shù)。眾數(shù)使用的頻率低于前兩者,更多用于分類數(shù)據(jù)。

平均數(shù)、中位數(shù)、眾數(shù)構(gòu)成了標(biāo)準(zhǔn)的衡量方法。但是還不夠。

數(shù)據(jù)分析師常將數(shù)據(jù)劃分為四個部分,每一部分包含25%的數(shù)據(jù)集,劃分的分割點叫做四分位數(shù)。

依次將數(shù)據(jù)升序排列,位于第25%位置的叫做第一四分位數(shù)Q1,位于第50%位置的叫做第二四分位數(shù)Q2,即中位數(shù),位于第75%的叫做第三分位數(shù)Q3。這三個點,能輔助衡量數(shù)據(jù)的分布狀態(tài)。

丨數(shù)據(jù)的離散和變異

我們考慮一個新的問題,現(xiàn)在一家電商公司要賣兩個同類型的商品,它們的一周銷量(單位:個)如下:

商品A:10,10,10,11,12,12,12

商品B:3,5,6,11,16,17,19

它們的平均數(shù)一樣,中位數(shù)也一樣,可它們的真實情況呢?當(dāng)然不。作為商品,我們更喜歡銷量穩(wěn)定的。

方差是一種可以衡量數(shù)據(jù)「穩(wěn)定性」的度量,更通俗的解釋是衡量數(shù)據(jù)的變異性,從圖形上說,也叫離散程度。

方差的計算公式是各個數(shù)據(jù)分別與其平均數(shù)之差的平方和的平均數(shù)。

上述公式是總體數(shù)據(jù)集的方差計算,當(dāng)數(shù)據(jù)近為部分抽樣樣本時,n應(yīng)該改為n-1。數(shù)據(jù)集足夠大時,兩者的誤差也可以忽略不計。

現(xiàn)在計算上文商品的方差。Excel中的方差公式為VARP( ),如果是樣本數(shù)據(jù),則為VAR( )。不同Excel版本,函數(shù)會有微小差異。

方差越大,說明數(shù)據(jù)集的離散程度越大,商品A的銷量波動明顯比商品B穩(wěn)定。方差的計算中,因為涉及到了平方和,所以單位的量綱是平方(商品A和B的方差,單位為個^2),它很難有直觀的詮釋。于是我們又引入標(biāo)準(zhǔn)差。

標(biāo)準(zhǔn)差是方差的開平方:

Excel中,標(biāo)準(zhǔn)差的計算函數(shù)為stdevp( ),如果是樣本數(shù)據(jù),則為stdev( )。

方差和標(biāo)準(zhǔn)差的意義是相同的,但是標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位量綱相同,它更容易與平均數(shù)等度量比較。比如商品A的平均銷量為11個,標(biāo)準(zhǔn)差為0.85個,于是我們知道這個商品賣的比較穩(wěn)。

切比雪夫定理指出,至少有75%的數(shù)據(jù)值與平均數(shù)的距離在2個標(biāo)準(zhǔn)差以內(nèi),至少有89%的數(shù)據(jù)與平均數(shù)在3個標(biāo)準(zhǔn)差之內(nèi),至少有94%的數(shù)據(jù)與平均數(shù)在4個標(biāo)準(zhǔn)差以內(nèi)。這是一個非常方便的定理,能快速掌握數(shù)據(jù)包含的范圍。

假設(shè)上海地區(qū)的平均薪資是20k,標(biāo)準(zhǔn)差是5K,那么大約有90%的薪資,都在5k~35k的區(qū)間內(nèi)。

如果數(shù)據(jù)本身符合正態(tài)(鐘形)分布,那么切比雪夫定理的估算將進一步準(zhǔn)確:68%的數(shù)據(jù)落在距離平均數(shù)一個標(biāo)準(zhǔn)差內(nèi),95%的數(shù)據(jù)值落在距離平均數(shù)2個標(biāo)準(zhǔn)差之內(nèi),幾乎所有的數(shù)據(jù)落在三個標(biāo)準(zhǔn)差內(nèi)。

在Excel中,有一個重要的工具叫數(shù)據(jù)分析庫(部分Excel版本需要安裝,自行搜索),里面封裝了大量的統(tǒng)計工具。

點擊描述統(tǒng)計,選擇需要計算的區(qū)域,設(shè)置為逐列,輸出區(qū)域選擇旁邊U2區(qū)塊。輸出計算結(jié)果。

列1的所有內(nèi)容,均屬于描述統(tǒng)計中的各類度量。我們不用一個個函數(shù)去計算了。

方差和標(biāo)準(zhǔn)差是重要的概念,在后續(xù)的統(tǒng)計學(xué)中將繼續(xù)出現(xiàn)。

丨數(shù)據(jù)的箱線圖

回到度量,上文提到的內(nèi)容,都屬于數(shù)值類的方法,可它們還是不夠直觀。

先匯總五類數(shù)據(jù):最小值、第一四分位數(shù)Q1、中位數(shù)、第三四分位數(shù)Q3、最大值。

拿數(shù)據(jù)分析師的薪資數(shù)據(jù)作案例。

以上是清洗后的數(shù)據(jù)。我們用Excel函數(shù)計算這五個度量。分別是median( )、max( )、min( )、quartile( )。按城市區(qū)分。

通過數(shù)據(jù),現(xiàn)在可以了解各城市的數(shù)據(jù)分析師薪資分布了,接下來把它們加工成箱線圖,它是最常用的描述統(tǒng)計圖表。

箱線圖通過我們求出的五個數(shù)據(jù)確定位置。

箱線圖的上下邊緣分別是最大值和最小值(實際不是,這里為了方便,先這樣理解),箱體的上下邊界則是25%分位數(shù)和75分位數(shù)。箱內(nèi)橫線是中位數(shù)。異常值是箱線邊緣外的數(shù)值,需要直接排除。

Excel2016可以直接繪制箱線圖,如果是早期版本,有兩種作圖思路。

第一種,是利用股價圖。將圖表按25%分位數(shù)、最大值、最小值、75%分位數(shù)的順序排列。

然后直接生成圖表:

這個圖表是沒有中位數(shù)的,中位數(shù)需要添加上去。數(shù)據(jù)源新建一個系列,該系列應(yīng)該調(diào)整到位于數(shù)據(jù)源的中間位置。

選擇中位數(shù)的數(shù)據(jù)系列格式,更改標(biāo)記為「-」,大小為12榜,顏色為黑色。此時就有箱線圖的雛形了。

另外一種思路是利用散點圖的誤差線繪制,和甘特圖的原理一樣,大家自己練習(xí)吧。

其實從圖表中看到,雖然我們描繪出了箱線圖,但是不同城市的數(shù)據(jù)區(qū)別并不直觀,因為最大值撐高了箱線圖的邊緣。我們經(jīng)常會遇到這些影響分析質(zhì)量的異常值(過于異常的數(shù)值雖然存在合理性,但是很多分析必須移除掉它們)。我們需要清洗掉這批異常值。

定義四分位差I(lǐng)QR=Q3(75%分位數(shù))—Q1(25%分位數(shù)),箱線圖的界限在(Q1-1.5IQR,Q3+1.5個IQR)處。界限外部所有值均為異常值。

bottom和top就是新的界限,對于在界限外部的數(shù)據(jù),均認(rèn)為是異常值。界限內(nèi)部的數(shù)據(jù)則是箱線圖的主體,接下來找出界限內(nèi)的最大值和最小值。比如上海的界限是-5~39之間,而界限內(nèi)的數(shù)據(jù)實際范圍為1.5~37.5,那么就以1.5~37.5繪制箱形。

現(xiàn)在大家求出了真正的五個度量,可以重新繪制箱線圖(我們要用bottom和top求出范圍內(nèi)新的最大值和最小值)。為了方便演示,我直接以Python生成(以前教過的BI也行,更好看)。

比Excel繪制的圖直觀多了。紅線位置,是各個城市中游水平的數(shù)據(jù)分析師能夠獲得的薪資標(biāo)準(zhǔn),上邊的藍線區(qū)間為中上游,下邊的藍線區(qū)間為中下游,以此類推。簡而言之,人群被四等分了。

我們解讀一下:上海、北京、深圳的數(shù)據(jù)分析師,薪資范圍接近,但是中上游水平的人,北京地區(qū)能獲得更高的薪資,因為中位數(shù)的位置更高。西安、長沙、天津則不利于數(shù)據(jù)分析師的發(fā)展。杭州的水平接近北上深,但是薪資上限受到一定限制。

這張圖能一眼看出不少內(nèi)容,想必大家已經(jīng)明白箱線圖的作用了,它能讀出數(shù)據(jù)的整體分布和傾斜趨勢(偏態(tài))。

通過圖表(直方圖散點圖也算描述統(tǒng)計)快速解讀數(shù)據(jù),是數(shù)據(jù)分析師的基礎(chǔ)能力之一。

大家想一下,如果是O2O的數(shù)據(jù)分析,能不能快速判斷各城市的業(yè)務(wù)狀況?如果是金融,能不能劃分人群看它們業(yè)務(wù)之間不同的分布?如果是電商,不同類目的營銷數(shù)據(jù)會有大的差異嗎?再配合不同的維度細(xì)分,發(fā)揮的價值大著呢。

箱線圖是一種非常優(yōu)秀的圖表。雖然在Excel中會繁瑣一些(趕緊更新到2016),但是在Python和R語言,也就是十秒鐘的操作時間。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }