99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁數(shù)據(jù)分析教程數(shù)據(jù)分析師教程《統(tǒng)計學極簡入門》第2節(jié) 描述性統(tǒng)計
數(shù)據(jù)分析師教程《統(tǒng)計學極簡入門》第2節(jié) 描述性統(tǒng)計
2024-10-09
收藏

2. 描述性統(tǒng)計

上一篇介紹了數(shù)據(jù)的分類、統(tǒng)計學是什么、以及統(tǒng)計學知識的大分類,本篇我們重點學習描述性統(tǒng)計學。

我們描述一組數(shù)據(jù)的時候,通常分三個方面描述:集中趨勢、離散趨勢、分布形狀。通俗來說,集中趨勢是描述數(shù)據(jù)集中在什么位置,離散趨勢描述的是數(shù)據(jù)分散的程度,分布形狀描述的是數(shù)據(jù)形狀。

首先,來看描述數(shù)據(jù)的集中趨勢,使用的三個常見的統(tǒng)計量:

平均數(shù)

  • 算術(shù)平均數(shù) 算術(shù)平均數(shù)是n個數(shù)求和后除以n得到的結(jié)果。廣泛應(yīng)用于各個領(lǐng)域,用于描述和分析數(shù)據(jù)的平均水平和集中趨勢

Excel求算術(shù)平均數(shù)的函數(shù)=AVERAGE(A1:A8)

PS:聰明的你肯定知道把上面8個數(shù)據(jù) 2,23,4,17,12,12,13,16,用左手復(fù)制到你Excel中的A1:A8單元格(記得豎著放?。?/p>

用Python求算術(shù)平均數(shù)

## 使用 numpy 庫里的 mean 函數(shù)
import numpy as np
data =  [2,23,4,17,12,12,13,16]
print(np.mean(data))
# 12.375
  • 幾何平均數(shù) 幾何平均數(shù)就是n個數(shù)乘積的n次方根。在金融財務(wù)、投資和銀行業(yè)的問題中,幾何平均數(shù)的應(yīng)用尤為常見。當你任何時候想確定過去幾個連續(xù)時期的平均變化率時,都能應(yīng)用幾何平均數(shù)。其他通常的應(yīng)用包括物種總體、農(nóng)作物產(chǎn)量、污染水平以及出生率和死亡率的變化。(在第8節(jié)案例8.1中會舉例說明)。 公式如下:

Excel求幾何平均數(shù)的函數(shù)=GEOMEAN(A1:A8)

用Python求幾何平均數(shù)

# 使用 scipy 庫里的 gmean 函數(shù)求幾何平均數(shù)
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.gmean(data))
# 9.918855683110795
  • 調(diào)和平均數(shù)

n個數(shù)的倒數(shù)的算術(shù)平均數(shù)的倒數(shù)

Excel求調(diào)和平均數(shù)的函數(shù)=HARMEAN(A1:A8)

Python求調(diào)和平均數(shù)

# 使用 scipy 庫里的 hmean 函數(shù)求調(diào)和平均數(shù)
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.hmean(data))
# 6.906127821278071

還沒看暈吧?我們小結(jié)一下,三者的大小排序一般是算術(shù)平均值 ≥ 幾何平均值 ≥ 調(diào)和平均值。另外 數(shù)值類數(shù)據(jù)的均值一般用算術(shù)平均值,比例型數(shù)據(jù)的均值一般用幾何平均值,平均速度一般用調(diào)和平均數(shù)

中位數(shù)

中位數(shù)是把數(shù)據(jù)按照順序排列,處于中間位置的那個數(shù)

Excel求中位數(shù)的函數(shù)=MEDIAN(A1:A8)

Python求中位數(shù)

# 使用 numpy 庫里的 median 函數(shù)求中位數(shù)
import numpy as np
data =  [2,23,4,17,12,12,13,16]
print(np.median(data))
# 12.5

眾數(shù)

眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。

Excel求眾數(shù)的函數(shù)=MODE(A1:A8)

Python求眾數(shù)

# 使用 scipy 庫里的 mode 函數(shù)求眾數(shù)
from scipy import stats as sts
data =  [2,23,4,17,12,12,13,16]
print(sts.mode(data))
# ModeResult(mode=array([12]), count=array([2]))

以上便是描述數(shù)據(jù)集中趨勢的幾個統(tǒng)計量,接下來我們來看描述數(shù)據(jù)離散趨勢的統(tǒng)計量:

分位數(shù)

四分位數(shù)用3個分位數(shù),將數(shù)據(jù)等分成4個部分。這3個四分位數(shù),分別位于這組數(shù)據(jù)升序排序后的25%、50%和75%的位置上。另外,75%分位數(shù)與25%分位數(shù)的差叫做四分位距。

Excel求分位數(shù)的函數(shù)=QUARTILE(A1:A8,1) ,括號里面的參數(shù):0代表最小值,1代表25%分位數(shù),2代表50%分位數(shù),3代表75%分位數(shù),4代表最大值,

Python求該組數(shù)據(jù)的下四分位數(shù)與上四分位數(shù)

from scipy import stats as sts  
data =  [2,23,4,17,12,12,13,16]
print(sts.scoreatpercentile(data,25)) #25分位數(shù)
print(sts.scoreatpercentile(data,75)) #75分位數(shù)
10.0
16.25

補充一點,關(guān)于描述性統(tǒng)計部分的圖表可視化,本系列教程不做展開,唯一值得一提的是箱線圖,不論是描述數(shù)據(jù)、還是判斷異常都是你應(yīng)該掌握的數(shù)據(jù)分析利器(在第8節(jié)案例8.2中會詳細舉例說明)這里先簡單舉例如下

用四分位數(shù)繪制的箱線圖

import seaborn as sns
data = [2,23,4,17,12,12,13,16]
# 使用sns.boxplot()函數(shù)繪制箱線圖
sns.boxplot(data=data)

箱線圖可以很直觀地看到:數(shù)據(jù)的最大值、最小值、以及大部分數(shù)據(jù)集中在什么區(qū)間。

具體來說就是: 異常值、上邊緣 Q3+1.5(Q3-Q1)、上四分位數(shù) Q3、中位數(shù) Q2 下四分位數(shù) Q1、下邊緣 Q1-1.5(Q3-Q1)

  • 極差

極差又稱范圍誤差或全距,是指一組數(shù)據(jù)中最大值與最小值的差

Excel求極差的函數(shù)=MAX(A1:A8) - MIN(A1:A8)

Python 求極差

import numpy as np
data =  [2,23,4,17,12,12,13,16]
print(np.ptp(data))
# 21
  • 四分位距

四分位距是上四分位數(shù)與下四分位數(shù)之差,一般用表示

Excel求分位數(shù)的函數(shù)=QUARTILE(A1:A8,3)-QUARTILE(A1:A8,1) Python 求四分位距

from scipy import stats as sts
data =  [2,23,4,17,12,12,13,16]
print(sts.scoreatpercentile(data,75)-sts.scoreatpercentile(data,25))
# 6.25

方差

方差是一組數(shù)據(jù)中的各數(shù)據(jù)值與該組數(shù)據(jù)算術(shù)平均數(shù)之差的平方的算術(shù)平均數(shù)。

Excel求方差的函數(shù)=VAR(A1:A8)

Python求方差

from scipy import stats as sts
data =  [2,23,4,17,12,12,13,16]
print(sts.tvar(data,ddof = 1))# ddof=1時,分母為n-1;ddof=0時,分母為n
#46.55357142857143

標準差

標準差方差的開方。總體標準差常用σ表示,樣本標準差常用S表示。 Excel求方差的函數(shù)=STDEV(A1:A8) Python求標準差:

from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.tstd(data,ddof = 1))# ddof=1時,分母為n-1;ddof=0時,分母為n
# 6.823017765517794

變異系數(shù)

對不同變量或不同數(shù)組的離散程度進行比較時,如果它們的平均水平和計量單位都相同,才能利用上述指標進行分析,否則需利用變異系數(shù)來比較它們的離散程度。

變異系數(shù)又稱為離散系數(shù),是一組數(shù)據(jù)中的極差、四分位差或標準差等離散指標與算術(shù)平均數(shù)的比率。

Excel求變異系數(shù)的函數(shù)=STDEV(A1:A8)/AVERAGE(A1:A8)

Python求標準差變異系數(shù):

from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.tstd(data)/sts.tmean(data))
# 0.5513549709509329

看完了描述數(shù)據(jù)離散程度的幾個統(tǒng)計量,我們接著看描述數(shù)據(jù)分布形狀的偏度和峰度:

偏度

偏度系數(shù)是對分布偏斜程度的測度,通常用SK表示。偏度衡量隨機變量概率分布的不對稱性,是相對于平均值不對稱程度的度量。

當偏度系數(shù)為正值時,表示正偏離差數(shù)值較大,可以判斷為正偏態(tài)或右偏態(tài);反之,當偏度系數(shù)為負值時,表示負偏離差數(shù)值較大,可以判斷為負偏態(tài)或左偏態(tài)。偏度系數(shù)的絕對值越大,表示偏斜的程度就越大。

Excel求偏度的函數(shù)=SKEW(A1:A8)

Python如何求偏度:

from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.skew(data,bias=False)) # bias=False 代表計算的是總體偏度,bias=True 代表計算的是樣本偏度
# -0.21470003988916822

峰度

峰度描述的是分布集中趨勢高峰的形態(tài),通常與標準正態(tài)分布相比較。在歸一化到同一方差時,若分布的形狀比標準正態(tài)分布更“瘦”、更“高”,則稱為尖峰分布;若比標準正態(tài)分布更“矮”、更“胖”,則稱為平峰分布。

峰度系數(shù)是對分布峰度的測度,通常用K表示:

由于標準正態(tài)分布的峰度系數(shù)為0,所以當峰度系數(shù)大于0時為尖峰分布,當峰度系數(shù)小于0時為平峰分布。

Excel求峰度的函數(shù) =KURT(A1:A8)

Python如何求峰度:

from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.kurtosis(data,bias=False)) # bias=False 代表計算的是總體峰度,bias=True 代表計算的是樣本峰度
# -0.17282884047242897

下期預(yù)告:《Python統(tǒng)計學極簡入門》第3節(jié) 數(shù)據(jù)分布

這里分享一個你一定用得到的小程序——CDA數(shù)據(jù)分析師考試小程序。 它是專為CDA數(shù)據(jù)分析認證考試報考打造的一款小程序??梢詭湍憧焖賵竺荚嚒⒉槌煽?、查證書、查積分,通過該小程序,考生可以享受更便捷的服務(wù)。 掃碼加入CDA小程序,與圈內(nèi)考生一同學習、交流、進步!

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }