
上一篇介紹了數(shù)據(jù)的分類、統(tǒng)計學是什么、以及統(tǒng)計學知識的大分類,本篇我們重點學習描述性統(tǒng)計學。
我們描述一組數(shù)據(jù)的時候,通常分三個方面描述:集中趨勢、離散趨勢、分布形狀。通俗來說,集中趨勢是描述數(shù)據(jù)集中在什么位置,離散趨勢描述的是數(shù)據(jù)分散的程度,分布形狀描述的是數(shù)據(jù)形狀。
首先,來看描述數(shù)據(jù)的集中趨勢,使用的三個常見的統(tǒng)計量:
Excel求算術(shù)平均數(shù)的函數(shù)=AVERAGE(A1:A8)
PS:聰明的你肯定知道把上面8個數(shù)據(jù)
2,23,4,17,12,12,13,16
,用左手復(fù)制到你Excel中的A1:A8單元格(記得豎著放?。?/p>
用Python求算術(shù)平均數(shù)
## 使用 numpy 庫里的 mean 函數(shù)
import numpy as np
data = [2,23,4,17,12,12,13,16]
print(np.mean(data))
# 12.375
Excel求幾何平均數(shù)的函數(shù)=GEOMEAN(A1:A8)
用Python求幾何平均數(shù)
# 使用 scipy 庫里的 gmean 函數(shù)求幾何平均數(shù)
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.gmean(data))
# 9.918855683110795
n個數(shù)的倒數(shù)的算術(shù)平均數(shù)的倒數(shù)
Excel求調(diào)和平均數(shù)的函數(shù)=HARMEAN(A1:A8)
Python求調(diào)和平均數(shù)
# 使用 scipy 庫里的 hmean 函數(shù)求調(diào)和平均數(shù)
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.hmean(data))
# 6.906127821278071
還沒看暈吧?我們小結(jié)一下,三者的大小排序一般是算術(shù)平均值 ≥ 幾何平均值 ≥ 調(diào)和平均值
。另外
數(shù)值類數(shù)據(jù)的均值一般用算術(shù)平均值,比例型數(shù)據(jù)的均值一般用幾何平均值,平均速度一般用調(diào)和平均數(shù)
中位數(shù)是把數(shù)據(jù)按照順序排列,處于中間位置的那個數(shù)
Excel求中位數(shù)的函數(shù)=MEDIAN(A1:A8)
Python求中位數(shù)
# 使用 numpy 庫里的 median 函數(shù)求中位數(shù)
import numpy as np
data = [2,23,4,17,12,12,13,16]
print(np.median(data))
# 12.5
眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。
Excel求眾數(shù)的函數(shù)=MODE(A1:A8)
Python求眾數(shù)
# 使用 scipy 庫里的 mode 函數(shù)求眾數(shù)
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.mode(data))
# ModeResult(mode=array([12]), count=array([2]))
以上便是描述數(shù)據(jù)集中趨勢的幾個統(tǒng)計量,接下來我們來看描述數(shù)據(jù)離散趨勢的統(tǒng)計量:
四分位數(shù)用3個分位數(shù),將數(shù)據(jù)等分成4個部分。這3個四分位數(shù),分別位于這組數(shù)據(jù)升序排序后的25%、50%和75%的位置上。另外,75%分位數(shù)與25%分位數(shù)的差叫做四分位距。
Excel求分位數(shù)的函數(shù)=QUARTILE(A1:A8,1)
,括號里面的參數(shù):0代表最小值,1代表25%分位數(shù),2代表50%分位數(shù),3代表75%分位數(shù),4代表最大值,
Python求該組數(shù)據(jù)的下四分位數(shù)與上四分位數(shù)
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.scoreatpercentile(data,25)) #25分位數(shù)
print(sts.scoreatpercentile(data,75)) #75分位數(shù)
10.0
16.25
補充一點,關(guān)于描述性統(tǒng)計部分的圖表可視化,本系列教程不做展開,唯一值得一提的是箱線圖,不論是描述數(shù)據(jù)、還是判斷異常都是你應(yīng)該掌握的數(shù)據(jù)分析利器(在第8節(jié)案例8.2中會詳細舉例說明)這里先簡單舉例如下
用四分位數(shù)繪制的箱線圖
import seaborn as sns
data = [2,23,4,17,12,12,13,16]
# 使用sns.boxplot()函數(shù)繪制箱線圖
sns.boxplot(data=data)
箱線圖可以很直觀地看到:數(shù)據(jù)的最大值、最小值、以及大部分數(shù)據(jù)集中在什么區(qū)間。
具體來說就是:
異常值、上邊緣 Q3+1.5(Q3-Q1)
、上四分位數(shù) Q3
、中位數(shù) Q2
下四分位數(shù) Q1
、下邊緣 Q1-1.5(Q3-Q1)
極差又稱范圍誤差或全距,是指一組數(shù)據(jù)中最大值與最小值的差
Excel求極差的函數(shù)=MAX(A1:A8) - MIN(A1:A8)
Python 求極差
import numpy as np
data = [2,23,4,17,12,12,13,16]
print(np.ptp(data))
# 21
四分位距是上四分位數(shù)與下四分位數(shù)之差,一般用表示
Excel求分位數(shù)的函數(shù)=QUARTILE(A1:A8,3)-QUARTILE(A1:A8,1)
Python 求四分位距
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.scoreatpercentile(data,75)-sts.scoreatpercentile(data,25))
# 6.25
方差是一組數(shù)據(jù)中的各數(shù)據(jù)值與該組數(shù)據(jù)算術(shù)平均數(shù)之差的平方的算術(shù)平均數(shù)。
Excel求方差的函數(shù)=VAR(A1:A8)
Python求方差
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.tvar(data,ddof = 1))# ddof=1時,分母為n-1;ddof=0時,分母為n
#46.55357142857143
標準差為方差的開方。總體標準差常用σ表示,樣本標準差常用S表示。
Excel求方差的函數(shù)=STDEV(A1:A8)
Python求標準差:
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.tstd(data,ddof = 1))# ddof=1時,分母為n-1;ddof=0時,分母為n
# 6.823017765517794
對不同變量或不同數(shù)組的離散程度進行比較時,如果它們的平均水平和計量單位都相同,才能利用上述指標進行分析,否則需利用變異系數(shù)來比較它們的離散程度。
變異系數(shù)又稱為離散系數(shù),是一組數(shù)據(jù)中的極差、四分位差或標準差等離散指標與算術(shù)平均數(shù)的比率。
Excel求變異系數(shù)的函數(shù)=STDEV(A1:A8)/AVERAGE(A1:A8)
Python求標準差變異系數(shù):
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.tstd(data)/sts.tmean(data))
# 0.5513549709509329
看完了描述數(shù)據(jù)離散程度的幾個統(tǒng)計量,我們接著看描述數(shù)據(jù)分布形狀的偏度和峰度:
偏度系數(shù)是對分布偏斜程度的測度,通常用SK表示。偏度衡量隨機變量概率分布的不對稱性,是相對于平均值不對稱程度的度量。
當偏度系數(shù)為正值時,表示正偏離差數(shù)值較大,可以判斷為正偏態(tài)或右偏態(tài);反之,當偏度系數(shù)為負值時,表示負偏離差數(shù)值較大,可以判斷為負偏態(tài)或左偏態(tài)。偏度系數(shù)的絕對值越大,表示偏斜的程度就越大。
Excel求偏度的函數(shù)=SKEW(A1:A8)
Python如何求偏度:
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.skew(data,bias=False)) # bias=False 代表計算的是總體偏度,bias=True 代表計算的是樣本偏度
# -0.21470003988916822
峰度描述的是分布集中趨勢高峰的形態(tài),通常與標準正態(tài)分布相比較。在歸一化到同一方差時,若分布的形狀比標準正態(tài)分布更“瘦”、更“高”,則稱為尖峰分布;若比標準正態(tài)分布更“矮”、更“胖”,則稱為平峰分布。
峰度系數(shù)是對分布峰度的測度,通常用K表示:
由于標準正態(tài)分布的峰度系數(shù)為0,所以當峰度系數(shù)大于0時為尖峰分布,當峰度系數(shù)小于0時為平峰分布。
Excel求峰度的函數(shù)
=KURT(A1:A8)
Python如何求峰度:
from scipy import stats as sts
data = [2,23,4,17,12,12,13,16]
print(sts.kurtosis(data,bias=False)) # bias=False 代表計算的是總體峰度,bias=True 代表計算的是樣本峰度
# -0.17282884047242897
這里分享一個你一定用得到的小程序——CDA數(shù)據(jù)分析師考試小程序。
它是專為CDA數(shù)據(jù)分析認證考試報考打造的一款小程序??梢詭湍憧焖賵竺荚嚒⒉槌煽?、查證書、查積分,通過該小程序,考生可以享受更便捷的服務(wù)。
掃碼加入CDA小程序,與圈內(nèi)考生一同學習、交流、進步!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03