
導(dǎo)讀:對(duì)數(shù)據(jù)進(jìn)行質(zhì)量分析以后,接下來(lái)可通過(guò)繪制圖表、計(jì)算某些特征量等手段進(jìn)行數(shù)據(jù)的特征分析。
作者:張良均 譚立云 劉名軍 江建明
來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)
內(nèi)容摘編自《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》
其中,分布分析能揭示數(shù)據(jù)的分布特征和分布類(lèi)型。本文就手把手教你做分布分析。
對(duì)于定量數(shù)據(jù),要想了解其分布形式是對(duì)稱(chēng)的還是非對(duì)稱(chēng)的、發(fā)現(xiàn)某些特大或特小的可疑值,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進(jìn)行直觀(guān)分析;對(duì)于定性數(shù)據(jù),可用餅圖和條形圖直觀(guān)地顯示其分布情況。
01 定量數(shù)據(jù)的分布分析
對(duì)于定量變量而言,選擇“組數(shù)”和“組寬”是做頻率分布分析時(shí)最主要的問(wèn)題,一般按照以下步驟進(jìn)行:
第一步:求極差。
第二步:決定組距與組數(shù)。
第三步:決定分點(diǎn)。
第四步:列出頻率分布表。
第五步:繪制頻率分布直方圖。
遵循的主要原則如下:
各組之間必須是相互排斥的。
各組必須將所有的數(shù)據(jù)包含在內(nèi)。
各組的組寬最好相等。
下面結(jié)合具體實(shí)例來(lái)運(yùn)用分布分析對(duì)定量數(shù)據(jù)進(jìn)行特征分析。
表3-2是菜品“撈起生魚(yú)片”在2014年第二個(gè)季度的銷(xiāo)售數(shù)據(jù),繪制銷(xiāo)售量的頻率分布表、頻率分布圖,對(duì)該定量數(shù)據(jù)做出相應(yīng)的分析。
▲表3-2 “撈起生魚(yú)片”的銷(xiāo)售情況
1. 求極差
極差=最大值-最小值=3960-45=3915
2. 分組
這里根據(jù)業(yè)務(wù)數(shù)據(jù)的含義,可取組距為500.則組數(shù)如下所示。
組數(shù)=極差/組距=3915/500=7.83≈8
3. 決定分點(diǎn)
分布區(qū)間如表3-3所示。
▲表3-3 分布區(qū)間
4. 繪制頻率分布直方表
根據(jù)分組區(qū)間得到如表3-4所示的頻率分布表。
其中,第1列將數(shù)據(jù)所在的范圍分成若干組段,其中第1個(gè)組段要包括最小值,最后一個(gè)組段要包括最大值。習(xí)慣上將各組段設(shè)為左閉右開(kāi)的半開(kāi)區(qū)間,如第一個(gè)組段為[0.500)。
第2列組中值是各組段的代表值,由本組段的上限值和下限值相加除以2得到。
第3列和第4列分別為頻數(shù)和頻率。
第5列是累計(jì)頻率,是否需要計(jì)算該列數(shù)值視情況而定。
▲表3-4 頻率分布
5. 繪制頻率分布直方圖
若以2014年第二季度“撈起生魚(yú)片”這道菜每天的銷(xiāo)售額組段為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,表3-4中的數(shù)據(jù)可繪制成頻率分布直方圖,如代碼清單3-3所示。
代碼清單3-3 “撈起生魚(yú)片”的季度銷(xiāo)售情況
import pandas as pd
import numpy as np
catering_sale = '../data/catering_fish_congee.xls' # 餐飲數(shù)據(jù)
data = pd.read_excel(catering_sale,names=['date','sale']) # 讀取數(shù)據(jù),指定“日期”
列為索引
bins = [0.500.1000.1500.2000.2500.3000.3500.4000]
labels = ['[0.500)','[500.1000)','[1000.1500)','[1500.2000)',
'[2000.2500)','[2500.3000)','[3000.3500)','[3500.4000)']
data['sale分層'] = pd.cut(data.sale, bins, labels=labels)
aggResult = data.groupby(by=['sale分層'])['sale'].agg({'sale': np.size})
pAggResult = round(aggResult/aggResult.sum(), 2. ) * 100
import matplotlib.pyplot as plt
plt.figure(figsize=(10.6)) # 設(shè)置圖框大小尺寸
pAggResult['sale'].plot(kind='bar',width=0.8.fontsize=10) # 繪制頻率直方圖
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用來(lái)正常顯示中文標(biāo)簽
plt.title('季度銷(xiāo)售額頻率分布直方圖',fontsize=20)
plt.show()
運(yùn)行代碼清單3-3可得季度銷(xiāo)售額頻率分布直方圖,如圖3-3所示。
▲圖3-3 季度銷(xiāo)售額頻率分布直方圖
02 定性數(shù)據(jù)的分布分析
對(duì)于定性變量,常常根據(jù)變量的分類(lèi)類(lèi)型來(lái)分組,可以采用餅圖和條形圖來(lái)描述定性變量的分布,如代碼清單3-4所示。
代碼清單3-4 不同菜品在某段時(shí)間的銷(xiāo)售量分布情況
import pandas as pd
import matplotlib.pyplot as plt
catering_dish_profit = '../data/catering_dish_profit.xls'# 餐飲數(shù)據(jù)
data = pd.read_excel(catering_dish_profit) # 讀取數(shù)據(jù),指定“日期”列
為索引
# 繪制餅圖
x = data['盈利']
labels = data['菜品名']
plt.figure(figsize=(8. 6)) # 設(shè)置畫(huà)布大小
plt.pie(x,labels=labels) # 繪制餅圖
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.title('菜品銷(xiāo)售量分布(餅圖)') # 設(shè)置標(biāo)題
plt.axis('equal')
plt.show()
# 繪制條形圖
x = data['菜品名']
y = data['盈利']
plt.figure(figsize=(8. 4)) # 設(shè)置畫(huà)布大小
plt.bar(x,y)
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.xlabel('菜品') # 設(shè)置x軸標(biāo)題
plt.ylabel('銷(xiāo)量') # 設(shè)置y軸標(biāo)題
plt.title('菜品銷(xiāo)售量分布(條形圖)')# 設(shè)置標(biāo)題
plt.show() # 展示圖片
餅圖的每一個(gè)扇形部分代表每一類(lèi)型的所占百分比或頻數(shù),根據(jù)定性變量的類(lèi)型數(shù)目將餅圖分成幾個(gè)部分,每一部分的大小與每一類(lèi)型的頻數(shù)成正比;條形圖的高度代表每一類(lèi)型的百分比或頻數(shù),條形圖的寬度沒(méi)有意義。
運(yùn)行代碼清單3-4可得不同菜品在某段時(shí)間的銷(xiāo)售量分布圖,如圖3-4和圖3-5所示。
▲圖3?4 菜品銷(xiāo)售量分布(餅圖)
▲圖3?5 菜品銷(xiāo)售量分布(條形圖)
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03