什么是統(tǒng)計學(xué)
統(tǒng)計學(xué)是一門收集,處理,分析,解釋并從中得出結(jié)論的科學(xué)。
核心:數(shù)據(jù)
數(shù)據(jù)分析步驟:收集數(shù)據(jù)=》處理數(shù)據(jù)=》分析數(shù)據(jù)=》解釋數(shù)據(jù)
統(tǒng)計學(xué)運用在分析數(shù)據(jù)的方法分為兩大類:
描述性數(shù)據(jù)方法??傮w規(guī)模、對比關(guān)系、集中趨勢、離散程度、偏態(tài)、 峰態(tài)、......
推斷性數(shù)據(jù)分析方法。估計、假設(shè)檢驗、列聯(lián)分析、方差分析、相關(guān)分析、 回歸分析、......
統(tǒng)計學(xué)的對象是數(shù)據(jù)
數(shù)據(jù)有兩種形式:數(shù)字和文字。
如何區(qū)分文字和數(shù)字:是否可以運算。
將數(shù)據(jù)按照計量尺度不同分
分類型數(shù)據(jù):數(shù)據(jù)表現(xiàn)為類別,文字型數(shù)據(jù)。
順序型數(shù)據(jù):數(shù)據(jù)表現(xiàn)為類別,文字型數(shù)據(jù)。
數(shù)值型數(shù)據(jù):結(jié)果表現(xiàn)為具體的數(shù)字。
分類型和順序型數(shù)據(jù)稱為:定性數(shù)據(jù)。
數(shù)值型數(shù)據(jù)稱為:定量數(shù)據(jù)。
注意:區(qū)間是數(shù)值型數(shù)據(jù)(分組的數(shù)值型數(shù)據(jù))。
不同類型數(shù)據(jù)見可以轉(zhuǎn)換(高級=》低級,反之不行)。數(shù)據(jù)抓取時,盡量抓取高級數(shù)據(jù)。
重要規(guī)律:低級數(shù)據(jù)的方法高級數(shù)據(jù)可以用,但高級數(shù)據(jù)的方法低級數(shù)據(jù)不可以用。
總體和樣本
(1)總體(population) 指研究的所有元素的集合。其中每個元素稱為個體。
(2)樣本 (sample) 從總體中抽取的一部分元素的集合。構(gòu)成樣本的元素的數(shù)目稱為樣本容量。
樣本推斷總體
參數(shù)和統(tǒng)計量
(1)參數(shù)(parameter) 指研究者想要了解的總體的某種特征值 主要有總體均值、標(biāo)準(zhǔn)差、總體比例等。
(2)統(tǒng)計量(statistic) 指根據(jù)樣本數(shù)據(jù)計算出來的一個量,即樣本的某個特征值; 常見的統(tǒng)計量有樣本均值、樣本標(biāo)準(zhǔn)差(s)、樣本 比例(p)等。
變量
指描述事物某種特征的概念,如商品銷售額、受教育 程度、產(chǎn)品的質(zhì)量等級等。
變量與數(shù)據(jù)的關(guān)系:變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)。
變量的分類:根據(jù)變量的數(shù)據(jù)計量尺度不同來分:
A.分類變量(categorical variable) :說明事物類別的一個名稱
B.順序變量(rank variable) :說明事物有序類別的一個名稱
C.數(shù)值型變量(metric variable) :說明事物數(shù)字特征的一個名稱
方法都是人提出來的
描述統(tǒng)計
五個角度:
一.總體規(guī)模的描述——總量指標(biāo)
1.總量指標(biāo):反映在一定時間.空間條件下某種現(xiàn)象 的總體規(guī)模、總水平或總成果的統(tǒng)計指標(biāo)。
2.分類
? 按內(nèi)容分:單位總量指標(biāo)(人、物、…)、標(biāo)志總量指標(biāo) (營業(yè)額、利潤、…)
? 按時間不同分:時期指標(biāo)、時點指標(biāo)
? 按計量不同分:實物指標(biāo)、價值指標(biāo)、勞動量指標(biāo)
二.對比關(guān)系的描述——相對指標(biāo)
1.相對指標(biāo):又稱“相對數(shù)”,是兩個有相互聯(lián)系的指標(biāo)數(shù)值 之比。
2.常用相對指標(biāo)的計算
計劃完成程度相對指標(biāo):實際完成/計劃完成
結(jié)構(gòu)相對指標(biāo):部分/總體
比例相對指標(biāo):一部分/另一部分
比較相對指標(biāo):A的指標(biāo)/B的相同指標(biāo)
強度相對指標(biāo):某總量指標(biāo)/另一性質(zhì)不同但關(guān)聯(lián)的總量指標(biāo)
動態(tài)相對指標(biāo):報告期/基期
三.集中趨勢的描述——平均指標(biāo)
1.定義:一組數(shù)據(jù)向其中心值靠攏的趨勢
2.測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值
(一)眾數(shù)(mode)
1.定義:出現(xiàn)次數(shù)最多的變量值
2.表示的符號:Mo
3.計算:尋找數(shù)據(jù)中出現(xiàn)次數(shù)最多的值。
(二)分位數(shù)(是一類指標(biāo))
【分位數(shù):是指根據(jù)對數(shù)據(jù)位置進行劃分,處于某些 特定位置上的數(shù)。常用的分位數(shù)有二分位數(shù)(也叫“中 位數(shù)”)、四分位數(shù)、十分位數(shù)、百分位數(shù)等,這里重 點講中位數(shù)和四分位數(shù)?!?/p>
1.中位數(shù) (median)
定義:數(shù)據(jù)排序后,處于中間位置上的值;
表示的符號:Me
2.四分位數(shù)(quartile)
定義:四分位數(shù)分下四分位數(shù)和上四分位數(shù)兩種, 指排序后處于25%和75%位置上的值。
表示的符號:下四分位數(shù)Ql ,上四分位數(shù)Qu
計算:數(shù)據(jù)的個數(shù)為n,則下四分位數(shù) 的位置:n/4;上四分位數(shù) 的位置:3n/4
三.數(shù)值型數(shù)據(jù):均值(mean)
算術(shù)平均數(shù)
定義:數(shù)據(jù)的和與數(shù)據(jù)個數(shù)之比。
表示的符號:xbar
特點:A.易受極端值的影響,受max的影響>受min的影響。B.各變量值與均值的離差之和等于零。C.各變量值與均值的離差平方和最小。
調(diào)和平均數(shù)
定義:變量值倒數(shù)的算術(shù)平均數(shù)的倒數(shù)。
表示的符號:H
特點:A.易受極端值的影響,受min的影響>受max的影響 。B.調(diào)和平均數(shù)總小于算術(shù)平均數(shù) 。C.常用于效率數(shù)據(jù)的研究。 D.均值的另一種表現(xiàn)形式。 E.有一項為0就無法計算H
幾何平均數(shù)
定義:n個變量值乘積的 n 次方根
表示的符號:G
特點:A.易受極端值的影響,但受極端值的影響比算術(shù)平均數(shù)和調(diào)和平均數(shù)要小.。B.適用于對比率數(shù)據(jù)的平均,主要用于計算平均增長率。 C.可看作是均值的一種變形 。D.有一項為0就無法計算H
冪平均數(shù)
是所有平均數(shù)的通式
當(dāng)k=1 時,是算術(shù)平均數(shù); 當(dāng)k=-1 時,是調(diào)和平均數(shù); 當(dāng)k=0 時,是幾何平均數(shù)。
四.離散程度的描述——變異指標(biāo)
離散程度
定義:反映各變量值遠(yuǎn)離其中心值的程度,是數(shù)據(jù)分布的另一個重要特征。
從另一個側(cè)面說明了集中趨勢測度值的代表程度。
1.極差 (range)
定義:一組數(shù)據(jù)的最大值與最小值之差;
表示的符號: R
特點: ①離散程度的最簡單測度值 ②極易受極端值影響 ③未考慮數(shù)據(jù)的分布
2.平均差(mean deviation)
定義:各變量值與其均值離差絕對值的平均數(shù);
表示的符號:Md
特點: ①能全面反映一組數(shù)據(jù)的離散程度: 越大,表示 數(shù)據(jù)越分散。 ②數(shù)學(xué)性質(zhì)較差,實際中應(yīng)用較少
3.方差和標(biāo)準(zhǔn)差(variance and standard deviation)
統(tǒng)計學(xué)中出現(xiàn)抵消就平方
方差和標(biāo)準(zhǔn)差分兩種:根據(jù)總體數(shù)據(jù)計算的, 稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計算的, 稱為樣本方差或標(biāo)準(zhǔn)差(simple variance and standard deviation)。
定義:變量值與其算術(shù)平均數(shù)的離差的平方的 算術(shù)平均數(shù);
自由度:樣本數(shù)據(jù)自由度=n-約束條件的個數(shù)(不等價的),xbar的出現(xiàn)總會減少一個自由度。
特點: ①數(shù)據(jù)離散程度的最常用測度值 ②反映了各變量值與均值的平均差異:方差或標(biāo)準(zhǔn) 差越大,表示變量值與均值的平均差異越大
4.相對離散程度:離散系數(shù) (coefficient of variation)
定義:又稱“變異系數(shù)”,是標(biāo)準(zhǔn)差與均值之比。
表示的符號:Vs
特點: ①是對數(shù)據(jù)相對離散程度的測度; ②消除了數(shù)據(jù)水平不同和數(shù)據(jù)計量單位不同對數(shù)據(jù)離散程度 的影響; ③常用于對不同組別數(shù)據(jù)離散程度的比較。
五.分布形態(tài)的描述——偏態(tài)與峰態(tài)
一.偏態(tài)(skewness)
定義:是指數(shù)據(jù)分布偏斜程度。 由統(tǒng)計學(xué)家K Pearson于1895年首次提出。
測量方法:使用偏態(tài)系數(shù)來測度數(shù)據(jù)的偏態(tài)。偏 態(tài)系數(shù)用符號SK表示。
偏態(tài)的判斷: ①是否存在:SK=0對稱分布;SK>0右偏分布; SK<0左偏分布
偏態(tài)對眾數(shù)、中位數(shù)和均值之間關(guān)系的影響
對稱分布:均值=中位數(shù)=眾數(shù) 左偏分布:均值<中位數(shù)<眾數(shù) 右偏分布:眾數(shù)<中位數(shù)<均值
眾數(shù):數(shù)據(jù)分布偏斜程度較大時應(yīng)用 中位數(shù):數(shù)據(jù)分布偏斜程度較大時應(yīng)用 均值:數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用
二.峰態(tài)(kurtosis)
定義:是指數(shù)據(jù)分布的扁平程度。 由統(tǒng)計學(xué)家Pearson于1905年首次提出。
測量方法:使用峰態(tài)系數(shù)來測度數(shù)據(jù)的偏態(tài)。 峰態(tài)系數(shù)用符號K表示。
峰態(tài)的判斷:
是否存在:K=0扁平峰度適中; K> 0尖峰分布; K< 0扁平分布。
常用的分布
1.兩點分布與二項分布
2.正態(tài)分布
3.標(biāo)準(zhǔn)正態(tài)分布
4. χ2分布 (相互獨立標(biāo)準(zhǔn)正態(tài)分布的平方和)
5.t分布 (t分布實際上是正態(tài)分布小時候的樣子矮一點胖一點,n就是年齡,隨著n增大逐漸變高變瘦,最終變成正態(tài)分布),最后只用t分布,不用正態(tài)分布。
6.F分布
正態(tài)分布是一個神奇的分布(任何分布任何統(tǒng)計量隨著其自由度或樣本量的增大,其最終都符合正態(tài)分布),正態(tài)分布是所有分布的最終分布。
總結(jié)








暫無數(shù)據(jù)