
R語言中的概率論和數(shù)理統(tǒng)計(jì)
一、隨機(jī)變量
(一)、什么是隨機(jī)變量?
1.定義
隨機(jī)變量(random variable)表示隨機(jī)現(xiàn)象各種結(jié)果的實(shí)值函數(shù)。隨機(jī)變量是定義在樣本空間S上,取值在實(shí)數(shù)域上的函數(shù),由于它的自變量是隨機(jī)試驗(yàn)的結(jié)果,而隨機(jī)實(shí)驗(yàn)結(jié)果的出現(xiàn)具有隨機(jī)性,因此,隨機(jī)變量的取值具有一定的隨機(jī)性。
2.R程序:生成一個(gè)在(0,1,2,3,4,5)的隨機(jī)變量
> S<-1:5
> sample(S,1)
[1] 2
> sample(S,1)
[1] 3
> sample(S,4)
[1] 3 5 4 1
#sample(x=x,size=5,replace=T),其中size指定抽樣的次數(shù),“replace”就是重復(fù)的意思。即可以重復(fù)對(duì)元素進(jìn)行抽樣,也就是所謂的有放回抽樣。
(二)、離散型隨機(jī)變量
1.定義
如果隨機(jī)變量X的全部可能的取值只有有限多個(gè)或可列無窮多個(gè),則稱X為離散型隨機(jī)變量。
2.R程序:生成樣本空間為(1,2,3)的隨機(jī)變量X,X的取值是有限的
> S<-1:3
> X<-sample(S,1);X
[1] 2
(三)、連續(xù)型隨機(jī)變量
1.定義
隨機(jī)變量X,取值可以在某個(gè)區(qū)間內(nèi)取任一實(shí)數(shù),即變量的取值可以是連續(xù)的,這隨機(jī)變量就稱為連續(xù)型隨機(jī)變量
2.定義R程序:生成樣本在空間(0,1)的連續(xù)隨機(jī)函數(shù),取10個(gè)值
> runif(10,0,1)
[1] 0.3819569 0.7609549 0.6692581 0.6314708 0.5552201 0.8225527 0.7633086 0.4667188 0.1883553
[10] 0.> runif(10,0,1)
[1] 0.3819569 0.7609549 0.6692581 0.6314708 0.5552201 0.8225527 0.7633086 0.4667188 0.1883553
[10] 0.3741653
#1.runif(n,min=0,max=1)函數(shù)的規(guī)則:
n表示生成的隨機(jī)數(shù)數(shù)量,min表示均勻分布的下限,max表示均勻分布的上限;若省略參數(shù)min、max,則默認(rèn)生成[0,1]上的均勻分布隨機(jī)數(shù)。
(一)、數(shù)學(xué)期望(mathematical expectation)
1.離散型隨機(jī)變量:一切可能的取值xi與對(duì)應(yīng)的概率Pi(=xi)之積的和稱為該離散型隨機(jī)變量的數(shù)學(xué)期望,記為E(x)。數(shù)學(xué)期望是最基本的數(shù)學(xué)特征之一。它反映隨機(jī)變量平均取值的大小。
R程序:計(jì)算樣本(1,2,3,7,21)的數(shù)學(xué)期望
> S<-c(1,2,3,7,21)
> mean(S)
[1] 6.8
2.連續(xù)型隨機(jī)變量:若隨機(jī)變量X的分布函數(shù)F(x)可表示成一個(gè)非負(fù)可積函數(shù)f(x)的積分,則稱X為連續(xù)性隨機(jī)變量,f(x)稱為X的概率密度函數(shù),積分值為X的數(shù)學(xué)期望,記為E(X)。
(二)、方差(Variance)
方差是各個(gè)數(shù)據(jù)與平均數(shù)之差的平方的平均數(shù)。在概率論和數(shù)理統(tǒng)計(jì)中,方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。
設(shè)X為隨機(jī)變量,如果E{[X-E(X)]^2}存在,則稱E{[X-E(X)]^2}為X的方差,記為Var(X)。
R程序:計(jì)算樣本(1,2,3,7,21)的方差
> S<-c(1,2,3,7,21)
> var(S)
[1] 68.2
(三)、標(biāo)準(zhǔn)差(Standard Deviation)
標(biāo)準(zhǔn)差是方差的算術(shù)平方根sqrt(var(X))。標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的,標(biāo)準(zhǔn)差未必相同。
R程序:計(jì)算樣本(1,2,3,7,21)標(biāo)準(zhǔn)差
> S<-c(1,2,3,7,21)
> sd(S)
[1] 8.258329
(四)、各種分布的期望和方差
離散型分布:兩點(diǎn)分布,二項(xiàng)分布,泊松分布等
連續(xù)型分布:均勻分布,指數(shù)分布,正態(tài)分布,伽馬分布等
對(duì)于某一特定場景,其所符合的分布規(guī)律一般先驗(yàn)給出
(五)、常用統(tǒng)計(jì)量
1.眾數(shù)(Mode):
一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,叫眾數(shù),有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。
R程序:計(jì)算樣本(1,2,3,3,3,7,7,7,7,9,10,21)的眾數(shù)
> S<-c(1,2,3,3,3,7,7,7,7,9,10,21)
> names(which.max(table(S)))
[1] "7"
#table()的輸出可以看成是一個(gè)帶名字的數(shù)字向量??梢杂胣ames()和as.numeric()分別得到名稱和頻數(shù)
> x <- sample(c("a", "b", "c"), 100, replace=TRUE)
> names(table(x))
[1] "a" "b" "c"
> as.numeric(table(x))
[1] 42 25 33
也可以直接把輸出結(jié)果轉(zhuǎn)化為數(shù)據(jù)框,as.data.frame():
> as.data.frame(table(x))
x Freq
1 a 42
2 b 25
3 c 33
> table(S)
S
1 2 3 7 9 10 21
1 1 3 4 1 1 1
2.最小值(minimum):
在給定情形下可以達(dá)到的最小數(shù)量或最小數(shù)值
3.最大值(maximum):
在給定情形下可以達(dá)到的最大數(shù)量或最大數(shù)值
4.中位數(shù)(Medians):
是指將統(tǒng)計(jì)總體當(dāng)中的各個(gè)變量值按大小順序排列起來,形成一個(gè)數(shù)列,處于變量數(shù)列中間位置的變量值就稱為中位數(shù)
5.四分位數(shù)(Quartile):
用于描述任何類型的數(shù)據(jù),尤其是偏態(tài)數(shù)據(jù)的離散程度,即將全部數(shù)據(jù)從小到大排列,正好排列在上1/4位置叫上四分位數(shù),下1/4位置上的數(shù)就叫做下四分位數(shù)
R程序:計(jì)算樣本(1,2,3,4,5,6,7,8,9)的四分位數(shù)
> S<-c(1,2,3,4,5,6,7,8,9)
> quantile(S)
0% 25% 50% 75% 100%
1 3 5 7 9
> fivenum(S)
[1] 1 3 5 7 9
6.通用的計(jì)算統(tǒng)計(jì)函數(shù):
R程序:計(jì)算樣本(1,2,3,4,5,6,7,8,9)的統(tǒng)計(jì)函數(shù)
> S<-c(1,2,3,4,5,6,7,8,9)
> summary(S)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1 3 5 5 7 9
(六)、協(xié)方差(Covariance)
協(xié)方差用于衡量兩個(gè)變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當(dāng)兩個(gè)變量是相同的情況。設(shè)X,Y為兩個(gè)隨機(jī)變量,稱E{[X-E(X)][Y-E(Y)]}為X和Y的協(xié)方差,記錄Cov(X,Y)。
R程序:計(jì)算X(1,2,3,4)和Y(5,6,7,8)的協(xié)方差
> X<-c(1,2,3,4)
> Y<-c(5,6,7,8)
> cov(X,Y)
[1] 1.666667
(七)、相關(guān)系數(shù)(Correlation coefficient)
相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。相關(guān)系數(shù)是按積差方法計(jì)算,同樣以兩變量與各自平均值的離差為基礎(chǔ),通過兩個(gè)離差相乘來反映兩變量之間相關(guān)程度。當(dāng)Var(X)>0, Var(Y)>0時(shí),稱Cov(X,Y)/sqrt(Var(X)*Var(Y))為X與Y的相關(guān)系數(shù)。
R程序:計(jì)算X(1,2,3,4)和Y(5,7,8,9)的相關(guān)系數(shù)
> X<-c(1,2,3,4)
> Y<-c(5,7,8,9)
> cor(X,Y)
[1] 0.9827076
八)、矩
1.原點(diǎn)矩(moment about origin)
2.中心矩(moment about centre)
均值和方差分別就是一階原點(diǎn)矩和二階中心矩,具體定義和概念,可詳見陳希孺《概率論與數(shù)理統(tǒng)計(jì)》P132-133
3.偏度(skewness):
是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征。設(shè)分布函數(shù)F(x)有中心矩μ2=E(X ?E(X))^2, μ3 = E(X ?E(X))^3,則Cs=μ3/μ2^(3/2)為偏度系數(shù)。
當(dāng)Cs>0時(shí),概率分布偏向均值右則,Cs<0時(shí),概率分布偏向均值左則。 R語言:計(jì)算10000個(gè)正態(tài)分布的樣本的偏度
> library(PerformanceAnalytics)
> S<-rnorm(10000)
> skewness(S)
[1] -0.00178084
> hist(S,breaks=100)
#hist() 函數(shù):繪制直方圖
4.峰度(kurtosis): 又稱峰態(tài)系數(shù)。
表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。峰度刻劃不同類型的分布的集中和分散程序。設(shè)分布函數(shù)F(x)有中心矩μ2=E(X ?E(X))^2, μ4=E(X ?E(X))^4,則Ck=μ4/(u2^2-3)為峰度系數(shù)。
R語言:計(jì)算10000個(gè)正態(tài)分布的樣本的峰度,(同偏度的樣本數(shù)據(jù))
> library(PerformanceAnalytics)
> kurtosis(S)
[1] -0.02443549
> hist(S,breaks=100)
(九)、協(xié)方差矩陣(covariance matrix)
可以理解成不同維度上的協(xié)方差
> x=as.data.frame(matrix(rnorm(10),ncol=2))
> x
V1 V2
1 -2.11315384 -2.55189840
2 -0.96631271 -1.36148355
3 -0.02835058 -0.82328774
4 -1.86669567 -0.07201353
5 0.27324957 -2.23835218
> var(x)
V1 V2
V1 1.13470650 -0.09292042
V2 -0.09292042 1.03172261
> cov(x)
V1 V2
V1 1.13470650 -0.09292042
V2 -0.09292042 1.03172261
三、極限定理
引言:
我們知道,隨機(jī)現(xiàn)象的統(tǒng)計(jì)性規(guī)律是在相同條件下進(jìn)行大量重復(fù)試驗(yàn)時(shí)呈現(xiàn)出來的,常見的兩種統(tǒng)計(jì)規(guī)律性為:
頻率的穩(wěn)定性,即在大量重復(fù)試驗(yàn)中,事件發(fā)生的頻率總是在它的概率附近擺動(dòng),且隨著試驗(yàn)次數(shù)的增多,該頻率總是越來越明顯地穩(wěn)定在其概率附近;
平均值的穩(wěn)定性,即在多次重復(fù)測量中,測量平均值總是在它的真實(shí)值附近擺動(dòng),且隨著測量次數(shù)的增加,測量平均值總是越來越明顯地穩(wěn)定在其真實(shí)值附近。
對(duì)以上兩種規(guī)律,人們不僅研究觀測值趨向于哪個(gè)穩(wěn)定值,而且還分析了觀測值在穩(wěn)定值周圍的擺動(dòng)形式(分布情況)。
針對(duì)觀測值趨向于哪個(gè)穩(wěn)定值,用數(shù)學(xué)語言及理論來分析研究,就引出了大數(shù)定律。其中關(guān)于頻率穩(wěn)定性的大數(shù)定律稱為伯努利大數(shù)定律,關(guān)于均值穩(wěn)定性的大數(shù)定律稱為辛欽大數(shù)定律。
針對(duì)觀測值在穩(wěn)定值周圍的擺動(dòng)形式,用數(shù)學(xué)理論進(jìn)行研究,就得出了中心極限定理.所謂的中心極限定理,就是把和的分布收斂于正態(tài)分布的那些定理的一個(gè)統(tǒng)稱。
注 在概率論中,“定律”與“定理”是一樣的意思.“定理”一般用于指那些能用數(shù)學(xué)工具嚴(yán)格證明的結(jié)論;而“定律”是指人們通過觀察分析得出來一種經(jīng)驗(yàn)結(jié)論,如牛頓三大定律,熱力學(xué)定律等.因?yàn)楦怕收撝械摹按髷?shù)定律”不僅是在實(shí)踐中總結(jié)出來的經(jīng)驗(yàn)結(jié)論,而且也可以用數(shù)學(xué)工具嚴(yán)格地去證明,所以叫“大數(shù)定律”或叫“大數(shù)定理”都可以。
(一)、大數(shù)定理
R語言:假設(shè)投硬幣,正面概率是0.5,投4次時(shí),計(jì)算得到2次正面的概率?根據(jù)大數(shù)定律,如果投是10000次,計(jì)算5000次正面的概率?
#計(jì)算2次正面的的概率
> choose(4,2)/2^4 #choose組合數(shù)的計(jì)算:從4中選擇2個(gè)
[1] 0.375
#計(jì)算5000次正面的的概率
> pbinom(5000, 10000, 0.5)
[1] 0.5039893
#pbinom二向分布,5000為分位數(shù),產(chǎn)生10000個(gè)隨機(jī)數(shù),每個(gè)概率0.5
(二)、中心極限定理(central limit theorem)
中心極限定理是概率論中的一組定理。中心極限定理說明,大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。
1.林德伯格-列維(Lindburg-Levy)
是棣莫佛-拉普拉斯定理的擴(kuò)展,討論獨(dú)立同分布隨機(jī)變量序列的中央極限定理。它表明,獨(dú)立同分布、且數(shù)學(xué)期望和方差有限的隨機(jī)變量序列的標(biāo)準(zhǔn)化和以標(biāo)準(zhǔn)正態(tài)分布為極限:
棣莫佛-拉普拉斯(de Moivre - Laplace)定理是中央極限定理的最初版本,討論了服從二項(xiàng)分布的隨機(jī)變量序列。它指出,參數(shù)為n, p的二項(xiàng)分布以nρ為均值、nρ(1-ρ)為方差的正態(tài)分布為極限。
R語言:中心極限定理模擬,從指數(shù)分布到正態(tài)分布
if (!require(animation)) install.packages("animation")
library(animation)
ani.options(interval = 0.1, nmax = 100)
par(mar = c(4, 4, 1, 0.5))
clt.ani()
#
1.library和require都可以載入包,但二者存在區(qū)別。在一個(gè)函數(shù)中,如果一個(gè)包不存在,執(zhí)行到library將會(huì)停止執(zhí)行,require則會(huì)繼續(xù)執(zhí)行。
require將會(huì)根據(jù)包的存在與否返回true或者false。
2.interval:a positive number to set the time interval of the animation (unit in seconds); default to be 1.
3.nmax:maximum number of steps in a loop (e.g. iterations) to create
animation frames. Note: the actual number of frames can be less than
this number, depending on specific animations. Default to be 50.
4.mar設(shè)置圖形空白邊界行數(shù),mar = c(bottom, left, top, right)
5.clt.ani:Demonstration of the Central Limit Theorem
6.shapiro.test檢驗(yàn),P值大于0.05說明數(shù)據(jù)正態(tài)分布
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03