
R語言之隨機數(shù)與抽樣模擬篇
R語言生成均勻分布隨機數(shù)的函數(shù)是runif()
句法是:runif(n,min=0,max=1) n表示生成的隨機數(shù)數(shù)量,min表示均勻分布的下限,max表示均勻分布的上限;若省略參數(shù)min、max,則默認生成[0,1]上的均勻分布隨機數(shù)。
例1:
> runif(5,0,1) # 生成5個[0,1]的均勻分布的隨機數(shù)
[1] 0.5993 0.7391 0.2617 0.5077 0.7199
> runif(5) # 默認生成5個[0,1]上的均勻分布隨機數(shù)
[1] 0.2784 0.7755 0.4107 0.8392 0.7455
例2
隨機產(chǎn)生100個均勻分布隨機數(shù),作其概率直方圖,再添加均勻分布的密度函數(shù)線,程序如下:
> x=runif(100)
> hist(x,prob=T,col=gray(.9),main="uniform on [0,1]")
> curve(dunif(x,0,1),add=T) #添加均勻分布的密度函數(shù)線
3.1.2 正態(tài)分布隨機數(shù)
正態(tài)分布隨機數(shù)的生成函數(shù)是 rnorm()
句法是:rnorm(n,mean=0,sd=1) 其中n表示生成的隨機數(shù)數(shù)量,mean是正態(tài)分布的均值,默認為0,sd是正態(tài)分布的標準差,默認時為1;
例:
隨機產(chǎn)生100個正態(tài)分布隨機數(shù),作其概率直方圖,再添加正態(tài)分布的密度函數(shù)線
> x=rnorm(100)
> hist(x,prob=T,main="normal mu=0,sigma=1")
> curve(dnorm(x),add=T)
3.1.3 二項分布隨機數(shù)
二項分布是指n次獨立重復(fù)貝努力試驗成功的次數(shù)的分布,每次貝努力試驗的結(jié)果只有兩個,成功和失敗,記成功的概率為p
生成二項分布隨機數(shù)的函數(shù)是:rbinom()
句法是:rbinom(n,size,prob) n表示生成的隨機數(shù)數(shù)量,size表示進行貝努力試驗的次數(shù),prob表示一次貝努力試驗成功的概率
例:
產(chǎn)生100個n為10,15,50,概率p為0.25的二項分布隨機數(shù):
> par(mfrow=c(1,3))
> p=0.25
> for( n in c(10,20,50))
{ x=rbinom(100,n,p)
hist(x,prob=T,main=paste("n =",n))
xvals=0:n
points(xvals,dbinom(xvals,n,p),type="h",lwd=3)
}
> par(mfrow=c(1,1))
3.1.4 指數(shù)分布隨機數(shù)
R生成指數(shù)分布隨機數(shù)的函數(shù)是:rexp()
其句法是:rexp(n,lamda=1) n表示生成的隨機數(shù)個數(shù),lamda=1/mean
例:
>x=rexp(100,1/10) # 生成100個均值為10的指數(shù)分布隨機數(shù)
>hist(x,prob=T,col=gray(0.9),main=“均值為10的指數(shù)分布隨機數(shù)”)
>curve(dexp(x,1/10),add=T) #添加指數(shù)分布密度線
3.1.5 常見的分布函數(shù)
產(chǎn)生分布的隨機數(shù),只需要在相應(yīng)的分布前加r就行
表 3-1 常見分布函數(shù)表
分布 中文名稱 R中的表達 參數(shù)
Beta 貝塔分布 beta(a,b) shape1, shape2
Binomial 二項分布 binom(n,p) size, prob
Cauchy 柯西分布 cauchy( ) location, scale Chi-square 卡方分布 chisq(df)
df Exponential 指數(shù)分布 exp(lamda) rate F F分布 f(df1,df2) df1
df2
Gamma 伽瑪分布 gamma() shape rate
Geometric 幾何分布 geom() prob Hypergeometric 超幾何分布 hyper() m,n,k
Logistic 邏輯分布 logis() location scale
Negative binomial 負二項分布 nbinom() size prob
Normal 正態(tài)分布 norm() mean, sd Multivariate normal 多元正態(tài)分布 mvnorm() mean,cov
Poisson 泊松分布 pois() lambda T t 分布 t() df
Uniform 均勻分布 unif() min, max Weibull 威布兒分布 weibull() shape, scale
Wilcoxon 威爾考可森分布 wilcox() m, n
表 3-2 與分布相關(guān)的函數(shù)及代號
函數(shù)代號 函數(shù)作用
r- 生成相應(yīng)分布的隨機數(shù)
d- 生成相應(yīng)分布的密度函數(shù)
p- 生成相應(yīng)分布的累積概率密度函數(shù)
q- 生成相應(yīng)分布的分位數(shù)函數(shù)
例:
dnorm表示正態(tài)分布密度函數(shù)
pnorm表示正態(tài)分布累積概率密度函數(shù)
qnorm表示正態(tài)分布分位數(shù)函數(shù)(即正態(tài)累積概率密度函數(shù)的逆函數(shù))
3.2 隨機抽樣
3.2.1 放回與無放回抽樣
R可以進行有放回、無放回抽樣
sample()函數(shù)即可以實現(xiàn)
句法為:sample(x,n,replace=F,prob=NULL)
3.3 統(tǒng)計模擬
3.3.1 幾種常見的模擬方法
1 中心極限定理:
3 用函數(shù)進行模擬
指定模擬次數(shù)m=100,樣本量n=10,概率=0.25,如果要改變這些參數(shù)來重新進行模擬將會很麻煩,下面將展示如何將上面的程序形成一個模擬函數(shù)再進行模擬。
> sim.clt <- function (m=100,n=10,p=0.25)
{ z = rbinom(m,n,p)
x = (z-n*p)/sqrt(n*p*(1-p))
hist(x,prob=T,breaks=20,main=paste("n =",n,”p =”,p))
curve(dnorm(x),add=T)
}
> sim.clt() # 默認 m=100,n=10,p=0.25
> sim.clt(1000) # 取 m=1000,n=10,p=0.25
> sim.clt(1000,30) # 取 m=1000,n=30,p=0.25
> sim.clt(1000,30,0.5) # 取 m=1000,n=30,p=0.5
4 正態(tài)概率模擬
能比直方圖更好判定隨機數(shù)是否近似服從正態(tài)分布的是正態(tài)概率圖。
其基本思想是:作實際數(shù)據(jù)的分位數(shù)與正態(tài)分布數(shù)據(jù)的分位數(shù)的散點圖,也就是作樣本分位數(shù)與理論分位數(shù)的散點圖。
3.3.2 模擬函數(shù)的建立方法
若每次模擬都要編寫一個循環(huán),非常麻煩.
sim.fun()就是專門用來解決這類問題的
只需要編寫一個用來生成隨機數(shù)的函數(shù),剩下的工作就交給sim.fun來完成
sim.fun <-function (m,f,...) # m 模擬樣本次數(shù),f需模擬的函數(shù)
{
sample <-1:m
for (i in 1:m) {
sample[i] <-f(...)
}
sample
}
例:
二項分布:
先編寫一個函數(shù)用來生成一個二項分布隨機的標準化值
>f<-function(n=10,p=0.5){s=rbinom(1,n,p);(s-n*p)/sqrt(n*p*(1-p)) }
> x=sim.fun(1000,f) # 模擬1000個二項隨機數(shù)
> hist(x,prob=T)
均勻分布來模擬中心極限定理:
> f = function(n=10) (mean(runif(n)-1/2)/(1/sqrt(12*n))
> x=sim.fun(1000,f) # 模擬1000個均勻隨機數(shù)
> hist(x,prob=T)
>f=function(n=10,mu=0,sigma=1){r=rnorm(n,mu,sigma);(mean(r)-m
u)/(sigma/sqrt(n)) }
> x = sim.fun(1000,f) #模擬1000個樣本量為10的N(0,1)隨機數(shù)
> hist(x,breaks=10,prob=T)
> x = sim.fun(1000,f,30,5,2) # 模擬1000個樣本量為30的N(5,4)隨機數(shù)
> hist(x,breaks=10,prob=T)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03