
R語(yǔ)言數(shù)據(jù)分組統(tǒng)計(jì)函數(shù)族—apply族用法與心得
apply族功能強(qiáng)大,實(shí)用,可以代替很多循環(huán)語(yǔ)句,R語(yǔ)言中不要輕易使用循環(huán)語(yǔ)句。
apply
Apply Functions Over Array Margins
對(duì)陣列行或者列使用函數(shù)
apply(X, MARGIN, FUN, ...)
lapply
Apply a Function over a List or Vector
對(duì)列表或者向量使用函數(shù)
lapply(X, FUN, ...)
sapply
Apply a Function over a List or Vector
對(duì)列表或者向量使用函數(shù)
sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)
vapply
Apply a Function over a List or Vector
對(duì)列表或者向量使用函數(shù)
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
tapply
Apply a Function Over a Ragged Array
對(duì)不規(guī)則陣列使用函數(shù)
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
eapply
Apply a Function Over Values in an Environment
對(duì)環(huán)境中的值使用函數(shù)
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
mapply
Apply a Function to Multiple List or Vector Arguments
對(duì)多個(gè)列表或者向量參數(shù)使用函數(shù)
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRUE)
rapply
Recursively Apply a Function to a List
運(yùn)用函數(shù)遞歸產(chǎn)生列表
rapply(object, f, classes = "ANY", deflt = NULL,how = c("unlist", "replace", "list"), ...)
1、apply函數(shù)
對(duì)一個(gè)數(shù)組按行或者按列進(jìn)行計(jì)算,矩陣縱、橫運(yùn)算(sum,average等)
其中apply中,1等于行,2等于列
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
> ma
[,1] [,2] [,3] [,4]
[1,] 1 3 1 7
[2,] 2 4 6 8
> apply(ma, c(1,2), sum)
[,1] [,2] [,3] [,4]
[1,] 1 3 1 7
[2,] 2 4 6 8
> apply(ma, 1, sum)
[1] 12 20
> apply(ma, 2, sum)
[1] 3 7 7 15
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> tapply(1:17, fac, sum, simplify = FALSE)
$`1`
[1] 51
$`2`
[1] 57
$`3`
[1] 45
$`4`
NULL
$`5`
NULL
> tapply(1:17, fac, range)
$`1`
[1] 1 16
$`2`
[1] 2 17
$`3`
[1] 3 15
$`4`
NULL
$`5`
NULL
2、tapply
(進(jìn)行分組統(tǒng)計(jì))
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
#把x在index分類(lèi)下進(jìn)行fun
#例:把x在因子分類(lèi)下,進(jìn)行匯總操作
fac <- factor(rep(1:3, length = 4), levels = 1:5)
fac
[1] 1 2 3 1
Levels: 1 2 3 4 5
tapply(1:4, fac, sum)
1 2 3 4 5
5 2 3 NA NA
#當(dāng)index不是因子時(shí),可以用as.factor()把參數(shù)強(qiáng)制轉(zhuǎn)換成因子
額外案例,實(shí)現(xiàn)excel中數(shù)據(jù)透視表的功能
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
#利用tapply實(shí)現(xiàn)類(lèi)似于excel里的數(shù)據(jù)透視表的功能:
> da
year province sale
1 2007 A 1
2 2007 B 2
3 2007 C 3
4 2007 D 4
5 2008 A 5
6 2008 C 6
7 2008 D 7
8 2009 B 8
9 2009 C 9
10 2009 D 10
> attach(da)
> tapply(sale,list(year,province)) #以sale為基,按照year,province的順序,排列
[1] 1 4 7 10 2 8 11 6 9 12
> tapply(sale,list(year,province),mean)
A B C D
2007 1 2 3 4
2008 5 NA 6 7
2009 NA 8 9 10
3、函數(shù)table(求因子出現(xiàn)的頻數(shù))
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
使用格式為:
table(..., exclude = if (useNA == "no") c(NA, NaN), useNA = c("no",
"ifany", "always"), dnn = list.names(...), deparse.level = 1)
其中參數(shù)exclude表示哪些因子不計(jì)算。
示例代碼:
> d <- factor(rep(c("A","B","C"), 10), levels=c("A","B","C","D","E"))
> d
[1] A B C A B C A B C A B C A B C A B C A B C A B C A B C A B C
Levels: A B C D E
> table(d, exclude="B")
d
A C D E
10 10 0 0
4、函數(shù)lapply與函數(shù)sapply
每一列數(shù)據(jù)采用同一種函數(shù)形式,比如求X變量得分位數(shù),比如求X變量的循環(huán)函數(shù)。
lapply的使用格式為:
lapply(X, FUN, ...)
lapply的返回值是和一個(gè)和X有相同的長(zhǎng)度的list對(duì)象,
這個(gè)list對(duì)象中的每個(gè)元素是將函數(shù)FUN應(yīng)用到X的每一個(gè)元素。
其中X為L(zhǎng)ist對(duì)象(該list的每個(gè)元素都是一個(gè)向量),
其他類(lèi)型的對(duì)象會(huì)被R通過(guò)函數(shù)as.list()自動(dòng)轉(zhuǎn)換為list類(lèi)型。
函數(shù)sapply是函數(shù)lapply的一個(gè)特殊情形,對(duì)一些參數(shù)的值進(jìn)行了一些限定,其使用格式為:
sapply(X, FUN,..., simplify = TRUE, USE.NAMES = TRUE)
sapply(*, simplify = FALSE, USE.NAMES = FALSE) 和lapply(*)的返回值是相同的。
如果參數(shù)simplify=TRUE,則函數(shù)sapply的返回值不是一個(gè)list,而是一個(gè)矩陣;
若simplify=FALSE,則函數(shù)sapply的返回值仍然是一個(gè)list。
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
x <- list(a = 1:10, beta = exp(-3:3), logic = c(TRUE,FALSE,FALSE,TRUE))
> lapply(x, quantile)
$a
0% 25% 50% 75% 100%
1.00 3.25 5.50 7.75 10.00
$beta
0% 25% 50% 75% 100%
0.04978707 0.25160736 1.00000000 5.05366896 20.08553692
$logic
0% 25% 50% 75% 100%
0.0 0.0 0.5 1.0 1.0
> sapply(x, quantile,simplify=FALSE,use.names=FALSE)
$a
0% 25% 50% 75% 100%
1.00 3.25 5.50 7.75 10.00
$beta
0% 25% 50% 75% 100%
0.04978707 0.25160736 1.00000000 5.05366896 20.08553692
$logic
0% 25% 50% 75% 100%
0.0 0.0 0.5 1.0 1.0
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
#參數(shù)simplify=TRUE的情況
> sapply(x, quantile)
a beta logic
0% 1.00 0.04978707 0.0
25% 3.25 0.25160736 0.0
50% 5.50 1.00000000 0.5
75% 7.75 5.05366896 1.0
100% 10.00 20.08553692 1.0
5、函數(shù)mapply
函數(shù)mapply是函數(shù)sapply的變形版,mapply 將函數(shù) FUN 依次應(yīng)用每一個(gè)參數(shù)的第一個(gè)元素、第二個(gè)元素、第三個(gè)元素上。函數(shù)mapply的使用格式如下:
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)
其中參數(shù)MoreArgs表示函數(shù)FUN的參數(shù)列表。
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> mapply(rep, times=1:4, x=4:1)
[[1]]
[1] 4
[[2]]
[1] 3 3
[[3]]
[1] 2 2 2
[[4]]
[1] 1 1 1 1
#直接使用函數(shù)rep的結(jié)果:
> rep(1:4,1:4)
[1] 1 2 2 3 3 3 4 4 4 4
6、vapply {base}——按變量進(jìn)行函數(shù)操作
vapply類(lèi)似于sapply函數(shù),但是它的返回值有預(yù)定義類(lèi)型,所以它使用起來(lái)會(huì)更加安全,有的時(shí)候會(huì)更快。
在vapply函數(shù)中總是會(huì)進(jìn)行簡(jiǎn)化,vapply會(huì)檢測(cè)FUN的所有值是否與FUN.VALUE兼容,
以使他們具有相同的長(zhǎng)度和類(lèi)型。類(lèi)型順序:邏輯、整型、實(shí)數(shù)、復(fù)數(shù)
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
X表示一個(gè)向量或者表達(dá)式對(duì)象,其余對(duì)象將被通過(guò)as.list強(qiáng)制轉(zhuǎn)換為list
simplify 邏輯值或者字符串,如果可以,結(jié)果應(yīng)該被簡(jiǎn)化為向量、矩陣或者高維數(shù)組。
必須是命名的,不能是簡(jiǎn)寫(xiě)。默認(rèn)值是TRUE,若合適將會(huì)返回一個(gè)向量或者矩陣。如果simplify=”array”,結(jié)果將返回一個(gè)陣列。
USE.NAMES 邏輯值,如果為T(mén)RUE,且x沒(méi)有被命名,則對(duì)x進(jìn)行命名。
FUN.VALUE 一個(gè)通用型向量,F(xiàn)UN函數(shù)返回值得模板。
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> x<-data.frame(a=rnorm(4,4,4),b=rnorm(4,5,3),c=rnorm(4,5,3))
> vapply(x,mean,c(c=0))
a b c
1.8329043 6.0442858 -0.1437202
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> k<-function(x)
+ {
+ list(mean(x),sd(x))
+ }
> vapply(x,k,c(c=0))
錯(cuò)誤于vapply(x, k, c(c = 0)) : 值的長(zhǎng)度必需為1,
但FUN(X[[1]])結(jié)果的長(zhǎng)度卻是2
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> vapply(x,k,c(c=0,b=0))
錯(cuò)誤于vapply(x, k, c(c = 0, b = 0)) : 值的種類(lèi)必需是'double',
但FUN(X[[1]])結(jié)果的種類(lèi)卻是'list'
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> vapply(x,k,c(list(c=0,b=0)))
a b c
c 1.832904 6.044286 -0.1437202
b 1.257834 1.940433 3.649194
sapply與vapply函數(shù)之間的區(qū)別:
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> i39 <- sapply(3:9, seq)
> i39
[[1]]
[1] 1 2 3
[[2]]
[1] 1 2 3 4
[[3]]
[1] 1 2 3 4 5
[[4]]
[1] 1 2 3 4 5 6
[[5]]
[1] 1 2 3 4 5 6 7
[[6]]
[1] 1 2 3 4 5 6 7 8
[[7]]
[1] 1 2 3 4 5 6 7 8 9
> sapply(i39, fivenum)
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 1.0 1.0 1 1.0 1.0 1.0 1
[2,] 1.5 1.5 2 2.0 2.5 2.5 3
[3,] 2.0 2.5 3 3.5 4.0 4.5 5
[4,] 2.5 3.5 4 5.0 5.5 6.5 7
[5,] 3.0 4.0 5 6.0 7.0 8.0 9
> vapply(i39, fivenum,
+ c(Min. = 0, "1st Qu." = 0, Median = 0, "3rd Qu." = 0, Max. = 0))
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
Min. 1.0 1.0 1 1.0 1.0 1.0 1
1st Qu. 1.5 1.5 2 2.0 2.5 2.5 3
Median 2.0 2.5 3 3.5 4.0 4.5 5
3rd Qu. 2.5 3.5 4 5.0 5.5 6.5 7
Max. 3.0 4.0 5 6.0 7.0 8.0 9
7、eapply {base}
eapply函數(shù)通過(guò)對(duì)environment中命名值進(jìn)行FUN計(jì)算后返回一個(gè)列表值,用戶(hù)可以請(qǐng)求所有使用過(guò)的命名對(duì)象。
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
env 將被使用的環(huán)境
all.names 邏輯值,指示是否對(duì)所有值使用該函數(shù)
USE.NAMES 邏輯值,指示返回的列表結(jié)果是否包含命名
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
> require(stats)
>
> env <- new.env(hash = FALSE) # so the order is fixed
> env$a <- 1:10
> env$beta <- exp(-3:3)
> env$logic <- c(TRUE, FALSE, FALSE, TRUE)
> # what have we there?
> utils::ls.str(env)
a : int [1:10] 1 2 3 4 5 6 7 8 9 10
beta : num [1:7] 0.0498 0.1353 0.3679 1 2.7183 ...
logic : logi [1:4] TRUE FALSE FALSE TRUE
>
> # compute the mean for each list element
> eapply(env, mean)
$logic
[1] 0.5
$beta
[1] 4.535125
$a
[1] 5.5
> unlist(eapply(env, mean, USE.NAMES = FALSE))
[1] 0.500000 4.535125 5.500000
>
> # median and quartiles for each element (making use of "..." passing):
> eapply(env, quantile, probs = 1:3/4)
$logic
25% 50% 75%
0.0 0.5 1.0
$beta
25% 50% 75%
0.2516074 1.0000000 5.0536690
$a
25% 50% 75%
3.25 5.50 7.75
> eapply(env, quantile)
$logic 數(shù)據(jù)分析師培訓(xùn)
0% 25% 50% 75% 100%
0.0 0.0 0.5 1.0 1.0
$beta
0% 25% 50% 75% 100%
0.04978707 0.25160736 1.00000000 5.05366896 20.08553692
$a
0% 25% 50% 75% 100%
1.00 3.25 5.50 7.75 10.00
8、rapply {base}
rapply是lapply的遞歸版本
rapply(X, FUN, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)
X 一個(gè)列表
classes 關(guān)于類(lèi)名的字符向量,或者為any時(shí)則匹配任何類(lèi)
deflt 默認(rèn)結(jié)果,如果使用了how=”replace”,則不能使用
how 字符串匹配三種可能結(jié)果
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03