
R語(yǔ)言實(shí)用小技巧
這篇文章介紹的是我平時(shí)寫(xiě)程序遇到的各種小問(wèn)題,以及解決他們的小技巧
1.R語(yǔ)言讀取EXCEL
用R語(yǔ)言讀取EXCEL時(shí),可以使用readxl包的read_excel函數(shù),不要使用xlsx這個(gè)包,因?yàn)閤lsx它要加載JAVA,很麻煩,而使用readxl不需要加載JAVA。
2.如何在R中構(gòu)造一個(gè)hash函數(shù)
這在R中或許有許多包能夠?qū)崿F(xiàn),但是,其實(shí)我們自己來(lái)實(shí)現(xiàn)也是很簡(jiǎn)單的,要知道environment的原理也是一個(gè)hash函數(shù),我們只需要利用environment,來(lái)負(fù)責(zé)存儲(chǔ)我們所需要的映射列表就可以了。接下來(lái)我們可以利用digest包的散列函數(shù)digest(),這個(gè)函數(shù)可以將任意的R對(duì)象映射為一個(gè)md5值,或者sha1等,他的md5值就是我們所需要的key,以下是使用例子:
有如下這樣的數(shù)據(jù)
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假設(shè)我想將x,y映射到z,將y,z映射為k,先定義兩個(gè)函數(shù),一個(gè)是SetKeyValue,負(fù)責(zé)設(shè)置key,value對(duì),第二個(gè)是GetValue,輸入一個(gè)key,返回key對(duì)應(yīng)的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}
hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}
這樣我們就得到了一個(gè)由environment構(gòu)造的hash函數(shù)了,我們可以這樣去得到值:
> GetValue(hash,df[1,1:2]) #得到當(dāng)x=1 y=2時(shí)的z值
[1] 3
當(dāng)然,如果想要更快的速度,可以使用fastdigest這個(gè)包,里面的散列函數(shù)比digest包要快,只需將digest()替換成fastdigest()就可以了。
3.如何用最快最簡(jiǎn)單的方法加快R的執(zhí)行速度?
答案是使用compiler包,這個(gè)包的作用就是將R代碼編譯成字節(jié)碼,這在很多情況下都能加快運(yùn)行的速度,當(dāng)然也會(huì)有一些時(shí)候作用沒(méi)有那么大,使用非常簡(jiǎn)單,以下是一個(gè)使用例子:
> library(microbenchmark)
> library(compiler)
> f1<-function(){
+ x=1:100
+ for(i in 1:100){
+ x[i]=x[i]+1
+ }
+ }
> f2<-function(){
+ x=1:100
+ x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+ f1(),
+ f2(),
+ f3(),
+ f4()
+ )
Unit: nanoseconds
expr min lq mean median uq max neval cld
f1() 170077 175453 178277.64 177652 179363 227746 100 c
f2() 978 1467 2028.94 1956 2444 5865 100 a
f3() 11730 12219 12873.79 12708 13196 20039 100 b
f4() 978 1466 1564.65 1467 1955 2933 100 a
可以看到編譯后的f3,f4跟編譯前的f1,f2,快了將近2倍到10倍,這么簡(jiǎn)單就能提升運(yùn)行速度,何樂(lè)而不為呢?
我寫(xiě)的一個(gè)小代碼,可以批量地把環(huán)境變量中所有的函數(shù)都編譯一次:
funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}
如何想要更快,可以參考Windows使用OpenBLAS加速R語(yǔ)言計(jì)算速度
4.如何讀取一個(gè)文件夾所有的文件?
我們可以利用list.files進(jìn)行匹配,通過(guò)其中參數(shù)pattern可以填寫(xiě)正則表達(dá)式,用來(lái)匹配文件夾下滿足條件的文件名。然后再利用lapply來(lái)導(dǎo)入文件。
filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")
datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})
5.如何把data.frame按照行來(lái)對(duì)應(yīng)生成列表
> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534
我想把這個(gè)data.frame變成一個(gè)list 并且i要與list中的序號(hào)對(duì)應(yīng)。
解決方法如下:
> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534
[[2]]
[1] 0.3721239
[[3]]
[1] 0.2655087
6.如何標(biāo)記每個(gè)組別中出現(xiàn)的次數(shù),他們出現(xiàn)的順序。
有這么個(gè)數(shù)據(jù):
> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1 1
2 1
3 2
4 2
5 3
6 3
7 3
現(xiàn)在想添加一列,標(biāo)記的id列,讓它變成:
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
可以利用data.table實(shí)現(xiàn):
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
7.R語(yǔ)言讀取SPSS格式文件
可以使用library(memisc)這個(gè)包,雖然foreign也能做到,但是有的時(shí)候格式會(huì)很混亂,而memisc就可以完美讀取。
8.R語(yǔ)言for循環(huán)的小貼士
看一個(gè)例子,這個(gè)例子是一個(gè)簡(jiǎn)單的for循環(huán),它在大部分情況下是沒(méi)有任何問(wèn)題的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果當(dāng)x是一個(gè)空值時(shí),這就會(huì)出問(wèn)題了,當(dāng)x是空值時(shí),我們并不希望這個(gè)for循環(huán)會(huì)執(zhí)行,但是在這里n=0,那么i in 1:0 就會(huì)產(chǎn)生1和0,這就會(huì)導(dǎo)致出現(xiàn)各種各樣的錯(cuò)誤,而且這些錯(cuò)誤并不固定,它會(huì)隨著你的for循環(huán)里面的內(nèi)容改變而改變,從而很難定位bug的所在。一個(gè)解決的方法是,我們可以使用seq.int(length.out = n)循環(huán)來(lái)代替1:n
n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}
這樣當(dāng)n=0的時(shí)候,這個(gè)循環(huán)就不會(huì)執(zhí)行了。
9.使用foreach包并行計(jì)算時(shí)看到里面print的方法
在linux的時(shí)候,我們可以在makeCluster上加上outfile="" 使用""就會(huì)默認(rèn)輸出到控制臺(tái),不過(guò)這個(gè)功能在windows好像不能用,在windows的時(shí)候建議輸出到文件里,outfile="d:/log.txt",這樣就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10