
R語言實用小技巧
這篇文章介紹的是我平時寫程序遇到的各種小問題,以及解決他們的小技巧
1.R語言讀取EXCEL
用R語言讀取EXCEL時,可以使用readxl包的read_excel函數(shù),不要使用xlsx這個包,因為xlsx它要加載JAVA,很麻煩,而使用readxl不需要加載JAVA。
2.如何在R中構造一個hash函數(shù)
這在R中或許有許多包能夠實現(xiàn),但是,其實我們自己來實現(xiàn)也是很簡單的,要知道environment的原理也是一個hash函數(shù),我們只需要利用environment,來負責存儲我們所需要的映射列表就可以了。接下來我們可以利用digest包的散列函數(shù)digest(),這個函數(shù)可以將任意的R對象映射為一個md5值,或者sha1等,他的md5值就是我們所需要的key,以下是使用例子:
有如下這樣的數(shù)據(jù)
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假設我想將x,y映射到z,將y,z映射為k,先定義兩個函數(shù),一個是SetKeyValue,負責設置key,value對,第二個是GetValue,輸入一個key,返回key對應的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}
hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}
這樣我們就得到了一個由environment構造的hash函數(shù)了,我們可以這樣去得到值:
> GetValue(hash,df[1,1:2]) #得到當x=1 y=2時的z值
[1] 3
當然,如果想要更快的速度,可以使用fastdigest這個包,里面的散列函數(shù)比digest包要快,只需將digest()替換成fastdigest()就可以了。
3.如何用最快最簡單的方法加快R的執(zhí)行速度?
答案是使用compiler包,這個包的作用就是將R代碼編譯成字節(jié)碼,這在很多情況下都能加快運行的速度,當然也會有一些時候作用沒有那么大,使用非常簡單,以下是一個使用例子:
> library(microbenchmark)
> library(compiler)
> f1<-function(){
+ x=1:100
+ for(i in 1:100){
+ x[i]=x[i]+1
+ }
+ }
> f2<-function(){
+ x=1:100
+ x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+ f1(),
+ f2(),
+ f3(),
+ f4()
+ )
Unit: nanoseconds
expr min lq mean median uq max neval cld
f1() 170077 175453 178277.64 177652 179363 227746 100 c
f2() 978 1467 2028.94 1956 2444 5865 100 a
f3() 11730 12219 12873.79 12708 13196 20039 100 b
f4() 978 1466 1564.65 1467 1955 2933 100 a
可以看到編譯后的f3,f4跟編譯前的f1,f2,快了將近2倍到10倍,這么簡單就能提升運行速度,何樂而不為呢?
我寫的一個小代碼,可以批量地把環(huán)境變量中所有的函數(shù)都編譯一次:
funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}
如何想要更快,可以參考Windows使用OpenBLAS加速R語言計算速度
4.如何讀取一個文件夾所有的文件?
我們可以利用list.files進行匹配,通過其中參數(shù)pattern可以填寫正則表達式,用來匹配文件夾下滿足條件的文件名。然后再利用lapply來導入文件。
filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")
datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})
5.如何把data.frame按照行來對應生成列表
> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534
我想把這個data.frame變成一個list 并且i要與list中的序號對應。
解決方法如下:
> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534
[[2]]
[1] 0.3721239
[[3]]
[1] 0.2655087
6.如何標記每個組別中出現(xiàn)的次數(shù),他們出現(xiàn)的順序。
有這么個數(shù)據(jù):
> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1 1
2 1
3 2
4 2
5 3
6 3
7 3
現(xiàn)在想添加一列,標記的id列,讓它變成:
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
可以利用data.table實現(xiàn):
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
7.R語言讀取SPSS格式文件
可以使用library(memisc)這個包,雖然foreign也能做到,但是有的時候格式會很混亂,而memisc就可以完美讀取。
8.R語言for循環(huán)的小貼士
看一個例子,這個例子是一個簡單的for循環(huán),它在大部分情況下是沒有任何問題的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果當x是一個空值時,這就會出問題了,當x是空值時,我們并不希望這個for循環(huán)會執(zhí)行,但是在這里n=0,那么i in 1:0 就會產(chǎn)生1和0,這就會導致出現(xiàn)各種各樣的錯誤,而且這些錯誤并不固定,它會隨著你的for循環(huán)里面的內容改變而改變,從而很難定位bug的所在。一個解決的方法是,我們可以使用seq.int(length.out = n)循環(huán)來代替1:n
n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}
這樣當n=0的時候,這個循環(huán)就不會執(zhí)行了。
9.使用foreach包并行計算時看到里面print的方法
在linux的時候,我們可以在makeCluster上加上outfile="" 使用""就會默認輸出到控制臺,不過這個功能在windows好像不能用,在windows的時候建議輸出到文件里,outfile="d:/log.txt",這樣就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03