
R語言并行化基礎(chǔ)與提高
本文將介紹R中的并行計(jì)算,并給出了一些常見的陷進(jìn)以及避免它們的小技巧。
使用并行計(jì)算的原因就是因?yàn)槌绦蜻\(yùn)行時(shí)間太長。大部分程序都是可以并行化的,它們大部分都是Embarrassingly parallel。這里介紹幾種可以并行化的方法:
Bootstrapping
交叉驗(yàn)證(Cross-validation)
(Multivariate Imputation by Chained Equations ,MICE)相關(guān)介紹:R語言中的缺失值處理
擬合多元回歸方程
學(xué)習(xí)lapply是關(guān)鍵
沒有早點(diǎn)學(xué)習(xí)lapply是我的遺憾之一。這函數(shù)即優(yōu)美又簡單:它只需要一個(gè)參數(shù)(一個(gè)vector或list),和一個(gè)以該參數(shù)為輸入的函數(shù),最后返回一個(gè)列表。
> lapply(1:3, function(x) c(x, x^2, x^3))
[[1]]
[1] 1 1 1
[[2]]
[1] 2 4 8
[[3]]
[1] 3 9 27
你還可以添加額外的參數(shù):
> lapply(1:3/3, round, digits=3)
[[1]]
[1] 0.333
[[2]]
[1] 0.667
[[3]]
[1] 1
當(dāng)每個(gè)元素都是獨(dú)立地計(jì)算時(shí),這個(gè)任務(wù)就是 Embarrassingly parallel的。當(dāng)你學(xué)習(xí)完使用lapply之后,你會(huì)發(fā)現(xiàn)并行化你的代碼就像喝水一樣簡單。
parallel包
使用 parallel包,首先要初始化一個(gè)集群,這個(gè)集群的數(shù)量最好是你CPU核數(shù)-1。如果一臺(tái)8核的電腦建立了數(shù)量為8的集群,那你的CPU就干不了其他事情了。所以可以這樣啟動(dòng)一個(gè)集群:
library(parallel)
# Calculate the number of cores
no_cores <- detectCores() - 1
# Initiate cluster
cl <- makeCluster(no_cores)
現(xiàn)在只需要使用并行化版本的lapply,parLapply就可以了
parLapply(cl, 2:4,
function(exponent)
2^exponent)
[[1]]
[1] 4
[[2]]
[1] 8
[[3]]
[1] 16
當(dāng)我們結(jié)束后,要記得關(guān)閉集群,否則你電腦的內(nèi)存會(huì)始終被R占用
stopCluster(cl)
變量作用域
在Mac/Linux中你可以使用 makeCluster(no_core, type="FORK")這一選項(xiàng)從而當(dāng)你并行運(yùn)行的時(shí)候可以包含所有環(huán)境變量。
在Windows中由于使用的是Parallel Socket Cluster (PSOCK),所以每個(gè)集群只會(huì)加載base包,所以你運(yùn)行時(shí)要指定加載特定的包或變量:
cl<-makeCluster(no_cores)
base <- 2
clusterExport(cl, "base")
parLapply(cl,
2:4,
function(exponent)
base^exponent)
stopCluster(cl)
[[1]]
[1] 4
[[2]]
[1] 8
[[3]]
[1] 16
注意到你需要用clusterExport(cl,
"base")把base這一個(gè)變量加載到集群當(dāng)中。如果你在函數(shù)中使用了一些其他的包就要使用clusterEvalQ加載進(jìn)去,比如說,使用rms包,那么就用clusterEvalQ(cl,
library(rms))。要注意的是,在clusterExport 加載某些變量后,這些變量的任何變化都會(huì)被忽略:
cl<-makeCluster(no_cores)
clusterExport(cl, "base")
base <- 4
# Run
parLapply(cl,
2:4,
function(exponent)
base^exponent)
# Finish
stopCluster(cl)
[[1]]
[1] 4
[[2]]
[1] 8
[[3]]
[1] 16
使用parSapply
如果你想程序返回一個(gè)向量或者矩陣。而不是一個(gè)列表,那么就應(yīng)該使用sapply,他同樣也有并行版本parSapply:
> parSapply(cl, 2:4,
function(exponent)
base^exponent)
[1] 4 8 16
輸出矩陣并顯示行名和列名(因此才需要使用as.character)
> parSapply(cl, as.character(2:4),
function(exponent){
x <- as.numeric(exponent)
c(base = base^x, self = x^x)
})
2 3 4
base 4 8 16
self 4 27 256
foreach包
設(shè)計(jì)foreach包的思想可能想要?jiǎng)?chuàng)建一個(gè)lapply和for循環(huán)的標(biāo)準(zhǔn),初始化的過程有些不同,你需要register注冊集群:
library(foreach)
library(doParallel)
cl<-makeCluster(no_cores)
registerDoParallel(cl)
要記得最后要結(jié)束集群(不是用stopCluster()):
stopImplicitCluster()
foreach函數(shù)可以使用參數(shù).combine控制你匯總結(jié)果的方法:
> foreach(exponent = 2:4,
.combine = c) %dopar%
base^exponent
[1] 4 8 16
> foreach(exponent = 2:4,
.combine = rbind) %dopar%
base^exponent
[,1]
result.1 4
result.2 8
result.3 16
foreach(exponent = 2:4,
.combine = list,
.multicombine = TRUE) %dopar%
base^exponent
[[1]]
[1] 4
[[2]]
[1] 8
[[3]]
[1] 16
注意到最后list的combine方法是默認(rèn)的。在這個(gè)例子中用到一個(gè).multicombine參數(shù),他可以幫助你避免嵌套列表。比如說list(list(result.1, result.2), result.3) :
> foreach(exponent = 2:4,
.combine = list) %dopar%
base^exponent
[[1]]
[[1]][[1]]
[1] 4
[[1]][[2]]
[1] 8
[[2]]
[1] 16
變量作用域
在foreach中,變量作用域有些不同,它會(huì)自動(dòng)加載本地的環(huán)境到函數(shù)中:
> base <- 2
> cl<-makeCluster(2)
> registerDoParallel(cl)
> foreach(exponent = 2:4,
.combine = c) %dopar%
base^exponent
stopCluster(cl)
[1] 4 8 16
但是,對于父環(huán)境的變量則不會(huì)加載,以下這個(gè)例子就會(huì)拋出錯(cuò)誤:
test <- function (exponent) {
foreach(exponent = 2:4,
.combine = c) %dopar%
base^exponent
}
test()
Error in base^exponent : task 1 failed - "object 'base' not found"
為解決這個(gè)問題你可以使用.export這個(gè)參數(shù)而不需要使用clusterExport。注意的是,他可以加載最終版本的變量,在函數(shù)運(yùn)行前,變量都是可以改變的:
base <- 2
cl<-makeCluster(2)
registerDoParallel(cl)
base <- 4
test <- function (exponent) {
foreach(exponent = 2:4,
.combine = c,
.export = "base") %dopar%
base^exponent
}
test()
stopCluster(cl)
[1] 4 8 16
類似的你可以使用.packages參數(shù)來加載包,比如說:.packages = c("rms", "mice")
使用Fork還是sock?
我在windows上做了很多分析,也習(xí)慣了使用PSOCK系統(tǒng)。對于使用其他系統(tǒng)的人要意識到這兩個(gè)的區(qū)別:
FORK:”to divide in branches and go separate ways”
系統(tǒng):Unix/Mac (not Windows)
環(huán)境: 所有
PSOCK:并行socket集群
系統(tǒng): All (including Windows)
環(huán)境: 空
內(nèi)存控制
如果你不打算使用windows的話,建議你嘗試FORK模式,它可以實(shí)現(xiàn)內(nèi)存共享,節(jié)省你的內(nèi)存。
PSOCK:
library(pryr) # Used for memory analyses
cl<-makeCluster(no_cores)
clusterExport(cl, "a")
clusterEvalQ(cl, library(pryr))
parSapply(cl, X = 1:10, function(x) {address(a)}) == address(a)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FORK :
cl<-makeCluster(no_cores, type="FORK")
parSapply(cl, X = 1:10, function(x) address(a)) == address(a)
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
你不需要花費(fèi)太多時(shí)間去配置你的環(huán)境,有趣的是,你不需要擔(dān)心變量沖突:
b <- 0
parSapply(cl, X = 1:10, function(x) {b <- b + 1; b})
# [1] 1 1 1 1 1 1 1 1 1 1
parSapply(cl, X = 1:10, function(x) {b <<- b + 1; b})
# [1] 1 2 3 4 5 1 2 3 4 5
b
# [1] 0
調(diào)試
當(dāng)你在并行環(huán)境中工作是,debug是很困難的,你不能使用browser/cat/print等函數(shù)來發(fā)現(xiàn)你的問題。
tryCatch-list方法
使用stop()函數(shù)這不是一個(gè)好方法,因?yàn)楫?dāng)你收到一個(gè)錯(cuò)誤信息時(shí),很可能這個(gè)錯(cuò)誤信息你在很久之前寫的,都快忘掉了,但是當(dāng)你的程序跑了1,2天后,突然彈出這個(gè)錯(cuò)誤,就只因?yàn)檫@一個(gè)錯(cuò)誤,你的程序終止了,并把你之前的做的計(jì)算全部扔掉了,這是很討厭的。為此,你可以嘗試使用tryCatch去捕捉那些錯(cuò)誤,從而使得出現(xiàn)錯(cuò)誤后程序還能繼續(xù)執(zhí)行:
foreach(x=list(1, 2, "a")) %dopar%
{
tryCatch({
c(1/x, x, 2^x)
}, error = function(e) return(paste0("The variable '", x, "'",
" caused the error: '", e, "'")))
}
[[1]]
[1] 1 1 2
[[2]]
[1] 0.5 2.0 4.0
[[3]]
[1] "The variable 'a' caused the error: 'Error in 1/x: non-numeric argument to binary operator\n'"
這也正是我喜歡list的原因,它可以方便的將所有相關(guān)的數(shù)據(jù)輸出,而不是只輸出一個(gè)錯(cuò)誤信息。這里有一個(gè)使用rbind在lapply進(jìn)行conbine的例子:
`out <- lapply(1:3, function(x) c(x, 2^x, x^x))
do.call(rbind, out)
[,1] [,2] [,3]
[1,] 1 2 1
[2,] 2 4 4
[3,] 3 8 27
創(chuàng)建一個(gè)文件輸出
當(dāng)我們無法在控制臺(tái)觀測每個(gè)工作時(shí),我們可以設(shè)置一個(gè)共享文件,讓結(jié)果輸出到文件當(dāng)中,這是一個(gè)想當(dāng)舒服的解決方案:
cl<-makeCluster(no_cores, outfile = "debug.txt")
registerDoParallel(cl)
foreach(x=list(1, 2, "a")) %dopar%
{
print(x)
}
stopCluster(cl)
starting worker pid=7392 on localhost:11411 at 00:11:21.077
starting worker pid=7276 on localhost:11411 at 00:11:21.319
starting worker pid=7576 on localhost:11411 at 00:11:21.762
[1] 2]
[1] "a"
創(chuàng)建一個(gè)結(jié)點(diǎn)專用文件
一個(gè)或許更為有用的選擇是創(chuàng)建一個(gè)結(jié)點(diǎn)專用的文件,如果你的數(shù)據(jù)集存在一些問題的時(shí)候,可以方便觀測:
cl<-makeCluster(no_cores, outfile = "debug.txt")
registerDoParallel(cl)
foreach(x=list(1, 2, "a")) %dopar%
{
cat(dput(x), file = paste0("debug_file_", x, ".txt"))
}
stopCluster(cl)
partools包
partools這個(gè)包有一個(gè)dbs()函數(shù)或許值得一看(使用非windows系統(tǒng)值得一看),他允許你聯(lián)合多個(gè)終端給每個(gè)進(jìn)程進(jìn)行debug。
Caching
當(dāng)做一個(gè)大型計(jì)算時(shí),我強(qiáng)烈推薦使用一些緩存。這或許有多個(gè)原因你想要結(jié)束計(jì)算,但是要遺憾地浪費(fèi)了計(jì)算的寶貴的時(shí)間。這里有一個(gè)包可以做緩存,R.cache,但是我發(fā)現(xiàn)自己寫個(gè)函數(shù)來實(shí)現(xiàn)更加簡單。你只需要嵌入digest包就可以。digest()函數(shù)是一個(gè)散列函數(shù),把一個(gè)R對象輸入進(jìn)去可以輸出一個(gè)md5值或sha1等從而得到一個(gè)唯一的key值,當(dāng)你key匹配到你保存的cache中的key時(shí),你就可以繼續(xù)你的計(jì)算了,而不需要將算法重新運(yùn)行,以下是一個(gè)使用例子:
cacheParallel <- function(){
vars <- 1:2
tmp <- clusterEvalQ(cl,
library(digest))
parSapply(cl, vars, function(var){
fn <- function(a) a^2
dg <- digest(list(fn, var))
cache_fn <-
sprintf("Cache_%s.Rdata",
dg)
if (file.exists(cache_fn)){
load(cache_fn)
}else{
var <- fn(var);
Sys.sleep(5)
save(var, file = cache_fn)
}
return(var)
})
}
這個(gè)例子很顯然在第二次運(yùn)行的時(shí)候并沒有啟動(dòng)Sys.sleep,而是檢測到了你的cache文件,加載了上一次計(jì)算后的cache,你就不必再計(jì)算Sys.sleep了,因?yàn)樵谏弦淮我呀?jīng)計(jì)算過了。
system.time(out <- cacheParallel())
# user system elapsed
# 0.003 0.001 5.079
out
# [1] 1 4
system.time(out <- cacheParallel())
# user system elapsed
# 0.001 0.004 0.046
out
# [1] 1 4
# To clean up the files just do:
file.remove(list.files(pattern = "Cache.+\.Rdata"))
載入平衡
任務(wù)載入
需要注意的是,無論parLapply還是foreach都是一個(gè)包裝(wrapper)的函數(shù)。這意味著他們不是直接執(zhí)行并行計(jì)算的代碼,而是依賴于其他函數(shù)實(shí)現(xiàn)的。在parLapply中的定義如下:
parLapply <- function (cl = NULL, X, fun, ...)
{
cl <- defaultCluster(cl)
do.call(c, clusterApply(cl, x = splitList(X, length(cl)),
fun = lapply, fun, ...), quote = TRUE)
}
注意到splitList(X, length(cl))
,他會(huì)將任務(wù)分割成多個(gè)部分,然后將他們發(fā)送到不同的集群中。如果你有很多cache或者存在一個(gè)任務(wù)比其他worker中的任務(wù)都大,那么在這個(gè)任務(wù)結(jié)束之前,其他提前結(jié)束的worker都會(huì)處于空閑狀態(tài)。為了避免這一情況,你需要將你的任務(wù)盡量平均分配給每個(gè)worker。舉個(gè)例子,你要計(jì)算優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù),這一過程你可以并行地以不同參數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),你應(yīng)該將如下代碼:
# From the nnet example
parLapply(cl, c(10, 20, 30, 40, 50), function(neurons)
nnet(ir[samp,], targets[samp,],
size = neurons))
改為:
# From the nnet example
parLapply(cl, c(10, 50, 30, 40, 20), function(neurons)
nnet(ir[samp,], targets[samp,],
size = neurons))
內(nèi)存載入
在大數(shù)據(jù)的情況下使用并行計(jì)算會(huì)很快的出現(xiàn)問題。因?yàn)槭褂貌⑿杏?jì)算會(huì)極大的消耗內(nèi)存,你必須要注意不要讓你的R運(yùn)行內(nèi)存到達(dá)內(nèi)存的上限,否則這將會(huì)導(dǎo)致崩潰或非常緩慢。使用Forks是一個(gè)控制內(nèi)存上限的一個(gè)重要方法。Fork是通過內(nèi)存共享來實(shí)現(xiàn),而不需要額外的內(nèi)存空間,這對性能的影響是很顯著的(我的系統(tǒng)時(shí)16G內(nèi)存,8核心):
> rm(list=ls())
> library(pryr)
> library(magrittr)
> a <- matrix(1, ncol=10^4*2, nrow=10^4)
> object_size(a)
1.6 GB
> system.time(mean(a))
user system elapsed
0.338 0.000 0.337
> system.time(mean(a + 1))
user system elapsed
0.490 0.084 0.574
> library(parallel)
> cl <- makeCluster(4, type = "PSOCK")
> system.time(clusterExport(cl, "a"))
user system elapsed
5.253 0.544 7.289
> system.time(parSapply(cl, 1:8,
function(x) mean(a + 1)))
user system elapsed
0.008 0.008 3.365
> stopCluster(cl); gc();
> cl <- makeCluster(4, type = "FORK")
> system.time(parSapply(cl, 1:8,
function(x) mean(a + 1)))
user system elapsed
0.009 0.008 3.123
> stopCluster(cl)
FORKs可以讓你并行化從而不用崩潰:
> cl <- makeCluster(8, type = "PSOCK")
> system.time(clusterExport(cl, "a"))
user system elapsed
10.576 1.263 15.877
> system.time(parSapply(cl, 1:8, function(x) mean(a + 1)))
Error in checkForRemoteErrors(val) :
8 nodes produced errors; first error: cannot allocate vector of size 1.5 Gb
Timing stopped at: 0.004 0 0.389
> stopCluster(cl)
> cl <- makeCluster(8, type = "FORK")
> system.time(parSapply(cl, 1:8, function(x) mean(a + 1)))
user system elapsed
0.014 0.016 3.735
> stopCluster(cl)
當(dāng)然,他并不能讓你完全解放,如你所見,當(dāng)我們創(chuàng)建一個(gè)中間變量時(shí)也是需要消耗內(nèi)存的:
> a <- matrix(1, ncol=10^4*2.1, nrow=10^4)
> cl <- makeCluster(8, type = "FORK")
> parSapply(cl, 1:8, function(x) {
+ b <- a + 1
+ mean(b)
+ })
Error in unserialize(node$con) : error reading from connection
內(nèi)存建議
盡量使用rm()避免無用的變量
盡量使用gc()釋放內(nèi)存。即使這在R中是自動(dòng)執(zhí)行的,但是當(dāng)它沒有及時(shí)執(zhí)行,在一個(gè)并行計(jì)算的情況下,如果沒有及時(shí)釋放內(nèi)存,那么它將不會(huì)將內(nèi)存返回給操作系統(tǒng),從而影響了其他worker的執(zhí)行。
通常并行化在大規(guī)模運(yùn)算下很有用,但是,考慮到R中的并行化存在內(nèi)存的初始化成本,所以考慮到內(nèi)存的情況下,顯然小規(guī)模的并行化可能會(huì)更有用。
有時(shí)候在并行計(jì)算時(shí),不斷做緩存,當(dāng)達(dá)到上限時(shí),換回串行計(jì)算。
你也可以手動(dòng)的控制每個(gè)核所使用的內(nèi)存數(shù)量,一個(gè)簡單的方法就是:memory.limit()/memory.size() = max cores
其他建議
一個(gè)常用的CPU核數(shù)檢測函數(shù):
max(1, detectCores() - 1)
1
永遠(yuǎn)不要使用set.seed(),使用clusterSetRNGStream()來代替設(shè)置種子,如果你想重現(xiàn)結(jié)果。
如果你有Nvidia 顯卡,你可以嘗試使用gputools 包進(jìn)行GPU加速(警告:安裝可能會(huì)很困難)
當(dāng)使用mice并行化時(shí)記得使用ibind()來合并項(xiàng)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03