
R語言多元分析系列
R語言多元分析系列之一:主成分分析
主成分分析(principal components analysis,
PCA)是一種分析、簡(jiǎn)化數(shù)據(jù)集的技術(shù)。它把原始數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是在處理觀測(cè)數(shù)目小于變量數(shù)目時(shí)無法發(fā)揮作用,例如基因數(shù)據(jù)。
R語言中進(jìn)行主成分分析可以采用基本的princomp函數(shù),將結(jié)果輸入到summary和plot函數(shù)中可分別得到分析結(jié)果和碎石圖。但psych擴(kuò)展包更具靈活性。
1 選擇主成分個(gè)數(shù)
選擇主成分個(gè)數(shù)通常有如下幾種評(píng)判標(biāo)準(zhǔn):
根據(jù)經(jīng)驗(yàn)與理論進(jìn)行選擇
根據(jù)累積方差貢獻(xiàn)率 ,例如選擇使累積方差貢獻(xiàn)率達(dá)到80%的主成分個(gè)數(shù)。
根據(jù)相關(guān)系數(shù)矩陣的特征值,選擇特征值大于1的主成分。
另一種較為先進(jìn)的方法是平行分析(parallel analysis)。該方法首先生成若干組與原始數(shù)據(jù)結(jié)構(gòu)相同的隨機(jī)矩陣,求出其特征值并進(jìn)行平均,然后和真實(shí)數(shù)據(jù)的特征值進(jìn)行比對(duì),根據(jù)交叉點(diǎn)的位置來選擇主成分個(gè)數(shù)。
我們選擇USJudgeRatings數(shù)據(jù)集舉例,首先加載psych包,然后使用fa.parallel函數(shù)繪制下圖,從圖中可見第一主成分位于紅線上方,第二主成分位于紅線下方,因此主成分?jǐn)?shù)目選擇1。
fa.parallel(USJudgeRatings[,-1], fa="pc",n.iter=100, show.legend=FALSE)
2 提取主成分
pc=principal(USJudgeRatings[,-1],nfactors=1)
PC1 h2 u2
1 0.92 0.84 0.1565
2 0.91 0.83 0.1663
3 0.97 0.94 0.0613
4 0.96 0.93 0.0720
5 0.96 0.92 0.0763
6 0.98 0.97 0.0299
7 0.98 0.95 0.0469
8 1.00 0.99 0.0091
9 0.99 0.98 0.0196
10 0.89 0.80 0.2013
11 0.99 0.97 0.0275
PC1
SS loadings 10.13
Proportion Var 0.92
從上面的結(jié)果觀察到,PC1即觀測(cè)變量與主成分之間的相關(guān)系數(shù),h2是變量能被主成分解釋的比例,u2則是不能解釋的比例。主成分解釋了92%的總方差。注意此結(jié)果與princomp函數(shù)結(jié)果不同,princomp函數(shù)返回的是主成分的線性組合系數(shù),而principal函數(shù)返回原始變量與主成分之間的相關(guān)系數(shù),這樣就和因子分析的結(jié)果意義相一致。
3 旋轉(zhuǎn)主成分
旋轉(zhuǎn)是在保持累積方差貢獻(xiàn)率不變條件下,將主成分負(fù)荷進(jìn)行變換,以方便解釋。成分旋轉(zhuǎn)這后各成分的方差貢獻(xiàn)率將重新分配,此時(shí)就不可再稱之為“主成分”而僅僅是“成分”。旋轉(zhuǎn)又可分為正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)。正交旋轉(zhuǎn)的流行方法是方差最大化,需要在principal中增加rotate='varimax'參數(shù)加以實(shí)現(xiàn)。也有觀點(diǎn)認(rèn)為主成分分析一般不需要進(jìn)行旋轉(zhuǎn)。
4 計(jì)算主成分得分
主成分得分是各變量的線性組合,在計(jì)算出主成分得分之后,還可以將其進(jìn)行回歸等做進(jìn)一步分析處理。但注意如果輸入數(shù)據(jù)不是原始數(shù)據(jù)時(shí),則無法計(jì)算主成分得分。我們需要在principal中增加score=T的參數(shù)設(shè)置,結(jié)果將存放在結(jié)果的score元素中。
探索性因子分析(Exploratory Factor
Analysis,EFA)是一項(xiàng)用來找出多元觀測(cè)變量的本質(zhì)結(jié)構(gòu)、并進(jìn)行處理降維的技術(shù)。
因而EFA能夠?qū)⒕哂绣e(cuò)綜復(fù)雜關(guān)系的變量綜合為少數(shù)幾個(gè)核心因子。EFA和PCA的區(qū)別在于:PCA中的主成分是原始變量的線性組合,而EFA中的原始變量是公共因子的線性組合,因子是影響變量的潛在變量,變量中不能被因子所解釋的部分稱為誤差,因子和誤差均不能直接觀察到。進(jìn)行EFA需要大量的樣本,一般經(jīng)驗(yàn)認(rèn)為如何估計(jì)因子的數(shù)目為N,則需要有5N到10N的樣本數(shù)目。
雖然EFA和PCA有本質(zhì)上的區(qū)別,但在分析流程上有相似之處。下面我們用ability.cov這個(gè)心理測(cè)量數(shù)據(jù)舉例,其變量是對(duì)人的六種能力,例如閱讀和拼寫能力進(jìn)行了測(cè)驗(yàn),其數(shù)據(jù)是一個(gè)協(xié)方差矩陣而非原始數(shù)據(jù)。R語言中stats包中的factanal函數(shù)可以完成這項(xiàng)工作,但這里我們使用更為靈活的psych包。
一、選擇因子個(gè)數(shù)
一般選擇因子個(gè)數(shù)可以根據(jù)相關(guān)系數(shù)矩陣的特征值,特征值大于0則可選擇做為因子。我們?nèi)允褂闷叫蟹治龇ǎ╬arallel
analysis)。該方法首先生成若干組與原始數(shù)據(jù)結(jié)構(gòu)相同
的隨機(jī)矩陣,求出其特征值并進(jìn)行平均,然后和真實(shí)數(shù)據(jù)的特征值進(jìn)行比對(duì),根據(jù)交叉點(diǎn)的位置來選擇因子個(gè)數(shù)。根據(jù)下圖我們可以觀察到特征值與紅線的關(guān)系,有兩個(gè)因子都位于紅線上方,顯然應(yīng)該選擇兩個(gè)因子。
library(psych)
covariances = ability.cov$cov
correlations = cov2cor(covariances)
fa.parallel(correlations, n.obs=112, fa="fa", n.iter=100,show.legend=FALSE)
二、提取因子
psych包中是使用fa函數(shù)來提取因子,將nfactors參數(shù)設(shè)定因子數(shù)為2,rotate參數(shù)設(shè)定了最大化方差的因子旋轉(zhuǎn)方法,最后的fm表示分析方法,由于極大似然方法有時(shí)不能收斂,所以此處設(shè)為迭代主軸方法。從下面的結(jié)果中可以觀察到兩個(gè)因子解釋了60%的總方差。Reading和vocabulary這兩個(gè)變量于第一項(xiàng)因子有關(guān),而picture、blocks和maze變量與第二項(xiàng)因子有關(guān),general變量于兩個(gè)因子都有關(guān)系。
fa = fa(correlations,nfactors=2,rotate="varimax",fm="pa" )
PA1 PA2 h2 u2
general 0.49 0.57 0.57 0.432
picture 0.16 0.59 0.38 0.623
blocks 0.18 0.89 0.83 0.166
maze 0.13 0.43 0.20 0.798
reading 0.93 0.20 0.91 0.089
vocab 0.80 0.23 0.69 0.313
PA1 PA2
SS loadings 1.83 1.75
Proportion Var 0.30 0.29
Cumulative Var 0.30 0.60
如果采用基本函數(shù)factanal進(jìn)行因子分析,那么函數(shù)形式應(yīng)該是factanal(covmat=correlations,factors=2,rottion='varimax'),這會(huì)得到相同的結(jié)果。此外,我們還可以用圖形來表示因子和變量之間的關(guān)系
factor.plot(fa,labels=rownames(fa$loadings))
三、因子得分
得到公共因子后,我們可以象主成分分析那樣反過來考察每個(gè)樣本的因子得分。如果輸入的是原始數(shù)據(jù),則可以在fa函數(shù)中設(shè)置score=T參數(shù)來獲得因子得分。如果象上面例子那樣輸入的是相關(guān)矩陣,則需要根據(jù)因子得分系數(shù)來回歸估計(jì)。
fa$weights
PA1 PA2
general 0.017702900 0.21504415
picture -0.007986044 0.09687725
blocks -0.198309764 0.79392660
maze 0.019155930 0.03027495
reading 0.841777373 -0.22404221
vocab 0.190592536 -0.02040749
R語言多元分析系列之三:多維標(biāo)度分析
多維標(biāo)度分析(MDS)是一種將多維空間的研究對(duì)象簡(jiǎn)化到低維空間進(jìn)行定位、分析和歸類,同時(shí)又保留對(duì)象間原始關(guān)系的數(shù)據(jù)分析方法。
設(shè)想一下如果我們?cè)跉W氏空間中已知一些點(diǎn)的座標(biāo),由此可以求出歐氏距離。那么反過來,已知距離應(yīng)該也能得到這些點(diǎn)之間的關(guān)系。這種距離可以是古典的歐氏距離,也可以是廣義上的“距離”。MDS就是在盡量保持這種高維度“距離”的同時(shí),將數(shù)據(jù)在低維度上展現(xiàn)出來。從這種意義上來講,主成分分析也是多維標(biāo)度分析的一個(gè)特例。
一、距離的度量
多元分析中常用有以下幾種距離,即絕對(duì)值距離、歐氏距離(euclidean)、馬氏距離(manhattan)、
兩項(xiàng)距離(binary)、明氏距離(minkowski)。在R中通常使用disk函數(shù)得到樣本之間的距離。MDS就是對(duì)距離矩陣進(jìn)行分析,以展現(xiàn)并解釋數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
在經(jīng)典MDS中,距離是數(shù)值數(shù)據(jù)表示,將其看作是歐氏距離。在R中stats包的cmdscale函數(shù)實(shí)現(xiàn)了經(jīng)典MDS。它是根據(jù)各點(diǎn)的歐氏距離,在低維空間中尋找各點(diǎn)座標(biāo),而盡量保持距離不變。
非度量MDS方法中,“距離"不再看作數(shù)值數(shù)據(jù),而只是順序數(shù)據(jù)。例如在心理學(xué)實(shí)驗(yàn)中,受試者只能回答非常同意、同意、不同意、非常不同意這幾種答案。在這種情況下,經(jīng)典MDS不再有效。Kruskal在1964年提出了一種算法來解決這個(gè)問題。在R中MASS包的isoMDS函數(shù)可以實(shí)現(xiàn)這種算法,另一種流行的算法是由sammon函數(shù)實(shí)現(xiàn)的。
二、經(jīng)典MDS
下面我們以HSAUR2包中的watervoles數(shù)據(jù)來舉例。該數(shù)據(jù)是一個(gè)相似矩陣,表示了不同地區(qū)水田鼠的相似程度。首先加載數(shù)據(jù)然后用cmdscales進(jìn)行分析。
library(ggplot2)
data(watervoles, package = "HSAUR2")
data(watervoles)
voles.mds=cmdscale(watervoles,k=13,eig=T)
下面計(jì)算前兩個(gè)特征值在所有特征值中的比例,這是為了檢測(cè)能否用兩個(gè)維度的距離來表示高維空間中距離,如果達(dá)到了0.8左右則表示是合適的。
sum(abs(voles.mds$eig[1:2]))/sum(abs(voles.mds$eig))
sum((voles.mds$eig[1:2])^2)/sum((voles.mds$eig)^2)
然后從結(jié)果中提取前兩個(gè)維度的座標(biāo),用ggplot包進(jìn)行繪圖。
x = voles.mds$points[,1]
y = voles.mds$points[,2]
p=ggplot(data.frame(x,y),aes(x,y,label = colnames(watervoles)))
p+geom_point(shape=16,size=3,colour='red')+
geom_text(hjust=-0.1,vjust=0.5,alpha=0.5)
三、非度量MDS
第二例子中的數(shù)據(jù)是關(guān)于新澤西州議員投票行為的相似矩陣,這里我們用MASS包中的isoMDS函數(shù)進(jìn)行分析
library("MASS")
data(voting, package = "HSAUR2")
voting_mds = isoMDS(voting)
x = voting_mds$points[,1]
y = voting_mds$points[,2]
g=ggplot(data.frame(x,y),aes(x,y,label = colnames(voting)))
g+geom_point(shape=16,size=3,colour='red')+
geom_text(hjust=-0.1,vjust=0.5,alpha=0.5)
R語言多元分析系列之四:判別分析
判別分析(discriminant analysis)是一種分類技術(shù)。它通過一個(gè)已知類別的“訓(xùn)練樣本”來建立判別準(zhǔn)則,并通過預(yù)測(cè)變量來為未知類別的數(shù)據(jù)進(jìn)行分類。
判別分析的方法大體上有三類,即Fisher判別、Bayes判別和距離判別。Fisher判別思想是投影降維,使多維問題簡(jiǎn)化為一維問題來處理。選擇一個(gè)適當(dāng)?shù)耐队拜S,使所有的樣品點(diǎn)都投影到這個(gè)軸上得到一個(gè)投影值。對(duì)這個(gè)投影軸的方向的要求是:使每一組內(nèi)的投影值所形成的組內(nèi)離差盡可能小,而不同組間的投影值所形成的類間離差盡可能大。Bayes判別思想是根據(jù)先驗(yàn)概率求出后驗(yàn)概率,并依據(jù)后驗(yàn)概率分布作出統(tǒng)計(jì)推斷。距離判別思想是根據(jù)已知分類的數(shù)據(jù)計(jì)算各類別的重心,對(duì)未知分類的數(shù)據(jù),計(jì)算它與各類重心的距離,與某個(gè)重心距離最近則歸于該類。
1.線性判別
當(dāng)不同類樣本的協(xié)方差矩陣相同時(shí),我們可以在R中使用MASS包的lda函數(shù)實(shí)現(xiàn)線性判別。lda函數(shù)以Bayes判別思想為基礎(chǔ)。當(dāng)分類只有兩種且總體服從多元正態(tài)分布條件下,Bayes判別與Fisher判別、距離判別是等價(jià)的。本例使用iris數(shù)據(jù)集來對(duì)花的品種進(jìn)行分類。首先載入MASS包,建立判別模型,其中的prior參數(shù)表示先驗(yàn)概率。然后利用table函數(shù)建立混淆矩陣,比對(duì)真實(shí)類別和預(yù)測(cè)類別。
library(MASS)
model1=lda(Species~.,data=iris,prior=c(1,1,1)/3)
table(Species,predict(model1)$class)
Species setosa versicolor virginica
setosa 50 0 0
versicolor 0 48 2
virginica 0 1 49
從以上結(jié)果可觀察到判斷錯(cuò)誤的樣本只有三個(gè)。在判別函數(shù)建立后,還可以類似主成分分析那樣對(duì)判別得分進(jìn)行繪圖
ld=predict(model1)$x
p=ggplot(cbind(iris,as.data.frame(ld))
,aes(x=LD1,y=LD2))
p+geom_point(aes(colour=Species),alpha=0.8,size=3)
2.二次判別
當(dāng)不同類樣本的協(xié)方差矩陣不同時(shí),則應(yīng)該使用二次判別。
model2=qda(Species~.,data=iris,cv=T)
這里將CV參數(shù)設(shè)置為T,是使用留一交叉檢驗(yàn)(leave-one-out cross-validation),并自動(dòng)生成預(yù)測(cè)值。這種條件下生成的混淆矩陣較為可靠。此外還可以使用predict(model)$posterior提取后驗(yàn)概率。
在使用lda和qda函數(shù)時(shí)注意:其假設(shè)是總體服從多元正態(tài)分布,若不滿足的話則謹(jǐn)慎使用。
R語言多元分析系列之五:聚類分析
聚類分析(Cluster Analysis)是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它是在沒有先驗(yàn)知識(shí)的情況下,對(duì)樣本按各自的特性來進(jìn)行合理的分類。
聚類分析被應(yīng)用于很多方面,在商業(yè)上,聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí);在因特網(wǎng)應(yīng)用上,聚類分析被用來在網(wǎng)上進(jìn)行文檔歸類來修復(fù)信息。
聚類分析有兩種主要計(jì)算方法,分別是凝聚層次聚類(Agglomerative hierarchical method)和K均值聚類(K-Means)。
一、層次聚類
層次聚類又稱為系統(tǒng)聚類,首先要定義樣本之間的距離關(guān)系,距離較近的歸為一類,較遠(yuǎn)的則屬于不同的類??捎糜诙x“距離”的統(tǒng)計(jì)量包括了歐氏距離(euclidean)、馬氏距離(manhattan)、
兩項(xiàng)距離(binary)、明氏距離(minkowski)。還包括相關(guān)系數(shù)和夾角余弦。
層次聚類首先將每個(gè)樣本單獨(dú)作為一類,然后將不同類之間距離最近的進(jìn)行合并,合并后重新計(jì)算類間距離。這個(gè)過程一直持續(xù)到將所有樣本歸為一類為止。在計(jì)算類間距離時(shí)則有六種不同的方法,分別是最短距離法、最長(zhǎng)距離法、類平均法、重心法、中間距離法、離差平方和法。
下面我們用iris數(shù)據(jù)集來進(jìn)行聚類分析,在R語言中所用到的函數(shù)為hclust。首先提取iris數(shù)據(jù)中的4個(gè)數(shù)值變量,然后計(jì)算其歐氏距離矩陣。然后將矩陣?yán)L制熱圖,從圖中可以看到顏色越深表示樣本間距離越近,大致上可以區(qū)分出三到四個(gè)區(qū)塊,其樣本之間比較接近。
data=iris[,-5]
dist.e=dist(data,method='euclidean')
heatmap(as.matrix(dist.e),labRow = F, labCol = F)
然后使用hclust函數(shù)建立聚類模型,結(jié)果存在model1變量中,其中ward參數(shù)是將類間距離計(jì)算方法設(shè)置為離差平方和法。使用plot(model1)可以繪制出聚類樹圖。如果我們希望將類別設(shè)為3類,可以使用cutree函數(shù)提取每個(gè)樣本所屬的類別。
model1=hclust(dist.e,method='ward')
result=cutree(model1,k=3)
為了顯示聚類的效果,我們可以結(jié)合多維標(biāo)度和聚類的結(jié)果。先將數(shù)據(jù)用MDS進(jìn)行降維,然后以不同的的形狀表示原本的分類,用不同的顏色來表示聚類的結(jié)果??梢钥吹絪etose品種聚類很成功,但有一些virginica品種的花被錯(cuò)誤和virginica品種聚類到一起。
mds=cmdscale(dist.e,k=2,eig=T)
x = mds$points[,1]
y = mds$points[,2]
library(ggplot2)
p=ggplot(data.frame(x,y),aes(x,y))
p+geom_point(size=3,alpha=0.8,
aes(colour=factor(result),
shape=iris$Species))
二、K均值聚類
K均值聚類又稱為動(dòng)態(tài)聚類,它的計(jì)算方法較為簡(jiǎn)單,也不需要輸入距離矩陣。首先要指定聚類的分類個(gè)數(shù)N,隨機(jī)取N個(gè)樣本作為初始類的中心,計(jì)算各樣本與類中心的距離并進(jìn)行歸類,所有樣本劃分完成后重新計(jì)算類中心,重復(fù)這個(gè)過程直到類中心不再變化。
在R中使用kmeans函數(shù)進(jìn)行K均值聚類,centers參數(shù)用來設(shè)置分類個(gè)數(shù),nstart參數(shù)用來設(shè)置取隨機(jī)初始中心的次數(shù),其默認(rèn)值為1,但取較多的次數(shù)可以改善聚類效果。model2$cluster可以用來提取每個(gè)樣本所屬的類別。
model2=kmeans(data,centers=3,nstart=10)
使用K均值聚類時(shí)需要注意,只有在類的平均值被定義的情況下才能使用,還要求事先給出分類個(gè)數(shù)。一種方法是先用層次聚類以決定個(gè)數(shù),再用K均值聚類加以改進(jìn)?;蛘咭暂喞禂?shù)來判斷分類個(gè)數(shù)。改善聚類的方法還包括對(duì)原始數(shù)據(jù)進(jìn)行變換,如對(duì)數(shù)據(jù)進(jìn)行降維后再實(shí)施聚類。
cluster擴(kuò)展包中也有許多函數(shù)可用于聚類分析,如agnes函數(shù)可用于凝聚層次聚類,diana可用于劃分層次聚類,pam可用于K均值聚類,fanny用于模糊聚類。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03