
作者 | Badreesh Shetty
整理 | 大數(shù)據(jù)文摘
說起分類算法,相信學(xué)過機(jī)器學(xué)習(xí)的同學(xué)都能侃上一二。
可是,你能夠如數(shù)家珍地說出所有常用的分類算法,以及他們的特征、優(yōu)缺點(diǎn)嗎?比如說,你可以快速地回答下面的問題么:
答不上來?別怕!一起來通過這篇文章回顧一下機(jī)器學(xué)習(xí)分類算法吧(本文適合已有機(jī)器學(xué)習(xí)分類算法基礎(chǔ)的同學(xué))。
機(jī)器學(xué)習(xí)是一種能從數(shù)據(jù)中學(xué)習(xí)的計(jì)算機(jī)編程科學(xué)以及藝術(shù),就像下面這句話說得一樣。
機(jī)器學(xué)習(xí)是使計(jì)算機(jī)無需顯式編程就能學(xué)習(xí)的研究領(lǐng)域?!⑸と姞?,1959年
不過還有一個(gè)更好的定義:
“如果一個(gè)程序在使用既有的經(jīng)驗(yàn)(E)執(zhí)行某類任務(wù)(T)的過程中被認(rèn)為是“具備學(xué)習(xí)能力的”,那么它一定需要展現(xiàn)出:利用現(xiàn)有的經(jīng)驗(yàn)(E),不斷改善其完成既定任務(wù)(T)的性能(P)的特性?!薄猅om Mitchell, 1997
例如,你的垃圾郵件過濾器是一個(gè)機(jī)器學(xué)習(xí)程序,通過學(xué)習(xí)用戶標(biāo)記好的垃圾郵件和常規(guī)非垃圾郵件示例,它可以學(xué)會(huì)標(biāo)記垃圾郵件。系統(tǒng)用于學(xué)習(xí)的示例稱為訓(xùn)練集。在此案例中,任務(wù)(T)是標(biāo)記新郵件是否為垃圾郵件,經(jīng)驗(yàn)(E)是訓(xùn)練數(shù)據(jù),性能度量(P) 需要定義。例如,你可以定義正確分類的電子郵件的比例為P。這種特殊的性能度量稱為準(zhǔn)確度,這是一種有監(jiān)督的學(xué)習(xí)方法,常被用于分類任務(wù)。
監(jiān)督學(xué)習(xí)
在監(jiān)督學(xué)習(xí)中,算法從有標(biāo)記數(shù)據(jù)中學(xué)習(xí)。在理解數(shù)據(jù)之后,該算法通過將模式與未標(biāo)記的新數(shù)據(jù)關(guān)聯(lián)來確定應(yīng)該給新數(shù)據(jù)賦哪種標(biāo)簽。
監(jiān)督學(xué)習(xí)可以分為兩類:分類和回歸。
分類問題預(yù)測(cè)數(shù)據(jù)所屬的類別;
分類的例子包括垃圾郵件檢測(cè)、客戶流失預(yù)測(cè)、情感分析、犬種檢測(cè)等。
回歸問題根據(jù)先前觀察到的數(shù)據(jù)預(yù)測(cè)數(shù)值;
回歸的例子包括房?jī)r(jià)預(yù)測(cè)、股價(jià)預(yù)測(cè)、身高-體重預(yù)測(cè)等。
分類問題
分類是一種基于一個(gè)或多個(gè)自變量確定因變量所屬類別的技術(shù)。
▲分類用于預(yù)測(cè)離散響應(yīng)
邏輯回歸類似于線性回歸,適用于因變量不是一個(gè)數(shù)值字的情況 (例如,一個(gè)“是/否”的響應(yīng))。它雖然被稱為回歸,但卻是基于根據(jù)回歸的分類,將因變量分為兩類。
如上所述,邏輯回歸用于預(yù)測(cè)二分類的輸出。例如,如果信用卡公司構(gòu)建一個(gè)模型來決定是否通過向客戶的發(fā)行信用卡申請(qǐng),它將預(yù)測(cè)客戶的信用卡是否會(huì)“違約”。
首先對(duì)變量之間的關(guān)系進(jìn)行線性回歸以構(gòu)建模型,分類的閾值假設(shè)為0.5。
然后將Logistic函數(shù)應(yīng)用于回歸分析,得到兩類的概率。
該函數(shù)給出了事件發(fā)生和不發(fā)生概率的對(duì)數(shù)。最后,根據(jù)這兩類中較高的概率對(duì)變量進(jìn)行分類。
K-近鄰算法(K-NN)
K-NN算法是一種最簡(jiǎn)單的分類算法,通過識(shí)別被分成若干類的數(shù)據(jù)點(diǎn),以預(yù)測(cè)新樣本點(diǎn)的分類。K-NN是一種非參數(shù)的算法,是“懶惰學(xué)習(xí)”的著名代表,它根據(jù)相似性(如,距離函數(shù))對(duì)新數(shù)據(jù)進(jìn)行分類。
K-NN能很好地處理少量輸入變量(p)的情況,但當(dāng)輸入量非常大時(shí)就會(huì)出現(xiàn)問題。
支持向量機(jī)既可用于回歸也可用于分類。它基于定義決策邊界的決策平面。決策平面(超平面)可將一組屬于不同類的對(duì)象分離開。
在支持向量的幫助下,SVM通過尋找超平面進(jìn)行分類,并使兩個(gè)類之間的邊界距離最大化。
SVM中超平面的學(xué)習(xí)是通過將問題轉(zhuǎn)化為使用一些某種線性代數(shù)轉(zhuǎn)換問題來完成的。(上圖的例子是一個(gè)線性核,它在每個(gè)變量之間具有線性可分性)。
對(duì)于高維數(shù)據(jù),使用可使用其他核函數(shù),但高維數(shù)據(jù)不容易進(jìn)行分類。具體方法將在下一節(jié)中闡述。
核支持向量機(jī)將核函數(shù)引入到SVM算法中,并將其轉(zhuǎn)換為所需的形式,將數(shù)據(jù)映射到可分的高維空間。
核函數(shù)的類型包括:
徑向基核(RBF:Radial Basis Function )
RBF核支持向量機(jī)的決策區(qū)域?qū)嶋H上也是一個(gè)線性決策區(qū)域。RBF核支持向量機(jī)的實(shí)際作用是構(gòu)造特征的非線性組合,將樣本映射到高維特征空間,再利用線性決策邊界分離類。
因此,可以得出經(jīng)驗(yàn)是:對(duì)線性問題使用線性支持向量機(jī),對(duì)非線性問題使用非線性核函數(shù),如RBF核函數(shù)。
樸素貝葉斯分類器建立在貝葉斯定理的基礎(chǔ)上,基于特征之間互相獨(dú)立的假設(shè)(假定類中存在一個(gè)與任何其他特征無關(guān)的特征)。即使這些特征相互依賴,或者依賴于其他特征的存在,樸素貝葉斯算法都認(rèn)為這些特征都是獨(dú)立的。這樣的假設(shè)過于理想,樸素貝葉斯因此而得名。
在樸素貝葉斯的基礎(chǔ)上,高斯樸素貝葉斯根據(jù)二項(xiàng)(正態(tài))分布對(duì)數(shù)據(jù)進(jìn)行分類。
P(class|data) 表示給定特征(屬性)后數(shù)據(jù)屬于某類(目標(biāo))的后驗(yàn)概率。給定數(shù)據(jù),其屬于各類的概率大小就是我們要計(jì)算的值。
P(class)表示某類的先驗(yàn)概率。
P(data|class)表示似然,是指定類別時(shí)特征出現(xiàn)的概率。
步驟
1、計(jì)算先驗(yàn)概率P(class) = 類中數(shù)據(jù)點(diǎn)的數(shù)量/觀測(cè)值的總數(shù)量P(yellow) = 10/17P(green) = 7/17
2、計(jì)算邊際似然P(data) = 與觀測(cè)值相似的數(shù)據(jù)點(diǎn)的數(shù)量/觀測(cè)值的總數(shù)量P(?) = 4/17該值用于檢查各個(gè)概率。
3、計(jì)算似然P(data/class) = 類中與觀測(cè)值相似的數(shù)量/類中點(diǎn)的總數(shù)量P(?/yellow) = 1/7P(?/green) = 3/10
4、計(jì)算各類的后驗(yàn)概率
5、分類
某一點(diǎn)歸于后驗(yàn)概率高的類別,因?yàn)閺纳峡芍鋵儆诰G色類的概率是75%根據(jù)其75%的概率這個(gè)點(diǎn)屬于綠色類。
多項(xiàng)式、伯努利樸素貝葉斯是計(jì)算概率的其他模型。樸素貝葉斯模型易于構(gòu)建,不需要復(fù)雜的參數(shù)迭代估計(jì),這使得它對(duì)非常大的數(shù)據(jù)集特別有用。
決策樹分類
決策樹以樹狀結(jié)構(gòu)構(gòu)建分類或回歸模型。它通過將數(shù)據(jù)集不斷拆分為更小的子集來使決策樹不斷生長(zhǎng)。最終長(zhǎng)成具有決策節(jié)點(diǎn)(包括根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn))和葉節(jié)點(diǎn)的樹。最初決策樹算法它采用采用Iterative Dichotomiser 3(ID3)算法來確定分裂節(jié)點(diǎn)的順序。
▲信息熵和信息增益用于被用來構(gòu)建決策樹。
信息熵
信息熵是衡量元素?zé)o序狀態(tài)程度的一個(gè)指標(biāo),即衡量信息的不純度。
信息熵是衡量元素的無序狀態(tài)的程度的一個(gè)指標(biāo),或者說,衡量信息的不純度。
直觀上說地理解,信息熵表示一個(gè)事件的確定性程度。信息熵度量樣本的同一性,如果樣本全部屬于同一類,則信息熵為0;如果樣本等分成不同的類別,則信息熵為1。
信息增益
信息增益測(cè)量獨(dú)立屬性間信息熵的變化。它試圖估計(jì)每個(gè)屬性本身包含的信息,構(gòu)造決策樹就是要找到具有最高信息增益的屬性(即純度最高的分支)。
信息增益測(cè)量獨(dú)立屬性間的信息熵的變化。它試圖估計(jì)每個(gè)屬性本身包含的信息,構(gòu)造決策樹就是要找到具有最高信息增益的屬性(即純度最高的分支)。
其中Gain((T,X))是特征X的信息增益。Entropy(T)是整個(gè)集合的信息熵,第二項(xiàng)Entropy(T,X)是特征X的信息熵。
采用信息熵進(jìn)行節(jié)點(diǎn)選擇時(shí),通過對(duì)該節(jié)點(diǎn)各個(gè)屬性信息增益進(jìn)行排序,選擇具有最高信息增益的屬性作為劃分節(jié)點(diǎn),過濾掉其他屬性。
決策樹模型存在的一個(gè)問題是容易過擬合。因?yàn)樵谄?a href='/map/jueceshu/' style='color:#000;font-size:inherit;'>決策樹構(gòu)建過程中試圖通過生成長(zhǎng)一棵完整的樹來擬合訓(xùn)練集,因此卻降低了測(cè)試集的準(zhǔn)確性。
分類的集成算法
集成算法是一個(gè)模型組。從技術(shù)上說,集成算法是單獨(dú)訓(xùn)練幾個(gè)有監(jiān)督模型,并將訓(xùn)練好的模型以不同的方式進(jìn)行融合,從而達(dá)到最終的得預(yù)測(cè)結(jié)果。集成后的模型比其中任何一個(gè)單獨(dú)的模型都有更高的預(yù)測(cè)能力。
隨機(jī)森林分類器
隨機(jī)森林分類器是一種基于裝袋(bagging)的集成算法,即自舉助聚合法(bootstrap aggregation)。集成算法結(jié)合了多個(gè)相同或不同類型的算法來對(duì)對(duì)象進(jìn)行分類(例如,SVM的集成,基于樸素貝葉斯的集成或基于決策樹的集成)。
集成的基本思想是算法的組合提升了最終的結(jié)果。
深度太大的決策樹容易受過擬合的影響。但是隨機(jī)森林通過在隨機(jī)子集上構(gòu)建決策樹防止過擬合,主要原因是它會(huì)對(duì)所有樹的結(jié)果進(jìn)行投票的結(jié)果是所有樹的分類結(jié)果的投票,從而消除了單棵樹的偏差。
隨機(jī)森林在決策樹生增長(zhǎng)的同時(shí)為模型增加了額外的隨機(jī)性。它在分割節(jié)點(diǎn)時(shí),不是搜索全部樣本最重要的特征,而是在隨機(jī)特征子集中搜索最佳特征。這種方式使得決策樹具有多樣性,從而能夠得到更好的模型。
梯度提升分類器
梯度提升分類器是一種提升集成算法。提升(boosting)算法是為了減少偏差而對(duì)弱分類器的而進(jìn)行的一種集成方法。與裝袋(bagging)方法構(gòu)建預(yù)測(cè)結(jié)果池不同,提升算法是一種分類器的串行方法,它把每個(gè)輸出作為下一個(gè)分類器的輸入。通常,在裝袋算法中,每棵樹在原始數(shù)據(jù)集的子集上并行訓(xùn)練,并用所有樹預(yù)測(cè)結(jié)果的均值作為模型最終的預(yù)測(cè)結(jié)果;梯度提升模型,采用串行方式而非并行模式獲得預(yù)測(cè)結(jié)果。每棵決策樹預(yù)測(cè)前一棵決策樹的誤差,因而使誤差獲得提升。
梯度提升樹的工作流程:
分類器的性能
混淆矩陣是一張表,這張表通過對(duì)比已知分類結(jié)果的測(cè)試數(shù)據(jù)的預(yù)測(cè)值和真實(shí)值表來描述衡量分類器的性能。在二分類的情況下,混淆矩陣是展示預(yù)測(cè)值和真實(shí)值四種不同結(jié)果組合的表。
多分類問題的混淆矩陣可以幫助你確認(rèn)錯(cuò)誤模式。
對(duì)于二元分類器:
假正例&假負(fù)例
假正例和假負(fù)例用來衡量模型預(yù)測(cè)的分類效果。假正例是指模型錯(cuò)誤地將負(fù)例預(yù)測(cè)為正例。假負(fù)例是指模型錯(cuò)誤地將正例預(yù)測(cè)為負(fù)例。主對(duì)角線的值越大(主對(duì)角線為真正例和真負(fù)例),模型就越好;副對(duì)角線給出模型的最差預(yù)測(cè)結(jié)果。
假正例
下面給出一個(gè)假正例的例子。比如:模型將一封郵件分類為垃圾郵件(正例),但這封郵件實(shí)際并不是垃圾郵件。這就像一個(gè)警示,錯(cuò)誤如果能被修正就更好,但是與假負(fù)例相比,它并不是一個(gè)嚴(yán)重的問題。
作者注:個(gè)人觀點(diǎn),這個(gè)例子舉的不太好,對(duì)垃圾郵件來說,相比于錯(cuò)誤地將垃圾郵件分類為正常郵件(假負(fù)例),將正常郵件錯(cuò)誤地分類為垃圾郵件(假正例)是更嚴(yán)重的問題。
假正例(I型錯(cuò)誤)——原假設(shè)正確而拒絕原假設(shè)。
假負(fù)例
假負(fù)例的一個(gè)例子。例如,該模型預(yù)測(cè)一封郵件不是垃圾郵件(負(fù)例),但實(shí)際上這封郵件是垃圾郵件。這就像一個(gè)危險(xiǎn)的信號(hào),錯(cuò)誤應(yīng)該被及早糾正,因?yàn)樗燃僬鼑?yán)重。
假負(fù)例(II型錯(cuò)誤)——原假設(shè)錯(cuò)誤而接受原假設(shè)
上圖能夠很容易地說明上述指標(biāo)。左圖男士的測(cè)試結(jié)果是假正例因?yàn)槟行圆荒軕言校挥覉D女士是假負(fù)例因?yàn)楹苊黠@她懷孕了。
從混淆矩陣,我們能計(jì)算出準(zhǔn)確率、精度、召回率和F-1值。
準(zhǔn)確率
準(zhǔn)確率是模型預(yù)測(cè)正確的部分。
準(zhǔn)確率的公式為:
當(dāng)數(shù)據(jù)集不平衡,也就是正樣本和負(fù)樣本的數(shù)量存在顯著差異時(shí),單獨(dú)依靠準(zhǔn)確率不能評(píng)價(jià)模型的性能。精度和召回率是衡量不平衡數(shù)據(jù)集的更好的指標(biāo)。
精度
精度是指在所有預(yù)測(cè)為正例的分類中,預(yù)測(cè)正確的程度為正例的效果。
▲精度越高越好。
召回率是指在所有預(yù)測(cè)為正例(被正確預(yù)測(cè)為真的和沒被正確預(yù)測(cè)但為真的)的分類樣本中,召回率是指預(yù)測(cè)正確的程度。它,也被稱為敏感度或真正率(TPR)。
▲召回率越高越好。
F-1值
通常實(shí)用的做法是將精度和召回率合成一個(gè)指標(biāo)F-1值更好用,特別是當(dāng)你需要一種簡(jiǎn)單的方法來衡量?jī)蓚€(gè)分類器性能時(shí)。F-1值是精度和召回率的調(diào)和平均值。
普通的通常均值將所有的值平等對(duì)待,而調(diào)和平均值給予較低的值更高的權(quán)重,從而能夠更多地懲罰極端值。所以,如果精度和召回率都很高,則分類器將得到很高的F-1值。
接受者操作曲線(ROC)和曲線下的面積(AUC)
ROC曲線是衡量分類器性能的一個(gè)很重要指標(biāo),它代表模型準(zhǔn)確預(yù)測(cè)的程度。ROC曲線通過繪制真正率和假正率的關(guān)系來衡量分類器的敏感度。如果分類器性能優(yōu)越,則真正率將增加,曲線下的面積會(huì)接近于1.如果分類器類似于隨機(jī)猜測(cè),真正率將隨假正率線性增加。AUC值越大,模型效果越好。
累積精度曲線
CAP代表一個(gè)模型沿y軸為真正率的累積百分比與沿x軸的該分類樣本累積百分比。CAP不同于接受者操作曲線(ROC,繪制的是真正率與假正率的關(guān)系)。與ROC曲線相比,CAP曲線很少使用。
以考慮一個(gè)預(yù)測(cè)客戶是否會(huì)購(gòu)買產(chǎn)品的模型為例,如果隨機(jī)選擇客戶,他有50%的概率會(huì)購(gòu)買產(chǎn)品??蛻糍?gòu)買產(chǎn)品的累積數(shù)量會(huì)線性地增長(zhǎng)到對(duì)應(yīng)客戶總量的最大值,這個(gè)曲線稱為CAP隨機(jī)曲線,為上圖中的藍(lán)色線。而一個(gè)完美的預(yù)測(cè),準(zhǔn)確地確定預(yù)測(cè)了哪些客戶會(huì)購(gòu)買產(chǎn)品,這樣,在所有樣本中只需選擇最少的客戶就能達(dá)到最大購(gòu)買量。這在CAP曲線上產(chǎn)生了一條開始陡峭一旦達(dá)到最大值就會(huì)維持在1的折線,稱為CAP的完美曲線,也被稱為理想曲線,為上圖中灰色的線。
最后,一個(gè)真實(shí)的模型應(yīng)該能盡可能最大化地正確預(yù)測(cè),接近于理想模型曲線。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03