
機(jī)器學(xué)習(xí)研究如何讓計算機(jī)不需要明確的程序也能具備學(xué)習(xí)能力。(—— Arthur Samuel,1959)
一個計算機(jī)程序在完成了任務(wù)T之后,獲得經(jīng)驗(yàn)E,其表現(xiàn)效果為P,如 果任務(wù)T的性能表現(xiàn),也就是用以衡量的P,隨著E的增加而增加,可以 稱其為學(xué)習(xí)。(——Tom Mitchell,1977)
雖然機(jī)器學(xué)習(xí)的研究來源于人工智能領(lǐng)域,但是機(jī)器學(xué)習(xí)的方法卻應(yīng)用于數(shù) 據(jù)科學(xué)領(lǐng)域,因此我們將機(jī)器學(xué)習(xí)看作是一種數(shù)學(xué)建模更合適。 機(jī)器學(xué)習(xí)的本質(zhì)就是借助數(shù)學(xué)模型理解數(shù)據(jù)。當(dāng)我們給模型裝上可以適應(yīng)觀 測數(shù)據(jù)的可調(diào)參數(shù)時,“學(xué)習(xí)” 就開始了;此時的程序被認(rèn)為具有從數(shù)據(jù) 中 “學(xué)習(xí)” 的能力。一旦模型可以擬合舊的觀測數(shù)據(jù),那么它們就可以預(yù) 測并解釋新的觀測數(shù)據(jù)。
第一步:獲取數(shù)據(jù)
既然我們機(jī)器學(xué)習(xí)是借助數(shù)學(xué)模型理解數(shù)學(xué),那么最重要的原材料就是數(shù)據(jù)了。獲取數(shù)據(jù)通常指的是獲取原始數(shù)據(jù),當(dāng)然這里可以是一 手?jǐn)?shù)據(jù),也可以是二手?jǐn)?shù)據(jù),關(guān)鍵看機(jī)器學(xué)習(xí)的學(xué)習(xí)任務(wù)。“ 數(shù)據(jù)決定機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能的逼近這個上限”,可見數(shù)據(jù)在機(jī)器學(xué)習(xí)中的作用。 那么一般而言對于數(shù)據(jù)我們有 哪些要求呢?
(1)數(shù)據(jù)要具有代表性,數(shù)據(jù)需要包含盡可能多的信息,數(shù)據(jù)也需要同學(xué)習(xí)任務(wù)有關(guān)聯(lián)性。
(2)對于監(jiān)督學(xué)習(xí)中的分類問題,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個數(shù)量級的差距。
(3)需要評估數(shù)據(jù)樣本的量級,估算模型學(xué)習(xí)對內(nèi)存的消耗。如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本、降維或者使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。
第二步:獲取一個任務(wù)
這一步可以同第一步互換順序,根據(jù)實(shí)際業(yè)務(wù)需求,可能會先拿到任務(wù),再尋找合適的數(shù)據(jù)。 在獲取任務(wù)之后,需要將任務(wù)問題抽象成數(shù)學(xué)問題,明確我們可以獲得什么樣的數(shù)據(jù),學(xué)習(xí)的目標(biāo)是一個什么類型的問題,然后劃歸為 其中的某類問題,比如分類問題、回歸問題、聚類問題、降維問題等。
第三步:根據(jù)數(shù)據(jù)和算法進(jìn)行學(xué)習(xí)
這一部分包含了數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、特征工程三大板塊的內(nèi)容。我們依次來做展開~
數(shù)據(jù)清洗一般根據(jù)具體學(xué)習(xí)任務(wù)或者模型需求而有不同的操作方法,因而難以歸納統(tǒng)一的方法和步驟,但是根據(jù)數(shù)據(jù)不同可以給出下面 常用的數(shù)據(jù)清洗方法。
(1)缺失值處理:大多數(shù)情況下,缺失值需要手工填入( 即手工清理)。當(dāng)然,某些缺失值可以從本數(shù)據(jù)源或其它數(shù)據(jù)源推導(dǎo)出來,這就可以用平均值、 最大值、最小值或更為復(fù)雜的概率估計代替缺失的值,從而達(dá)到清理的目的。
(2)異常值檢測及處理:用統(tǒng)計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分布的值,通過 常識性規(guī)則、業(yè)務(wù)特定規(guī)則等檢查數(shù)據(jù)值。
(3)重復(fù)值檢測及消除方法:數(shù)據(jù)中屬性值相同的記錄被認(rèn)為是重復(fù)記錄,通過判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合并為一條記錄(即 合并/清除)。合并/清除是消重的基本方法。
這里數(shù)據(jù)預(yù)處理不單單是處理我們不一致、錯誤或者異常的數(shù)據(jù),更重要的是保證數(shù)據(jù)能正常傳入模型中進(jìn)行學(xué)習(xí),并達(dá)到預(yù)期的效果。 預(yù)處理的方法涉及很多內(nèi)容,比如歸一化、標(biāo)準(zhǔn)化、連續(xù)數(shù)值型變量分箱、有序分類變量One-Hot編碼、字符型變量數(shù)值化等等。
特征工程
特征工程包括從原始數(shù)據(jù)中特征構(gòu)建、特征提取、特征選擇。特征工程做的好能發(fā)揮原始數(shù)據(jù)的最大效力,往往能夠使得算法的效果和 性能得到顯著的提升,有時能使簡單的模型的效果比復(fù)雜的模型效果好。數(shù)據(jù)挖掘的大部分時間就花在特征工程上面,是機(jī)器學(xué)習(xí)非常 基礎(chǔ)而又必備的步驟。
第四步:模型評估
使用機(jī)器學(xué)習(xí)進(jìn)行判斷/預(yù)測的效果,如果不能接近/超過人類, 那就沒有任何意義。 如果人臉識別不能達(dá)到幾乎100%準(zhǔn)確,根本不可能使用人臉識別 代替人工檢查,所以追求模型預(yù)測準(zhǔn)確是機(jī)器學(xué)習(xí)的核心目標(biāo)。
運(yùn)算速度 能夠同時處理大量數(shù)據(jù),可以在超短時間內(nèi)極速學(xué)習(xí),是機(jī)器學(xué)習(xí) 的重要優(yōu)勢,如果機(jī)器學(xué)習(xí)的判斷速度不能接近/超越人類,那計 算機(jī)判斷的優(yōu)越性就幾乎不存在了。
模型效果與運(yùn)算速度往往是此消彼長的,在模型效果不錯的情況下 保障運(yùn)算速度較快,是機(jī)器學(xué)習(xí)中重要的一環(huán)。
可解釋性
機(jī)器學(xué)習(xí)是一門技術(shù),是一門有門檻的技術(shù),所以大眾注定不太 可能短時間內(nèi)熟悉它,但是技術(shù)人員肩負(fù)著要向老板,客戶,同 事,甚至親朋好友解釋機(jī)器學(xué)習(xí)在做什么的職責(zé)。 比如說,在“是否分發(fā)信用卡”的問題中,如果算法判斷“這個 人有違約風(fēng)險,不發(fā)信用卡”,那客戶很可能找上門來要個解釋, 這個時候,你能告訴他說“因?yàn)樗惴ㄅ袛嗄悴煌ㄟ^”嗎? 在解釋性需求很強(qiáng)的領(lǐng)域,我們就需要可解釋的算法。
服務(wù)于業(yè)務(wù)
而所有的一切,都是為了服務(wù)于業(yè)務(wù)。 只有模型效果優(yōu)秀,運(yùn)算速度快,還帶有一部分可解釋性的算法才是 最優(yōu)秀的算法。
說到交叉驗(yàn)證就不得不提到模型的「泛化能力」,而泛化能力涉及了「訓(xùn)練誤差」和「測試誤差」兩個概念。 訓(xùn)練誤差與測試誤差
我們在進(jìn)行學(xué)習(xí)算法前,通常會將一個樣本集分成訓(xùn)練集(training set)和測試集(testing set),其中訓(xùn)練集用于模型的學(xué)習(xí)或訓(xùn)練, 而后測試集通常用于評估訓(xùn)練好的模型對于數(shù)據(jù)的預(yù)測性能評估。
(1)訓(xùn)練誤差(training error)代表模型在訓(xùn)練集上的錯分樣本比率。
(2)測試誤差(empirical error)是模型在測試集上的錯分樣本比率。
1.泛化能力
訓(xùn)練誤差的大小,用來判斷給定問題是不是一個容易學(xué)習(xí)的的問題。測試誤差則反映了模型對未知數(shù)據(jù)的預(yù)測能力,測試誤差小的學(xué)習(xí) 方法具有很好的預(yù)測能力,如果得到的訓(xùn)練集和測試集的數(shù)據(jù)沒有交集,通常將此預(yù)測能力稱為泛化能力(generalization ability)。
2.那么什么是交叉驗(yàn)證呢?
在業(yè)務(wù)當(dāng)中,我們的訓(xùn)練數(shù)據(jù)往往是已有的歷史數(shù)據(jù),但我們的測試數(shù)據(jù) 卻是新進(jìn)入系統(tǒng)的一系列還沒有標(biāo)簽的未知數(shù)據(jù)。我們的確追求模型的效 果,但我們追求的是模型在未知數(shù)據(jù)集上的效果,在陌生數(shù)據(jù)集上表現(xiàn)優(yōu) 秀的能力被稱為泛化能力,即我們追求的是模型的泛化能力。 我們認(rèn)為,如果模型在一套訓(xùn)練集和數(shù)據(jù)集上表現(xiàn)優(yōu)秀,那說明不了問題, 只有在眾多不同的訓(xùn)練集和測試集上都表現(xiàn)優(yōu)秀,模型才是一個穩(wěn)定的模 型,模型才具有真正意義上的泛化能力。為此,機(jī)器學(xué)習(xí)領(lǐng)域有著發(fā)揮神 奇作用的技能:「交叉驗(yàn)證」,來幫助我們認(rèn)識模型。 數(shù)據(jù)集 測試集 驗(yàn)證集
3.交叉驗(yàn)證的常用方法
交叉驗(yàn)證方法有很多,其中最常用的是k折交叉驗(yàn)證。我們知道訓(xùn)練集和測試集的劃分會干擾模型的結(jié)果,因此用交叉驗(yàn)證n次的 結(jié)果求出的均值,是對模型效果的一個更好的度量。
1.混淆矩陣
混淆矩陣是二分類問題的多維衡量指標(biāo)體系,在樣本不平衡時極其有用。在混淆矩陣中,我們將少數(shù)類認(rèn)為是正例,多數(shù)類認(rèn)為是負(fù) 例。在決策樹,隨機(jī)森林這些普通的分類算法里,即是說少數(shù)類是1,多數(shù)類是0。普通的混淆矩陣,一般使用{0,1}來表示。混淆矩陣 正如其名,十分容易讓人混淆,在許多教材中,混淆矩陣中各種各樣的名稱和定義讓大家難以理解難以記憶。這里為大家找出了一種 簡化的方式來顯示標(biāo)準(zhǔn)二分類的混淆矩陣,如圖所示:
2.模型整體效果:準(zhǔn)確率
準(zhǔn)確率Accuracy 就是所有預(yù)測正確的所有樣本除以總樣本,通常來說越接近1越好。
3.捕捉少數(shù)類的藝術(shù):精確度,召回率和F1 score
精確度Precision,又叫查準(zhǔn)率。表示所有被我們預(yù)測為是少數(shù)類的樣本中,真正的少數(shù)類所占的比例。精確度越低,則代表我們誤傷 了過多的多數(shù)類。精確度是“將多數(shù)類判錯后所需付出成本”的衡量。 通常做了樣本平衡之后,精確度是下降的。因?yàn)楹苊黠@,樣本平衡之后,有更多的多數(shù)類被我們誤傷了。精確度可以幫助我們判斷, 是否每一次對少數(shù)類的預(yù)測都精確,所以又被稱為“查準(zhǔn)率”。在現(xiàn)實(shí)的樣本不平衡例子中,當(dāng)每一次將多數(shù)類判斷錯誤的成本非常 高昂的時候(比如大眾召回車輛的例子),我們會追求高精確度。精確度越低,我們對多數(shù)類的判斷就會越錯誤。當(dāng)然了,如果我們 的目標(biāo)是不計一切代價捕獲少數(shù)類,那我們并不在意精確度。
捕捉少數(shù)類的藝術(shù):精確度,召回率和F1 score 召回率Recall,又被稱為敏感度(sensitivity),真正率,查全率。表示所有真實(shí)為1的樣本中,被我們預(yù)測正確的樣本所占的比例。召 回率越高,代表我們盡量捕捉出了越多的少數(shù)類,召回率越低,代表我們沒有捕捉出足夠的少數(shù)類。 召回率可以幫助我們判斷,我們是否捕捉除了全部的少數(shù)類,所以又叫做查全率。 如果我們希望不計一切代價,找出少數(shù)類(比如找出潛在犯罪者的例子),那我們就會追求高召回率,相反如果我們的目標(biāo)不是盡量 捕獲少數(shù)類,那我們就不需要在意召回率。 注意召回率和精確度的分子是相同的(都是11),只是分母不同。而召回率和精確度是此消彼長的,兩者之間的平衡代表了捕捉少數(shù) 類的需求和盡量不要誤傷多數(shù)類的需求的平衡。究竟要偏向于哪一方,取決于我們的業(yè)務(wù)需求:究竟是誤傷多數(shù)類的成本更高,還是 無法捕捉少數(shù)類的代價更高。
4.捕捉少數(shù)類的藝術(shù):精確度,召回率和F1 score
為了同時兼顧精確度和召回率,我們創(chuàng)造了兩者的調(diào)和平均數(shù)作為考量兩者平衡的綜合性指標(biāo),稱之為F1 measure。兩個數(shù)之間的 調(diào)和平均傾向于靠近兩個數(shù)中比較小的那一個數(shù),因此我們追求盡量高的F1 measure,能夠保證我們的精確度和召回率都比較高。F1 measure在[0,1]之間分布,越接近1越好。
指對數(shù)據(jù)的若干特征與若干標(biāo)簽(類型)之間的關(guān) 聯(lián)性進(jìn)行建模的過程;只要模型被確定,就可以應(yīng) 用到新的未知數(shù)據(jù)上。這類學(xué)習(xí)過程可以進(jìn)一步分 為「分類」(classification)任務(wù)和「回歸」( regression)任務(wù)。在分類任務(wù)中,標(biāo)簽都是離散 值;而在回歸任務(wù)中,標(biāo)簽都是連續(xù)值。
指對不帶任何標(biāo)簽的數(shù)據(jù)特征進(jìn)行建模,通常被看 成是一種 “讓數(shù)據(jù)自己介紹自己” 的過程。這類 模型包括「聚類」(clustering)任務(wù)和「降維」 (dimensionality reduction)任務(wù)。聚類算法可 以講數(shù)據(jù)分成不同的組別,而降維算法追求用更簡 潔的方式表現(xiàn)數(shù)據(jù)。
另外,還有一種半監(jiān)督學(xué)習(xí)(semi-supervised learning)方法, 介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí) 之間。通??梢栽跀?shù)據(jù)不完整時使用。
強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),它將學(xué)習(xí)看作是試探評 價過程,以 "試錯" 的方式進(jìn)行學(xué)習(xí),并與環(huán)境進(jìn) 行交互已獲得獎懲指導(dǎo)行為,以其作為評價。此時 系統(tǒng)靠自身的狀態(tài)和動作進(jìn)行學(xué)習(xí),從而改進(jìn)行動 方案以適應(yīng)環(huán)境。
1.KNN算法
一則小故事
在一個酒吧里,吧臺上擺著十杯幾乎一樣的紅酒,老板跟你打趣說想不想來 玩?zhèn)€游戲,贏了免費(fèi)喝酒,輸了付3倍酒錢,那么贏的概率是多少?
你是個愛冒險的人,果斷說玩!
老板接著道:你眼前的這十杯紅酒,每杯略不相同,前五杯屬于「赤霞珠」 后五杯屬于「黑皮諾」?,F(xiàn)在,我重新倒一杯酒,你只需要正確地告訴我它 屬于哪一類。
聽完你有點(diǎn)心虛:根本不懂酒啊,光靠看和嘗根本區(qū)分辨不出來,不過想起 自己是搞機(jī)器學(xué)習(xí)的,不由多了幾分底氣爽快地答應(yīng)了老板!
你沒有急著品酒而是問了老板每杯酒的一些具體信息:酒精濃度、顏色深度等,以及一份紙筆。老板一邊倒一杯新酒,你邊 瘋狂打草稿。
很快,你告訴老板這杯新酒應(yīng)該是「赤霞珠」
老板瞪大了眼下巴也差點(diǎn)驚掉,從來沒有人一口酒都不嘗就能答對,無數(shù)人都是 反復(fù)嘗來嘗去,最后以猶豫不定猜錯而結(jié)束。
你神秘地笑了笑,老板信守承諾讓你開懷暢飲。微醺之時,老板終于忍不住湊向
你打探是怎么做到的。
你炫耀道:無他,但機(jī)器學(xué)習(xí)熟爾。
老板:……
2.KNN——算法原理概述
k-近鄰算法的本質(zhì)是通過距離判斷兩個樣本是否相似,如果距離夠近就認(rèn)為他們足夠相似屬于同一類別。 當(dāng)然只對比一個樣本是不夠的,誤差會很大,我們需要找到離其最近的k個樣本,并將這些樣本稱之為「近鄰」(nearest neighbor)。 對這k個近鄰,查看它們的都屬于何種類別(這些類別我們稱作「標(biāo)簽」(labels))。 然后根據(jù)“少數(shù)服從多數(shù),一點(diǎn)算一票”原則進(jìn)行判斷,數(shù)量最多的的標(biāo)簽類別就是新樣本的標(biāo)簽類別。其中涉及到的原理是“越 相近越相似”,這也是KNN的基本假設(shè)。
上面有紅色和紫色兩個類別,離黃色點(diǎn)最近的3個點(diǎn)都是紅點(diǎn),所以紅點(diǎn)和紫色類別的投票數(shù)是3:0,紅色取勝,所以黃色點(diǎn)屬于紅 色,也就是新的一杯屬于「赤霞珠」。
3.決策樹算法
決策樹(Decision Tree)是一種實(shí)現(xiàn)分治策略的層次數(shù)據(jù)結(jié)構(gòu), 可以用于分類和回歸。我們主要討論分類的決策樹。 分類決策樹模型表示一種基于特征對實(shí)例進(jìn)行分類的樹形結(jié)構(gòu) (包括二叉樹和多叉樹)。 決策樹由節(jié)點(diǎn)(node)和有向邊(directed edge)組成,樹 中包含三種結(jié)點(diǎn):
(1)根節(jié)點(diǎn)(root node):包含樣本全集。沒有入邊,但有零 條或多條出邊;
(2)內(nèi)部節(jié)點(diǎn)(internal node):對應(yīng)于屬性測試條件,恰有 一條入邊,和兩條或多條出邊;
(3)葉節(jié)點(diǎn)(leaf node)或終節(jié)點(diǎn)(terminal node):對應(yīng) 于決策結(jié)果,恰有一條入邊,但沒有出邊。
4.決策樹——算法原理概述
決策樹學(xué)習(xí)本質(zhì)上是從訓(xùn)練數(shù)據(jù)集中歸納出一組分類規(guī)則,也稱為 "樹歸納"。對于給定的訓(xùn)練數(shù)據(jù)集,存在許多對它無錯編碼的樹。 而為了簡單起見,我們感興趣的是從中選出 "最小" 的樹,這里的樹的大小用樹的結(jié)點(diǎn)數(shù)和決策節(jié)點(diǎn)的復(fù)雜性度量。從另一個角度看, 決策樹學(xué)習(xí)是由訓(xùn)練數(shù)據(jù)集估計條件概率模型。基于特征空間劃分的類的條件概率模型有無數(shù)個,我們選擇的模型應(yīng)該是不僅能對訓(xùn)練數(shù)據(jù)有很好的擬合,而且對未知數(shù)據(jù)也有很好的預(yù)測。
但是,因?yàn)閺乃锌赡艿?a href='/map/jueceshu/' style='color:#000;font-size:inherit;'>決策樹中選取最優(yōu)決策樹是NP完全問題,所以我們必須使用基于啟發(fā)式的局部搜索過程,在合理的時間內(nèi)得 到合理的樹。 樹的學(xué)習(xí)算法是 “貪心算法”,從包含全部訓(xùn)練數(shù)據(jù)的根開始,每一步都選擇最佳劃分。依賴于所選擇的屬性是數(shù)值屬性還是離散屬 性,每次將數(shù)據(jù)劃分為兩個或n個子集,然后使用對應(yīng)的子集遞歸地進(jìn)行劃分,知道所有訓(xùn)練數(shù)據(jù)子集被基本正確分類,或者沒有合適的特征為止,此時,創(chuàng)建一個樹葉結(jié)點(diǎn)并標(biāo)記它,這就生成了一顆決策樹。
綜上,決策樹學(xué)習(xí)算法包含特征選擇、決策樹的生成與決策樹的剪枝。其中,特征選擇運(yùn)用的算法主要包括 “信息熵增益”、“信息 增益比”、“基尼系數(shù)”,分別對應(yīng)不同的樹生成算法ID3、C4.5、CART。
聚類算法
KNN、決策樹都是比較常用的機(jī)器學(xué)習(xí)算法,它們雖然有著不同的功能,但卻都屬于「有監(jiān)督學(xué)習(xí)」的一部分,即是說,模型在訓(xùn)練 的時候,既需要特征矩陣X,也需要真是標(biāo)簽Y。機(jī)器學(xué)習(xí)當(dāng)中,還有相當(dāng)一部分算法屬于「無監(jiān)督學(xué)習(xí)」,無監(jiān)督的算法在訓(xùn)練的時 候只需要特征矩陣X,不需要標(biāo)簽。無監(jiān)督學(xué)習(xí)的代表算法有聚類算法、降維算法。
點(diǎn)擊CDA題庫鏈接,獲取免費(fèi)版CDA題庫入口,??荚図樌焖倌米C!
更多考試介紹及備考福利請點(diǎn)擊:CDA 認(rèn)證考試中心官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03