99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀CDA LEVEL 1 考試,知識點(diǎn)《機(jī)器學(xué)習(xí)基本概念》
CDA LEVEL 1 考試,知識點(diǎn)《機(jī)器學(xué)習(xí)基本概念》
2024-10-04
收藏

一、什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)研究如何讓計算機(jī)不需要明確的程序也能具備學(xué)習(xí)能力。(—— Arthur Samuel,1959)

一個計算機(jī)程序在完成了任務(wù)T之后,獲得經(jīng)驗(yàn)E,其表現(xiàn)效果為P,如 果任務(wù)T的性能表現(xiàn),也就是用以衡量的P,隨著E的增加而增加,可以 稱其為學(xué)習(xí)。(——Tom Mitchell,1977)

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

雖然機(jī)器學(xué)習(xí)的研究來源于人工智能領(lǐng)域,但是機(jī)器學(xué)習(xí)的方法卻應(yīng)用于數(shù) 據(jù)科學(xué)領(lǐng)域,因此我們將機(jī)器學(xué)習(xí)看作是一種數(shù)學(xué)建模更合適。 機(jī)器學(xué)習(xí)的本質(zhì)就是借助數(shù)學(xué)模型理解數(shù)據(jù)。當(dāng)我們給模型裝上可以適應(yīng)觀 測數(shù)據(jù)的可調(diào)參數(shù)時,“學(xué)習(xí)” 就開始了;此時的程序被認(rèn)為具有從數(shù)據(jù) 中 “學(xué)習(xí)” 的能力。一旦模型可以擬合舊的觀測數(shù)據(jù),那么它們就可以預(yù) 測并解釋新的觀測數(shù)據(jù)。

二、模型構(gòu)建流程

第一步:獲取數(shù)據(jù)

既然我們機(jī)器學(xué)習(xí)是借助數(shù)學(xué)模型理解數(shù)學(xué),那么最重要的原材料就是數(shù)據(jù)了。獲取數(shù)據(jù)通常指的是獲取原始數(shù)據(jù),當(dāng)然這里可以是一 手?jǐn)?shù)據(jù),也可以是二手?jǐn)?shù)據(jù),關(guān)鍵看機(jī)器學(xué)習(xí)的學(xué)習(xí)任務(wù)。“ 數(shù)據(jù)決定機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能的逼近這個上限”,可見數(shù)據(jù)在機(jī)器學(xué)習(xí)中的作用。 那么一般而言對于數(shù)據(jù)我們有 哪些要求呢?

(1)數(shù)據(jù)要具有代表性,數(shù)據(jù)需要包含盡可能多的信息,數(shù)據(jù)也需要同學(xué)習(xí)任務(wù)有關(guān)聯(lián)性。

(2)對于監(jiān)督學(xué)習(xí)中的分類問題,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個數(shù)量級的差距。

(3)需要評估數(shù)據(jù)樣本的量級,估算模型學(xué)習(xí)對內(nèi)存的消耗。如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本、降維或者使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

第二步:獲取一個任務(wù)

這一步可以同第一步互換順序,根據(jù)實(shí)際業(yè)務(wù)需求,可能會先拿到任務(wù),再尋找合適的數(shù)據(jù)。 在獲取任務(wù)之后,需要將任務(wù)問題抽象成數(shù)學(xué)問題,明確我們可以獲得什么樣的數(shù)據(jù),學(xué)習(xí)的目標(biāo)是一個什么類型的問題,然后劃歸為 其中的某類問題,比如分類問題、回歸問題、聚類問題、降維問題等。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

第三步:根據(jù)數(shù)據(jù)和算法進(jìn)行學(xué)習(xí)

這一部分包含了數(shù)據(jù)清洗數(shù)據(jù)預(yù)處理、特征工程三大板塊的內(nèi)容。我們依次來做展開~

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

數(shù)據(jù)清洗

數(shù)據(jù)清洗一般根據(jù)具體學(xué)習(xí)任務(wù)或者模型需求而有不同的操作方法,因而難以歸納統(tǒng)一的方法和步驟,但是根據(jù)數(shù)據(jù)不同可以給出下面 常用的數(shù)據(jù)清洗方法。

(1)缺失值處理:大多數(shù)情況下,缺失值需要手工填入( 即手工清理)。當(dāng)然,某些缺失值可以從本數(shù)據(jù)源或其它數(shù)據(jù)源推導(dǎo)出來,這就可以用平均值、 最大值、最小值或更為復(fù)雜的概率估計代替缺失的值,從而達(dá)到清理的目的。

(2)異常值檢測及處理:用統(tǒng)計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分布的值,通過 常識性規(guī)則、業(yè)務(wù)特定規(guī)則等檢查數(shù)據(jù)值。

(3)重復(fù)值檢測及消除方法:數(shù)據(jù)中屬性值相同的記錄被認(rèn)為是重復(fù)記錄,通過判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合并為一條記錄(即 合并/清除)。合并/清除是消重的基本方法。

數(shù)據(jù)預(yù)處理

這里數(shù)據(jù)預(yù)處理不單單是處理我們不一致、錯誤或者異常的數(shù)據(jù),更重要的是保證數(shù)據(jù)能正常傳入模型中進(jìn)行學(xué)習(xí),并達(dá)到預(yù)期的效果。 預(yù)處理的方法涉及很多內(nèi)容,比如歸一化、標(biāo)準(zhǔn)化、連續(xù)數(shù)值型變量分箱、有序分類變量One-Hot編碼、字符型變量數(shù)值化等等。

特征工程

特征工程包括從原始數(shù)據(jù)中特征構(gòu)建、特征提取、特征選擇。特征工程做的好能發(fā)揮原始數(shù)據(jù)的最大效力,往往能夠使得算法的效果和 性能得到顯著的提升,有時能使簡單的模型的效果比復(fù)雜的模型效果好。數(shù)據(jù)挖掘的大部分時間就花在特征工程上面,是機(jī)器學(xué)習(xí)非常 基礎(chǔ)而又必備的步驟。

第四步:模型評估

使用機(jī)器學(xué)習(xí)進(jìn)行判斷/預(yù)測的效果,如果不能接近/超過人類, 那就沒有任何意義。 如果人臉識別不能達(dá)到幾乎100%準(zhǔn)確,根本不可能使用人臉識別 代替人工檢查,所以追求模型預(yù)測準(zhǔn)確是機(jī)器學(xué)習(xí)的核心目標(biāo)。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

運(yùn)算速度 能夠同時處理大量數(shù)據(jù),可以在超短時間內(nèi)極速學(xué)習(xí),是機(jī)器學(xué)習(xí) 的重要優(yōu)勢,如果機(jī)器學(xué)習(xí)的判斷速度不能接近/超越人類,那計 算機(jī)判斷的優(yōu)越性就幾乎不存在了。

模型效果與運(yùn)算速度往往是此消彼長的,在模型效果不錯的情況下 保障運(yùn)算速度較快,是機(jī)器學(xué)習(xí)中重要的一環(huán)。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

可解釋性

機(jī)器學(xué)習(xí)是一門技術(shù),是一門有門檻的技術(shù),所以大眾注定不太 可能短時間內(nèi)熟悉它,但是技術(shù)人員肩負(fù)著要向老板,客戶,同 事,甚至親朋好友解釋機(jī)器學(xué)習(xí)在做什么的職責(zé)。 比如說,在“是否分發(fā)信用卡”的問題中,如果算法判斷“這個 人有違約風(fēng)險,不發(fā)信用卡”,那客戶很可能找上門來要個解釋, 這個時候,你能告訴他說“因?yàn)樗惴ㄅ袛嗄悴煌ㄟ^”嗎? 在解釋性需求很強(qiáng)的領(lǐng)域,我們就需要可解釋的算法。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

服務(wù)于業(yè)務(wù)

而所有的一切,都是為了服務(wù)于業(yè)務(wù)。 只有模型效果優(yōu)秀,運(yùn)算速度快,還帶有一部分可解釋性的算法才是 最優(yōu)秀的算法。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

三、交叉驗(yàn)證

說到交叉驗(yàn)證就不得不提到模型的「泛化能力」,而泛化能力涉及了「訓(xùn)練誤差」和「測試誤差」兩個概念。 訓(xùn)練誤差與測試誤差

我們在進(jìn)行學(xué)習(xí)算法前,通常會將一個樣本集分成訓(xùn)練集(training set)和測試集(testing set),其中訓(xùn)練集用于模型的學(xué)習(xí)或訓(xùn)練, 而后測試集通常用于評估訓(xùn)練好的模型對于數(shù)據(jù)的預(yù)測性能評估。

(1)訓(xùn)練誤差(training error)代表模型在訓(xùn)練集上的錯分樣本比率。

(2)測試誤差(empirical error)是模型在測試集上的錯分樣本比率。

1.泛化能力

訓(xùn)練誤差的大小,用來判斷給定問題是不是一個容易學(xué)習(xí)的的問題。測試誤差則反映了模型對未知數(shù)據(jù)的預(yù)測能力,測試誤差小的學(xué)習(xí) 方法具有很好的預(yù)測能力,如果得到的訓(xùn)練集和測試集的數(shù)據(jù)沒有交集,通常將此預(yù)測能力稱為泛化能力(generalization ability)。

2.那么什么是交叉驗(yàn)證呢?

在業(yè)務(wù)當(dāng)中,我們的訓(xùn)練數(shù)據(jù)往往是已有的歷史數(shù)據(jù),但我們的測試數(shù)據(jù) 卻是新進(jìn)入系統(tǒng)的一系列還沒有標(biāo)簽的未知數(shù)據(jù)。我們的確追求模型的效 果,但我們追求的是模型在未知數(shù)據(jù)集上的效果,在陌生數(shù)據(jù)集上表現(xiàn)優(yōu) 秀的能力被稱為泛化能力,即我們追求的是模型的泛化能力。 我們認(rèn)為,如果模型在一套訓(xùn)練集和數(shù)據(jù)集上表現(xiàn)優(yōu)秀,那說明不了問題, 只有在眾多不同的訓(xùn)練集和測試集上都表現(xiàn)優(yōu)秀,模型才是一個穩(wěn)定的模 型,模型才具有真正意義上的泛化能力。為此,機(jī)器學(xué)習(xí)領(lǐng)域有著發(fā)揮神 奇作用的技能:「交叉驗(yàn)證」,來幫助我們認(rèn)識模型。 數(shù)據(jù)集 測試集 驗(yàn)證集

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

3.交叉驗(yàn)證的常用方法

交叉驗(yàn)證方法有很多,其中最常用的是k折交叉驗(yàn)證。我們知道訓(xùn)練集和測試集的劃分會干擾模型的結(jié)果,因此用交叉驗(yàn)證n次的 結(jié)果求出的均值,是對模型效果的一個更好的度量。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

四、模型評估

1.混淆矩陣

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

混淆矩陣二分類問題的多維衡量指標(biāo)體系,在樣本不平衡時極其有用。在混淆矩陣中,我們將少數(shù)類認(rèn)為是正例,多數(shù)類認(rèn)為是負(fù) 例。在決策樹,隨機(jī)森林這些普通的分類算法里,即是說少數(shù)類是1,多數(shù)類是0。普通的混淆矩陣,一般使用{0,1}來表示。混淆矩陣 正如其名,十分容易讓人混淆,在許多教材中,混淆矩陣中各種各樣的名稱和定義讓大家難以理解難以記憶。這里為大家找出了一種 簡化的方式來顯示標(biāo)準(zhǔn)二分類混淆矩陣,如圖所示:

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

2.模型整體效果:準(zhǔn)確率

準(zhǔn)確率Accuracy 就是所有預(yù)測正確的所有樣本除以總樣本,通常來說越接近1越好。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

3.捕捉少數(shù)類的藝術(shù):精確度,召回率和F1 score

精確度Precision,又叫查準(zhǔn)率。表示所有被我們預(yù)測為是少數(shù)類的樣本中,真正的少數(shù)類所占的比例。精確度越低,則代表我們誤傷 了過多的多數(shù)類。精確度是“將多數(shù)類判錯后所需付出成本”的衡量。 通常做了樣本平衡之后,精確度是下降的。因?yàn)楹苊黠@,樣本平衡之后,有更多的多數(shù)類被我們誤傷了。精確度可以幫助我們判斷, 是否每一次對少數(shù)類的預(yù)測都精確,所以又被稱為“查準(zhǔn)率”。在現(xiàn)實(shí)的樣本不平衡例子中,當(dāng)每一次將多數(shù)類判斷錯誤的成本非常 高昂的時候(比如大眾召回車輛的例子),我們會追求高精確度。精確度越低,我們對多數(shù)類的判斷就會越錯誤。當(dāng)然了,如果我們 的目標(biāo)是不計一切代價捕獲少數(shù)類,那我們并不在意精確度。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

捕捉少數(shù)類的藝術(shù):精確度,召回率和F1 score 召回率Recall,又被稱為敏感度(sensitivity),真正率,查全率。表示所有真實(shí)為1的樣本中,被我們預(yù)測正確的樣本所占的比例。召 回率越高,代表我們盡量捕捉出了越多的少數(shù)類,召回率越低,代表我們沒有捕捉出足夠的少數(shù)類。 召回率可以幫助我們判斷,我們是否捕捉除了全部的少數(shù)類,所以又叫做查全率。 如果我們希望不計一切代價,找出少數(shù)類(比如找出潛在犯罪者的例子),那我們就會追求高召回率,相反如果我們的目標(biāo)不是盡量 捕獲少數(shù)類,那我們就不需要在意召回率。 注意召回率和精確度的分子是相同的(都是11),只是分母不同。而召回率和精確度是此消彼長的,兩者之間的平衡代表了捕捉少數(shù) 類的需求和盡量不要誤傷多數(shù)類的需求的平衡。究竟要偏向于哪一方,取決于我們的業(yè)務(wù)需求:究竟是誤傷多數(shù)類的成本更高,還是 無法捕捉少數(shù)類的代價更高。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

4.捕捉少數(shù)類的藝術(shù):精確度,召回率和F1 score

為了同時兼顧精確度和召回率,我們創(chuàng)造了兩者的調(diào)和平均數(shù)作為考量兩者平衡的綜合性指標(biāo),稱之為F1 measure。兩個數(shù)之間的 調(diào)和平均傾向于靠近兩個數(shù)中比較小的那一個數(shù),因此我們追求盡量高的F1 measure,能夠保證我們的精確度和召回率都比較高。F1 measure在[0,1]之間分布,越接近1越好。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

五、機(jī)器學(xué)習(xí)分類

1.有監(jiān)督學(xué)習(xí)

指對數(shù)據(jù)的若干特征與若干標(biāo)簽(類型)之間的關(guān) 聯(lián)性進(jìn)行建模的過程;只要模型被確定,就可以應(yīng) 用到新的未知數(shù)據(jù)上。這類學(xué)習(xí)過程可以進(jìn)一步分 為「分類」(classification)任務(wù)和「回歸」( regression)任務(wù)。在分類任務(wù)中,標(biāo)簽都是離散 值;而在回歸任務(wù)中,標(biāo)簽都是連續(xù)值。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

2.無監(jiān)督學(xué)習(xí)

指對不帶任何標(biāo)簽的數(shù)據(jù)特征進(jìn)行建模,通常被看 成是一種 “讓數(shù)據(jù)自己介紹自己” 的過程。這類 模型包括「聚類」(clustering)任務(wù)和「降維」 (dimensionality reduction)任務(wù)。聚類算法可 以講數(shù)據(jù)分成不同的組別,而降維算法追求用更簡 潔的方式表現(xiàn)數(shù)據(jù)。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

3.半監(jiān)督學(xué)習(xí)

另外,還有一種半監(jiān)督學(xué)習(xí)(semi-supervised learning)方法, 介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí) 之間。通??梢栽跀?shù)據(jù)不完整時使用。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

4.強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),它將學(xué)習(xí)看作是試探評 價過程,以 "試錯" 的方式進(jìn)行學(xué)習(xí),并與環(huán)境進(jìn) 行交互已獲得獎懲指導(dǎo)行為,以其作為評價。此時 系統(tǒng)靠自身的狀態(tài)和動作進(jìn)行學(xué)習(xí),從而改進(jìn)行動 方案以適應(yīng)環(huán)境。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

六、常用有監(jiān)督學(xué)習(xí)算法

1.KNN算法

一則小故事

在一個酒吧里,吧臺上擺著十杯幾乎一樣的紅酒,老板跟你打趣說想不想來 玩?zhèn)€游戲,贏了免費(fèi)喝酒,輸了付3倍酒錢,那么贏的概率是多少?

你是個愛冒險的人,果斷說玩!

老板接著道:你眼前的這十杯紅酒,每杯略不相同,前五杯屬于「赤霞珠」 后五杯屬于「黑皮諾」?,F(xiàn)在,我重新倒一杯酒,你只需要正確地告訴我它 屬于哪一類。

聽完你有點(diǎn)心虛:根本不懂酒啊,光靠看和嘗根本區(qū)分辨不出來,不過想起 自己是搞機(jī)器學(xué)習(xí)的,不由多了幾分底氣爽快地答應(yīng)了老板!

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

你沒有急著品酒而是問了老板每杯酒的一些具體信息:酒精濃度、顏色深度等,以及一份紙筆。老板一邊倒一杯新酒,你邊 瘋狂打草稿。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

很快,你告訴老板這杯新酒應(yīng)該是「赤霞珠」

老板瞪大了眼下巴也差點(diǎn)驚掉,從來沒有人一口酒都不嘗就能答對,無數(shù)人都是 反復(fù)嘗來嘗去,最后以猶豫不定猜錯而結(jié)束。

你神秘地笑了笑,老板信守承諾讓你開懷暢飲。微醺之時,老板終于忍不住湊向

你打探是怎么做到的。

你炫耀道:無他,但機(jī)器學(xué)習(xí)熟爾。

老板:……

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

2.KNN——算法原理概述

k-近鄰算法的本質(zhì)是通過距離判斷兩個樣本是否相似,如果距離夠近就認(rèn)為他們足夠相似屬于同一類別。 當(dāng)然只對比一個樣本是不夠的,誤差會很大,我們需要找到離其最近的k個樣本,并將這些樣本稱之為「近鄰」(nearest neighbor)。 對這k個近鄰,查看它們的都屬于何種類別(這些類別我們稱作「標(biāo)簽」(labels))。 然后根據(jù)“少數(shù)服從多數(shù),一點(diǎn)算一票”原則進(jìn)行判斷,數(shù)量最多的的標(biāo)簽類別就是新樣本的標(biāo)簽類別。其中涉及到的原理是“越 相近越相似”,這也是KNN的基本假設(shè)。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》

上面有紅色和紫色兩個類別,離黃色點(diǎn)最近的3個點(diǎn)都是紅點(diǎn),所以紅點(diǎn)和紫色類別的投票數(shù)是3:0,紅色取勝,所以黃色點(diǎn)屬于紅 色,也就是新的一杯屬于「赤霞珠」。

3.決策樹算法

決策樹(Decision Tree)是一種實(shí)現(xiàn)分治策略的層次數(shù)據(jù)結(jié)構(gòu), 可以用于分類和回歸。我們主要討論分類的決策樹。 分類決策樹模型表示一種基于特征對實(shí)例進(jìn)行分類的樹形結(jié)構(gòu) (包括二叉樹和多叉樹)。 決策樹由節(jié)點(diǎn)(node)和有向邊(directed edge)組成,樹 中包含三種結(jié)點(diǎn):

(1)根節(jié)點(diǎn)(root node):包含樣本全集。沒有入邊,但有零 條或多條出邊;

(2)內(nèi)部節(jié)點(diǎn)(internal node):對應(yīng)于屬性測試條件,恰有 一條入邊,和兩條或多條出邊;

(3)葉節(jié)點(diǎn)(leaf node)或終節(jié)點(diǎn)(terminal node):對應(yīng) 于決策結(jié)果,恰有一條入邊,但沒有出邊。

4.決策樹——算法原理概述

決策樹學(xué)習(xí)本質(zhì)上是從訓(xùn)練數(shù)據(jù)集中歸納出一組分類規(guī)則,也稱為 "樹歸納"。對于給定的訓(xùn)練數(shù)據(jù)集,存在許多對它無錯編碼的樹。 而為了簡單起見,我們感興趣的是從中選出 "最小" 的樹,這里的樹的大小用樹的結(jié)點(diǎn)數(shù)和決策節(jié)點(diǎn)的復(fù)雜性度量。從另一個角度看, 決策樹學(xué)習(xí)是由訓(xùn)練數(shù)據(jù)集估計條件概率模型。基于特征空間劃分的類的條件概率模型有無數(shù)個,我們選擇的模型應(yīng)該是不僅能對訓(xùn)練數(shù)據(jù)有很好的擬合,而且對未知數(shù)據(jù)也有很好的預(yù)測。

但是,因?yàn)閺乃锌赡艿?a href='/map/jueceshu/' style='color:#000;font-size:inherit;'>決策樹中選取最優(yōu)決策樹是NP完全問題,所以我們必須使用基于啟發(fā)式的局部搜索過程,在合理的時間內(nèi)得 到合理的樹。 樹的學(xué)習(xí)算法是 “貪心算法”,從包含全部訓(xùn)練數(shù)據(jù)的根開始,每一步都選擇最佳劃分。依賴于所選擇的屬性是數(shù)值屬性還是離散屬 性,每次將數(shù)據(jù)劃分為兩個或n個子集,然后使用對應(yīng)的子集遞歸地進(jìn)行劃分,知道所有訓(xùn)練數(shù)據(jù)子集被基本正確分類,或者沒有合適的特征為止,此時,創(chuàng)建一個樹葉結(jié)點(diǎn)并標(biāo)記它,這就生成了一顆決策樹。

綜上,決策樹學(xué)習(xí)算法包含特征選擇、決策樹的生成與決策樹的剪枝。其中,特征選擇運(yùn)用的算法主要包括 “信息熵增益”、“信息 增益比”、“基尼系數(shù)”,分別對應(yīng)不同的樹生成算法ID3、C4.5、CART。

七、常用無監(jiān)督學(xué)習(xí)算法

聚類算法

KNN、決策樹都是比較常用的機(jī)器學(xué)習(xí)算法,它們雖然有著不同的功能,但卻都屬于「有監(jiān)督學(xué)習(xí)」的一部分,即是說,模型在訓(xùn)練 的時候,既需要特征矩陣X,也需要真是標(biāo)簽Y。機(jī)器學(xué)習(xí)當(dāng)中,還有相當(dāng)一部分算法屬于「無監(jiān)督學(xué)習(xí)」,無監(jiān)督的算法在訓(xùn)練的時 候只需要特征矩陣X,不需要標(biāo)簽。無監(jiān)督學(xué)習(xí)的代表算法有聚類算法、降維算法。

CDA LEVEL 1 考試,知識點(diǎn)《<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>基本概念》



點(diǎn)擊CDA題庫鏈接,獲取免費(fèi)版CDA題庫入口,??荚図樌焖倌米C!

更多考試介紹及備考福利請點(diǎn)擊:CDA 認(rèn)證考試中心官網(wǎng)






數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }