
用最簡單的語言來解釋一下數(shù)據(jù)挖掘的十大算法
在一份調(diào)查問卷中,三個獨立專家小組投票選出的十大最有影響力的數(shù)據(jù)挖掘算法,今天我打算用簡單的語言來解釋一下。
一旦你知道了這些算法是什么、怎么工作、能做什么、在哪里能找到,我希望你能把這篇博文當(dāng)做一個跳板,學(xué)習(xí)更多的數(shù)據(jù)挖掘知識。
還等什么?這就開始吧!
C4.5是做什么的?C4.5 以決策樹的形式構(gòu)建了一個分類器。為了做到這一點,需要給定 C4.5 表達(dá)內(nèi)容已分類的數(shù)據(jù)集合。
等下,什么是分類器呢? 分類器是進(jìn)行數(shù)據(jù)挖掘的一個工具,它處理大量需要進(jìn)行分類的數(shù)據(jù),并嘗試預(yù)測新數(shù)據(jù)所屬的類別。
舉個例子吧,假定一個包含很多病人信息的數(shù)據(jù)集。我們知道每個病人的各種信息,比如年齡、脈搏、血壓、最大攝氧量、家族病史等。這些叫做數(shù)據(jù)屬性。
現(xiàn)在:
給定這些屬性,我們想預(yù)測下病人是否會患癌癥。病人可能會進(jìn)入下面兩個分類:會患癌癥或者不會患癌癥。 C4.5 算法會告訴我們每個病人的分類。
做法是這樣的:
用一個病人的數(shù)據(jù)屬性集和對應(yīng)病人的反饋類型,C4.5 構(gòu)建了一個基于新病人屬性預(yù)測他們類型的決策樹。
這點很棒,那么什么是決策樹呢?決策樹學(xué)習(xí)是創(chuàng)建一種類似與流程圖的東西對新數(shù)據(jù)進(jìn)行分類。使用同樣的病人例子,一個特定的流程圖路徑可以是這樣的:
基本原則是:
流程圖的每個環(huán)節(jié)都是一個關(guān)于屬性值的問題,并根據(jù)這些數(shù)值,病人就被分類了。你可以找到很多決策樹的例子。
算法是監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí)呢?這是一個監(jiān)督學(xué)習(xí)算法,因為訓(xùn)練數(shù)據(jù)是已經(jīng)分好類的。使用分好類的病人數(shù)據(jù),C4.5算法不需要自己學(xué)習(xí)病人是否會患癌癥。
那 C4.5 算法和決策樹系統(tǒng)有什么區(qū)別呢?
首先,C4.5 算法在生成信息樹的時候使用了信息增益。
其次,盡管其他系統(tǒng)也包含剪枝,C4.5使用了一個單向的剪枝過程來緩解過渡擬合。剪枝給結(jié)果帶來了很多改進(jìn)。
再次,C4.5算法既可以處理連續(xù)數(shù)據(jù)也可以處理離散數(shù)據(jù)。我的理解是,算法通過對連續(xù)的數(shù)據(jù)指定范圍或者閾值,從而把連續(xù)數(shù)據(jù)轉(zhuǎn)化為離散的數(shù)據(jù)。
最后,不完全的數(shù)據(jù)用算法自有的方式進(jìn)行了處理。
為什么使用 C4.5算法呢?可以這么說,決策樹最好的賣點是他們方便于翻譯和解釋。他們速度也很快,是種比較流行的算法。輸出的結(jié)果簡單易懂。
哪里可以使用它呢? 在 OpenTox 上可以找到一個很流行的開源 Java實現(xiàn)方法。Orange 是一個用于數(shù)據(jù)挖掘的開源數(shù)據(jù)可視化和分析工具,它的決策樹分類器是用 C4.5實現(xiàn)的。
分類器是很棒的東西,但也請看看下一個聚類算法….
它是做什么的呢?K-聚類算法從一個目標(biāo)集中創(chuàng)建多個組,每個組的成員都是比較相似的。這是個想要探索一個數(shù)據(jù)集時比較流行的聚類分析技術(shù)。
等下,什么是聚類分析呢?聚類分析屬于設(shè)計構(gòu)建組群的算法,這里的組成員相對于非組成員有更多的相似性。在聚類分析的世界里,類和組是相同的意思。
舉個例子,假設(shè)我們定義一個病人的數(shù)據(jù)集。在聚類分析里,這些病人可以叫做觀察對象。我們知道每個病人的各類信息,比如年齡、血壓、血型、最大含氧量和膽固醇含量等。這是一個表達(dá)病人特性的向量。
請看:
你可以基本認(rèn)為一個向量代表了我們所知道的病人情況的一列數(shù)據(jù)。這列數(shù)據(jù)也可以理解為多維空間的坐標(biāo)。脈搏是一維坐標(biāo),血型是其他維度的坐標(biāo)等等。
你可能會有疑問:
給定這個向量集合,我們怎么把具有相似年齡、脈搏和血壓等數(shù)據(jù)的病人聚類呢?
想知道最棒的部分是什么嗎?
你告訴 k-means 算法你想要多少種類。K-means 算法會處理后面的部分。
那它是怎么處理的呢?k-means 算法有很多優(yōu)化特定數(shù)據(jù)類型的變量。
Kmeans算法更深層次的這樣處理問題:
這算法是監(jiān)督的還是非監(jiān)督的呢?這要看情況了,但是大多數(shù)情況下 k-means 會被劃分為非監(jiān)督學(xué)習(xí)的類型。并不是指定分類的個數(shù),也沒有觀察對象該屬于那個類的任何信息,k-means算法自己“學(xué)習(xí)”如何聚類。k-means 可以是半監(jiān)督的。
為什么要使用 k-means 算法呢?我認(rèn)為大多數(shù)人都同意這一點:
k-means 關(guān)鍵賣點是它的簡單。它的簡易型意味著它通常要比其他的算法更快更有效,尤其是要大量數(shù)據(jù)集的情況下更是如此。
他可以這樣改進(jìn):
k-means 可以對已經(jīng)大量數(shù)據(jù)集進(jìn)行預(yù)先聚類處理,然后在針對每個子類做成本更高點的聚類分析。k-means 也能用來快速的處理“K”和探索數(shù)據(jù)集中是否有被忽視的模式或關(guān)系。
但用k-means 算法也不是一帆風(fēng)順的:
k means算法的兩個關(guān)鍵弱點分別是它對異常值的敏感性和它對初始中心點選擇的敏感性。最后一個需要記住的是, K-means 算法是設(shè)計來處理連續(xù)數(shù)據(jù)的。對于離散數(shù)據(jù)你需要使用一些小技巧后才能讓 K-means 算法奏效。
Kmeans 在哪里使用過呢? 網(wǎng)上有很多可獲得的 kmeans 聚類算法的語言實現(xiàn):
Apache Mahout
Julia
R
SciPy
Weka
MATLAB
SAS
如果決策樹和聚類算法還沒有打動你,那么你會喜歡下一個算法的。
它是做什么的呢?支持向量機(SVM)獲取一個超平面將數(shù)據(jù)分成兩類。以高水準(zhǔn)要求來看,除了不會使用決策樹以外,SVM與 C4.5算法是執(zhí)行相似的任務(wù)的。
咦?一個超..什么? 超平面(hyperplane)是個函數(shù),類似于解析一條線的方程。實際上,對于只有兩個屬性的簡單分類任務(wù)來說,超平面可以是一條線的。
其實事實證明:
SVM 可以使用一個小技巧,把你的數(shù)據(jù)提升到更高的維度去處理。一旦提升到更高的維度中,SVM算法會計算出把你的數(shù)據(jù)分離成兩類的最好的超平面。
有例子么?當(dāng)然,舉個最簡單的例子。我發(fā)現(xiàn)桌子上開始就有一堆紅球和藍(lán)球,如果這這些球沒有過分的混合在一起,不用移動這些球,你可以拿一根棍子把它們分離開。
你看,當(dāng)在桌上加一個新球時,通過已經(jīng)知道的棍字的哪一邊是哪個顏色的球,你就可以預(yù)測這個新球的顏色了。
最酷的部分是什么呢?SVM 算法可以算出這個超平面的方程。
如果事情變得更復(fù)雜該怎么辦?當(dāng)然了,事情通常都很復(fù)雜。如果球是混合在一起的,一根直棍就不能解決問題了。
下面是解決方案:
快速提起桌子,把所有的球拋向空中,當(dāng)所有的球以正確的方式拋在空中是,你使用一張很大的紙在空中分開這些球。
你可能會想這是不是犯規(guī)了。不,提起桌子就等同于把你的數(shù)據(jù)映射到了高維空間中。這個例子中,我們從桌子表面的二維空間過度到了球在空中的三維空間。
那么 SVM該怎么做呢?通過使用核函數(shù)(kernel),我們在高維空間也有很棒的操作方法。這張大紙依然叫做超平面,但是現(xiàn)在它對應(yīng)的方程是描述一個平面而不是一條線了。根據(jù) Yuval 的說法,一旦我們在三維空間處理問題,超平面肯定是一個面而不是線了。
關(guān)于 SVM的解釋思路,Reddit 的 ELI5 和 ML 兩個子版塊上也有兩個很棒的討論帖。
那么在桌上或者空中的球怎么用現(xiàn)實的數(shù)據(jù)解釋呢?桌上的每個球都有自己的位置,我們可以用坐標(biāo)來表示。打個比方,一個球可能是距離桌子左邊緣20cm 距離底部邊緣 50 cm,另一種描述這個球的方式是使用坐標(biāo)(x,y)或者(20,50)表達(dá)。x和 y 是代表球的兩個維度。
可以這樣理解:如果我們有個病人的數(shù)據(jù)集,每個病人可以用很多指標(biāo)來描述,比如脈搏,膽固醇水平,血壓等。每個指標(biāo)都代表一個維度。
基本上,SVM 把數(shù)據(jù)映射到一個更高維的空間然后找到一個能分類的超平面。
類間間隔(margin)經(jīng)常會和 SVM 聯(lián)系起來,類間間隔是什么呢?它是超平面和各自類中離超平面最近的數(shù)據(jù)點間的距離。在球和桌面的例子中,棍子和最近的紅球和藍(lán)球間的距離就是類間間隔(margin)。
SVM 的關(guān)鍵在于,它試圖最大化這個類間間隔,使分類的超平面遠(yuǎn)離紅球和藍(lán)球。這樣就能降低誤分類的可能性。
那么支持向量機的名字是哪里來的?還是球和桌子的例子中,超平面到紅球和藍(lán)球的距離是相等的。這些球或者說數(shù)據(jù)點叫做支持向量,因為它們都是支持這個超平面的。
那這是監(jiān)督算法還是非監(jiān)督的呢?SVM 屬于監(jiān)督學(xué)習(xí)。因為開始需要使用一個數(shù)據(jù)集讓 SVM學(xué)習(xí)這些數(shù)據(jù)中的類型。只有這樣之后 SVM 才有能力對新數(shù)據(jù)進(jìn)行分類。
為什么我們要用 SVM 呢? SVM 和 C4.5大體上都是優(yōu)先嘗試的二類分類器。根據(jù)“沒有免費午餐原理”,沒有哪一種分類器在所有情況下都是最好的。此外,核函數(shù)的選擇和可解釋性是算法的弱點所在。
在哪里使用 SVM?有什么 SVM 的實現(xiàn)方法,比較流行的是用scikit-learn, MATLAB 和 libsvm實現(xiàn)的這幾種。
下面要介紹的算法是我最喜歡的算法之一:
它是做什么的?Apriori算法學(xué)習(xí)數(shù)據(jù)的關(guān)聯(lián)規(guī)則(association rules),適用于包含大量事務(wù)(transcation)的數(shù)據(jù)庫。
什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)庫中不同變量中的相互關(guān)系的一種數(shù)據(jù)挖掘技術(shù)。
舉個 Apriori 算法的例子:我們假設(shè)有一個充滿超市交易數(shù)據(jù)的數(shù)據(jù)庫,你可以把數(shù)據(jù)庫想象成一個巨大的電子數(shù)據(jù)表,表里每一行是一個顧客的交易情況,每一列代表不用的貨物項。
精彩的部分來了:通過使用 Apriori 算法,我們就知道了同時被購買的貨物項,這也叫做關(guān)聯(lián)規(guī)則。它的強大之處在于,你能發(fā)現(xiàn)相比較其他貨物來說,有一些貨物更頻繁的被同時購買—終極目的是讓購物者買更多的東西。這些常被一起購買的貨物項被稱為項集(itemset)。
舉個例子,你大概能很快看到“薯條+蘸醬”和“薯條+蘇打水”的組合頻繁的一起出現(xiàn)。這些組合被稱為2-itemsets。在一個足夠大的數(shù)據(jù)集中,就會很難“看到”這些關(guān)系了,尤其當(dāng)還要處理3-itemset 或者更多項集的時候。這正是 Apriori 可以幫忙的地方!
你可能會對 Apriori 算法如何工作有疑問,在進(jìn)入算法本質(zhì)和細(xì)節(jié)之前,得先明確3件事情:
基本的 Apriori 算法有三步:
這個算法是監(jiān)督的還是非監(jiān)督的?Apriori 一般被認(rèn)為是一種非監(jiān)督的學(xué)習(xí)方法,因為它經(jīng)常用來挖掘和發(fā)現(xiàn)有趣的模式和關(guān)系。
但是,等下,還有呢…對Apriori 算法改造一下也能對已經(jīng)標(biāo)記好的數(shù)據(jù)進(jìn)行分類。
為什么使用Apriori 算法?它易于理解,應(yīng)用簡單,還有很多的派生算法。
但另一方面…
當(dāng)生成項集的時候,算法是很耗費內(nèi)存、空間和時間。
大量的 Apriori 算法的語言實現(xiàn)可供使用。比較流行的是 ARtool, Weka, and Orange。
下一個算法對我來說是最難的,一起來看下吧。
EM 算法是做什么的?在數(shù)據(jù)挖掘領(lǐng)域,最大期望算法(Expectation-Maximization,EM) 一般作為聚類算法(類似 kmeans 算法)用來知識挖掘。
在統(tǒng)計學(xué)上,當(dāng)估算帶有無法觀測隱藏變量的統(tǒng)計模型參數(shù)時,EM 算法不斷迭代和優(yōu)化可以觀測數(shù)據(jù)的似然估計值。
好,稍等讓我解釋一下…
我不是一個統(tǒng)計學(xué)家,所以希望我的簡潔表達(dá)能正確并能幫助理解。
下面是一些概念,能幫我們更好的理解問題。
什么事統(tǒng)計模型?我把模型看做是描述觀測數(shù)據(jù)是如何生成的。例如,一場考試的分?jǐn)?shù)可能符合一種鐘形曲線,因此這種分?jǐn)?shù)分布符合鐘形曲線(也稱正態(tài)分布)的假設(shè)就是模型。
等下,那什么是分布?分布代表了對所有可測量結(jié)果的可能性。例如,一場考試的分?jǐn)?shù)可能符合一個正態(tài)分布。這個正態(tài)分布代表了分?jǐn)?shù)的所有可能性。換句話說,給定一個分?jǐn)?shù),你可以用這個分布來預(yù)計多少考試參與者可能會得到這個分?jǐn)?shù)。
這很不錯,那模型的參數(shù)又是什么呢?作為模型的一部分,分布屬性正是由參數(shù)來描述的。例如,一個鐘形曲線可以用它的均值和方差來描述。
還是使用考試的例子,一場考試的分?jǐn)?shù)分布(可測量的結(jié)果)符合一個鐘形曲線(就是分布)。均值是85,方差是100.
那么,你描述正態(tài)分布需要的所有東西就是這兩個參數(shù):
那么,似然性呢?回到我們之前的鐘形曲線例子,假設(shè)我們已經(jīng)拿到很多的分?jǐn)?shù)數(shù)據(jù),并被告知分?jǐn)?shù)符合一個鐘形曲線。然而,我們并沒有給到所有的分?jǐn)?shù),只是拿到了一個樣本。
可以這樣做:
我們不知道所有分?jǐn)?shù)的平均值或者方差,但是我們可以使用樣本計算它們。似然性就是用估計的方差和平均值得到的鐘形曲線在算出很多分?jǐn)?shù)的概率。
換句話說,給定一系列可測定的結(jié)果,讓我們來估算參數(shù)。再使用這些估算出的參數(shù),得到結(jié)果的這個假設(shè)概率就被稱為似然性。
記住,這是已存在分?jǐn)?shù)的假設(shè)概率,并不是未來分?jǐn)?shù)的概率。
你可能會疑問,那概率又是什么?
還用鐘形曲線的例子解釋,假設(shè)我們知道均值和方差。然我們被告知分?jǐn)?shù)符合鐘形曲線。我們觀察到的某些分?jǐn)?shù)的可能性和他們多久一次的被觀測到就是概率。
更通俗的講,給定參數(shù),讓我們來計算可以觀察到什么結(jié)果。這就是概率為我們做的事情。
很好,現(xiàn)在,觀測到的數(shù)據(jù)和未觀測到的隱藏數(shù)據(jù)區(qū)別在哪里?觀測到的數(shù)據(jù)就是你看到或者記錄的數(shù)據(jù)。未觀測的數(shù)據(jù)就是遺失的數(shù)據(jù)。數(shù)據(jù)丟失的原因有很多(沒有記錄,被忽視了,等等原因)。
算法的優(yōu)勢是:對于數(shù)據(jù)挖掘和聚類,觀察到遺失的數(shù)據(jù)的這類數(shù)據(jù)點對我們來說很重要。我們不知道具體的類,因此這樣處理丟失數(shù)據(jù)對使用 EM 算法做聚類的任務(wù)來說是很關(guān)鍵的。
再說一次,當(dāng)估算帶有無法觀測隱藏變量的統(tǒng)計模型參數(shù)時,EM 算法不斷迭代和優(yōu)化可以觀測數(shù)據(jù)的似然估計值。 希望現(xiàn)在再說更容易理解了。
算法的精髓在于:
通過優(yōu)化似然性,EM 生成了一個很棒的模型,這個模型可以對數(shù)據(jù)點指定類型標(biāo)簽—聽起來像是聚類算法!
EM 算法是怎么幫助實現(xiàn)聚類的呢?EM 算法以對模型參數(shù)的猜測開始。然后接下來它會進(jìn)行一個循環(huán)的3步:
EM 是監(jiān)督算法還是非監(jiān)督算法呢?因為我們不提供已經(jīng)標(biāo)好的分類信息,這是個非監(jiān)督學(xué)習(xí)算法。
為什么使用它?EM 算法的一個關(guān)鍵賣點就是它的實現(xiàn)簡單直接。另外,它不但可以優(yōu)化模型參數(shù),還可以反復(fù)的對丟失數(shù)據(jù)進(jìn)行猜測。
這使算法在聚類和產(chǎn)生帶參數(shù)的模型上都表現(xiàn)出色。在得知聚類情況和模型參數(shù)的情況下,我們有可能解釋清楚有相同屬性的分類情況和新數(shù)據(jù)屬于哪個類之中。
不過EM 算法也不是沒有弱點…
第一,EM 算法在早期迭代中都運行速度很快,但是越后面的迭代速度越慢。
第二,EM 算法并不能總是尋到最優(yōu)參數(shù),很容易陷入局部最優(yōu)而不是找到全局最優(yōu)解。
EM 算法實現(xiàn)可以在 Weka中找到,mclust package里面有 R 語言對算法的實現(xiàn),scikit-learn的gmm module里也有對它的實現(xiàn)。
6.PageRank算法
算法是做什么的?PageRank是為了決定一些對象和同網(wǎng)絡(luò)中的其他對象之間的相對重要程度而設(shè)計的連接分析算法(link analysis algorithm)。
那么什么是連接分析算法呢?它是一類針對網(wǎng)絡(luò)的分析算法,探尋對象間的關(guān)系(也可成為連接)。
舉個例子:最流行的 PageRank 算法是 Google 的搜索引擎。盡管他們的搜索引擎不止是依靠它,但 PageRank依然是 Google 用來測算網(wǎng)頁重要度的手段之一。
解釋一下:
萬維網(wǎng)上的網(wǎng)頁都是互相鏈接的。如果 Rayli.net 鏈接到了 CNN 上的一個網(wǎng)頁,CNN 網(wǎng)頁就增加一個投票,表示 rayli.net 和 CNN 網(wǎng)頁是關(guān)聯(lián)的。
這還沒有結(jié)束:
反過來,來自rayli.net 網(wǎng)頁的投票重要性也要根據(jù) rayli.net 網(wǎng)的重要性和關(guān)聯(lián)性來權(quán)衡。換句話說,任何給 rayli.net 投票的網(wǎng)頁也能提升 rayli.net 網(wǎng)頁的關(guān)聯(lián)性。
基本概括一下:
投票和關(guān)聯(lián)性就是 PageRank 的概念。rayli.net 給CNN 投票增加了 CNN 的 Pagerank,rayli.net 的 PageRank級別同時也影響著它為 CNN 投票多大程度影響了CNN 的 PageRank。
那么 PageRank 的0,1,2,3級別是什么意思? 盡管 Google 并沒有揭露PageRank 的精確含義,我們還是能了解它的大概意思。
我們能通過下面這些網(wǎng)站的PageRank得到些答案:
看到了么?
這排名有點像一個網(wǎng)頁流行度的競爭。我們的頭腦中都有了一些這些網(wǎng)站的流行度和關(guān)聯(lián)度的信息。
PageRank只是一個特別講究的方式來定義了這些而已。
PageRank還有什么其他應(yīng)用呢? PageRank是專門為了萬維網(wǎng)設(shè)計的。
可以考慮一下,以核心功能的角度看,PageRank算法真的只是一個處理鏈接分析極度有效率的方法。處理的被鏈接的對象不止只是針對網(wǎng)頁。
下面是 PageRank3個創(chuàng)新的應(yīng)用:
這算法是監(jiān)督的還是非監(jiān)督的?PageRank常用來發(fā)現(xiàn)一個網(wǎng)頁的重要度關(guān)聯(lián)度,通常被認(rèn)為是一種非監(jiān)督學(xué)習(xí)算法。
為什么使用PageRank?可以說,PageRank的主要賣點是:由于得到新相關(guān)鏈接具有難度,算法依然具有良好的魯棒性。
更簡單一點說,如果你又一個圖或者網(wǎng)絡(luò),并想理解其中元素的相對重要性,優(yōu)先性,排名或者相關(guān)性,可以用PageRank試一試。
哪里使用過它呢?Google 擁有PageRank 的商標(biāo)。但是斯坦福大學(xué)取得了PageRank 算法的專利權(quán)。如果使用 PageRank,你可能會有疑問: 我不是律師,所以最好和一個真正的律師確認(rèn)一下。但是只要和 Google 或斯坦福沒有涉及到商業(yè)競爭,應(yīng)該都是可以使用這個算法的。
給出PageRank 的三個實現(xiàn):
1 C++ OpenSource PageRank Implementation
2 Python PageRank Implementation
3 igraph – The network analysis package (R)
AdaBoost 算法是做什么的?AdaBoost 是個構(gòu)建分類器的提升算法。
也許你還記得,分類器拿走大量數(shù)據(jù),并試圖預(yù)測或者分類新數(shù)據(jù)元素的屬于的類別。
但是,提升(boost) 指的什么?提升是個處理多個學(xué)習(xí)算法(比如決策樹)并將他們合并聯(lián)合起來的綜合的學(xué)習(xí)算法。目的是將弱學(xué)習(xí)算法綜合或形成一個組,把他們聯(lián)合起來創(chuàng)造一個新的強學(xué)習(xí)器。
強弱學(xué)習(xí)器之間有什么區(qū)別呢?弱學(xué)習(xí)分類器的準(zhǔn)確性僅僅比猜測高一點。一個比較流行的弱分類器的例子就是只有一層的決策樹。
另一個,強學(xué)習(xí)分類器有更高的準(zhǔn)確率,一個通用的強學(xué)習(xí)器的例子就是 SVM。
舉個 AdaBoost 算法的例子:我們開始有3個弱學(xué)習(xí)器,我們將在一個包含病人數(shù)據(jù)的數(shù)據(jù)訓(xùn)練集上對他們做10輪訓(xùn)練。數(shù)據(jù)集里包含了病人的醫(yī)療記錄各個細(xì)節(jié)。
問題來了,那我們怎么預(yù)測某個病人是否會得癌癥呢?AdaBoost 是這樣給出答案的:
第一輪,AdaBoost 拿走一些訓(xùn)練數(shù)據(jù),然后測試每個學(xué)習(xí)器的準(zhǔn)確率。最后的結(jié)果就是我們找到最好的那個學(xué)習(xí)器。另外,誤分類的樣本學(xué)習(xí)器給予一個比較高的權(quán)重,這樣他們在下輪就有很高的概率被選中了。
再補充一下,最好的那個學(xué)習(xí)器也要給根據(jù)它的準(zhǔn)確率賦予一個權(quán)重,并將它加入到聯(lián)合學(xué)習(xí)器中(這樣現(xiàn)在就只有一個分類器了)
第二輪, AdaBoost 再次試圖尋找最好的學(xué)習(xí)器。
關(guān)鍵部分來了,病人數(shù)據(jù)樣本的訓(xùn)練數(shù)據(jù)現(xiàn)在被有很高誤分配率的權(quán)重影響著。換句話說,之前誤分類的病人在這個樣本里有很高的出現(xiàn)概率。
為什么?
這就像是在電子游戲中已經(jīng)打到了第二級,但當(dāng)你的角色死亡后卻不必從頭開始。而是你從第二級開始然后集中注意,盡力升到第三級。
同樣地,第一個學(xué)習(xí)者有可能對一些病人的分類是正確的,與其再度試圖對他們分類,不如集中注意盡力處理被誤分類的病人。
最好的學(xué)習(xí)器也被再次賦予權(quán)重并加入到聯(lián)合分類器中,誤分類的病人也被賦予權(quán)重,這樣他們就有比較大的可能性再次被選中,我們會進(jìn)行過濾和重復(fù)。
在10輪結(jié)束的時候,我們剩下了一個帶著不同權(quán)重的已經(jīng)訓(xùn)練過的聯(lián)合學(xué)習(xí)分類器,之后重復(fù)訓(xùn)練之前回合中被誤分類的數(shù)據(jù)。
這是個監(jiān)督還是非監(jiān)督算法?因為每一輪訓(xùn)練帶有已經(jīng)標(biāo)記好數(shù)據(jù)集的弱訓(xùn)練器,因此這是個監(jiān)督學(xué)習(xí)。
為什么使用 AdaBoost?AdaBoost算法簡單, 編程相對來說簡潔直白。
另外,它速度快!弱學(xué)習(xí)器 一般都比強學(xué)習(xí)器簡單,簡單意味著它們的運行速度可能更快。
還有件事:
因為每輪連續(xù)的Adaboost回合都重新定義了每個最好學(xué)習(xí)器的權(quán)重,因此這是個自動調(diào)整學(xué)習(xí)分類器的非常簡潔的算法,你所要做的所有事就是指定運行的
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03