99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀機(jī)器學(xué)習(xí)與深度學(xué)習(xí)核心知識點(diǎn)總結(jié)(一)
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)核心知識點(diǎn)總結(jié)(一)
2019-12-02
收藏
<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

作者 | 小小挖掘機(jī)

來源 | SIGAI

數(shù)學(xué)

1.列舉常用的最優(yōu)化方法

梯度下降法

牛頓法,

擬牛頓法

坐標(biāo)下降法

梯度下降法的改進(jìn)型如AdaDelta,AdaGrad,Adam,NAG等。

2.梯度下降法的關(guān)鍵點(diǎn)

梯度下降法沿著梯度的反方向進(jìn)行搜索,利用了函數(shù)的一階導(dǎo)數(shù)信息。梯度下降法的迭代公式為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

根據(jù)函數(shù)的一階泰勒展開,在負(fù)梯度方向,函數(shù)值是下降的。只要學(xué)習(xí)率設(shè)置的足夠小,并且沒有到達(dá)梯度為0的點(diǎn)處,每次迭代時函數(shù)值一定會下降。需要設(shè)置學(xué)習(xí)率為一個非常小的正數(shù)的原因是要保證迭代之后的xk+1位于迭代之前的值xk的鄰域內(nèi),從而可以忽略泰勒展開中的高次項(xiàng),保證迭代時函數(shù)值下降。

梯度下降法只能保證找到梯度為0的點(diǎn),不能保證找到極小值點(diǎn)。迭代終止的判定依據(jù)是梯度值充分接近于0,或者達(dá)到最大指定迭代次數(shù)。

梯度下降法在機(jī)器學(xué)習(xí)中應(yīng)用廣泛,尤其是在深度學(xué)習(xí)中。AdaDelta,AdaGrad,Adam,NAG等改進(jìn)的梯度下降法都是用梯度構(gòu)造更新項(xiàng),區(qū)別在于更新項(xiàng)的構(gòu)造方式不同。

3.牛頓法的關(guān)鍵點(diǎn)

牛頓法利用了函數(shù)的一階和二階導(dǎo)數(shù)信息,直接尋找梯度為0的點(diǎn)。牛頓法的迭代公式為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

其中H為Hessian矩陣,g為梯度向量。牛頓法不能保證每次迭代時函數(shù)值下降,也不能保證收斂到極小值點(diǎn)。在實(shí)現(xiàn)時,也需要設(shè)置學(xué)習(xí)率,原因和梯度下降法相同,是為了能夠忽略泰勒展開中的高階項(xiàng)。學(xué)習(xí)率的設(shè)置通常采用直線搜索(line search)技術(shù)。

在實(shí)現(xiàn)時,一般不直接求Hessian矩陣的逆矩陣,而是求解下面的線性方程組:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

其解d稱為牛頓方向。迭代終止的判定依據(jù)是梯度值充分接近于0,或者達(dá)到最大指定迭代次數(shù)。

牛頓法比梯度下降法有更快的收斂速度,但每次迭代時需要計算Hessian矩陣,并求解一個線性方程組,運(yùn)算量大。另外,如果Hessian矩陣不可逆,則這種方法失效。

4.拉格朗日乘數(shù)法

拉格朗日乘數(shù)法是一個理論結(jié)果,用于求解帶有等式約束的函數(shù)極值。對于如下問題:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

構(gòu)造拉格朗日乘子函數(shù):

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

在最優(yōu)點(diǎn)處對x和乘子變量的導(dǎo)數(shù)都必須為0:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

解這個方程即可得到最優(yōu)解。對拉格朗日乘數(shù)法更詳細(xì)的講解可以閱讀任何一本高等數(shù)學(xué)教材。機(jī)器學(xué)習(xí)中用到拉格朗日乘數(shù)法的地方有:

主成分分析

線性判別分析

流形學(xué)習(xí)中的拉普拉斯特征映射

隱馬爾科夫模型

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

5.凸優(yōu)化

數(shù)值優(yōu)化算法面臨兩個方面的問題:局部極值,鞍點(diǎn)。前者是梯度為0的點(diǎn),也是極值點(diǎn),但不是全局極小值;后者連局部極值都不是,在鞍點(diǎn)處Hessian矩陣不定,即既非正定,也非負(fù)定。

凸優(yōu)化通過對目標(biāo)函數(shù),優(yōu)化變量的可行域進(jìn)行限定,可以保證不會遇到上面兩個問題。凸優(yōu)化是一類特殊的優(yōu)化問題,它要求:

優(yōu)化變量的可行域是一個凸集

目標(biāo)函數(shù)是一個凸函數(shù)

凸優(yōu)化最好的一個性質(zhì)是:所有局部最優(yōu)解一定是全局最優(yōu)解。機(jī)器學(xué)習(xí)中典型的凸優(yōu)化問題有:

線性回歸

嶺回歸

LASSO回歸

Logistic回歸

支持向量機(jī)

Softamx回歸

6.拉格朗日對偶

對偶是最優(yōu)化方法里的一種方法,它將一個最優(yōu)化問題轉(zhuǎn)換成另外一個問題,二者是等價的。拉格朗日對偶是其中的典型例子。對于如下帶等式約束和不等式約束的優(yōu)化問題:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

與拉格朗日乘數(shù)法類似,構(gòu)造廣義拉格朗日函數(shù):

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)
<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

必須滿足

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

的約束。原問題為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

即先固定住x,調(diào)整拉格朗日乘子變量,讓函數(shù)L取極大值;然后控制變量x,讓目標(biāo)函數(shù)取極小值。原問題與我們要優(yōu)化的原始問題是等價的。

對偶問題為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

和原問題相反,這里是先控制變量x,讓函數(shù)L取極小值;然后控制拉格朗日乘子變量,讓函數(shù)取極大值。

一般情況下,原問題的最優(yōu)解大于等于對偶問題的最優(yōu)解,這稱為弱對偶。在某些情況下,原問題的最優(yōu)解和對偶問題的最優(yōu)解相等,這稱為強(qiáng)對偶。

強(qiáng)對偶成立的一種條件是Slater條件:一個凸優(yōu)化問題如果存在一個候選x使得所有不等式約束都是嚴(yán)格滿足的,即對于所有的i都有gi (x)<0,不等式不取等號,則強(qiáng)對偶成立,原問題與對偶問題等價。注意,Slater條件是強(qiáng)對偶成立的充分條件而非必要條件。

拉格朗日對偶在機(jī)器學(xué)習(xí)中的典型應(yīng)用是支持向量機(jī)。

7.KKT條件

KKT條件是拉格朗日乘數(shù)法的推廣,用于求解既帶有等式約束,又帶有不等式約束的函數(shù)極值。對于如下優(yōu)化問題:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

和拉格朗日對偶的做法類似,KKT條件構(gòu)如下乘子函數(shù):

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

λ和μ稱為KKT乘子。在最優(yōu)解處

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

應(yīng)該滿足如下條件:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

等式約束

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

和不等式約束

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

是本身應(yīng)該滿足的約束,

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

和之前的拉格朗日乘數(shù)法一樣。唯一多了關(guān)于gi (x)的條件:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

KKT條件只是取得極值的必要條件而不是充分條件。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

8.特征值與特征向量

對于一個n階矩陣A,如果存在一個數(shù)λ和一個非0向量X,滿足:

則稱λ為矩陣A的特征值,X為該特征值對應(yīng)的特征向量。根據(jù)上面的定義有下面線性方程組成立:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

根據(jù)線性方程組的理論,要讓齊次方程有非0解,系數(shù)矩陣的行列式必須為0,即:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

上式左邊的多項(xiàng)式稱為矩陣的特征多項(xiàng)式。矩陣的跡定義為主對角線元素之和:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

根據(jù)韋達(dá)定理,矩陣所有特征值的和為矩陣的跡:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

同樣可以證明,矩陣所有特征值的積為矩陣的行列式:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

利用特征值和特征向量,可以將矩陣對角化,即用正交變換將矩陣化為對角陣。實(shí)對稱矩陣一定可以對角化,半正定矩陣的特征值都大于等于0,在機(jī)器學(xué)習(xí)中,很多矩陣都滿足這些條件。特征值和特征向量在機(jī)器學(xué)習(xí)中的應(yīng)用包括:正態(tài)貝葉斯分類器、主成分分析,流形學(xué)習(xí),線性判別分析,譜聚類等。

9.奇異值分解

矩陣對角化只適用于方陣,如果不是方陣也可以進(jìn)行類似的分解,這就是奇異值分解,簡稱SVD。假設(shè)A是一個m x n的矩陣,則存在如下分解:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

其中U為m x m的正交矩陣,其列稱為矩陣A的左奇異向量;

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

m x n的對角矩陣,除了主對角線

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

以外,其他元素都是0;V為n x n的正交矩陣,其行稱為矩陣A的右奇異向量。U的列為AAT的特征向量,V的列為AT A的特征向量。

10.最大似然估計

有些應(yīng)用中已知樣本服從的概率分布,但是要估計分布函數(shù)的參數(shù)

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

,確定這些參數(shù)常用的一種方法是最大似然估計。

最大似然估計構(gòu)造一個似然函數(shù),通過讓似然函數(shù)最大化,求解出θ。最大似然估計的直觀解釋是,尋求一組參數(shù),使得給定的樣本集出現(xiàn)的概率最大。

假設(shè)樣本服從的概率密度函數(shù)為

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

,其中X為隨機(jī)變量,θ為要估計的參數(shù)。給定一組樣本xi,i =1,...,l,它們都服從這種分布,并且相互獨(dú)立。最大似然估計構(gòu)造如下似然函數(shù):

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

其中xi是已知量,這是一個關(guān)于θ的函數(shù),我們要讓該函數(shù)的值最大化,這樣做的依據(jù)是這組樣本發(fā)生了,因此應(yīng)該最大化它們發(fā)生的概率,即似然函數(shù)。這就是求解如下最優(yōu)化問題:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

乘積求導(dǎo)不易處理,因此我們對該函數(shù)取對數(shù),得到對數(shù)似然函數(shù):

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

最后要求解的問題為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

最大似然估計在機(jī)器學(xué)習(xí)中的典型應(yīng)用包括logistic回歸,貝葉斯分類器,隱馬爾科夫模型等。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

基本概念

1.有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)

根據(jù)樣本數(shù)據(jù)是否帶有標(biāo)簽值,可以將機(jī)器學(xué)習(xí)算法分成有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)帶有標(biāo)簽值,它從訓(xùn)練樣本中學(xué)習(xí)得到一個模型,然后用這個模型對新的樣本進(jìn)行預(yù)測推斷。有監(jiān)督學(xué)習(xí)的典型代表是分類問題和回歸問題。

無監(jiān)督學(xué)習(xí)對沒有標(biāo)簽的樣本進(jìn)行分析,發(fā)現(xiàn)樣本集的結(jié)構(gòu)或者分布規(guī)律。無監(jiān)督學(xué)習(xí)的典型代表是聚類,表示學(xué)習(xí),和數(shù)據(jù)降維,它們處理的樣本都不帶有標(biāo)簽值。

2.分類問題與回歸問題

有監(jiān)督學(xué)習(xí)中,如果樣本的標(biāo)簽是整數(shù),則預(yù)測函數(shù)是一個向量到整數(shù)的映射,這稱為分類問題。如果標(biāo)簽值是連續(xù)實(shí)數(shù),則稱為回歸問題,此時預(yù)測函數(shù)是向量到實(shí)數(shù)的映射。

3.生成模型與判別模型

分類算法可以分成判別模型和生成模型。給定特征向量x與標(biāo)簽值y,生成模型對聯(lián)合概率p(x,y)建模,判別模型對條件概率p(y|x)進(jìn)行建模。另外,不使用概率模型的分類器也被歸類為判別模型,它直接得到預(yù)測函數(shù)而不關(guān)心樣本的概率分布:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

判別模型直接得到預(yù)測函數(shù)f(x),或者直接計算概率值p(y|x),比如SVM和logistic回歸,softmax回歸,判別模型只關(guān)心決策面,而不管樣本的概率分布的密度。

生成模型計算p(x, y)或者p(x|y) ,通俗來說,生成模型假設(shè)每個類的樣本服從某種概率分布,對這個概率分布進(jìn)行建模。

機(jī)器學(xué)習(xí)中常見的生成模型有貝葉斯分類器,高斯混合模型,隱馬爾可夫模型,受限玻爾茲曼機(jī),生成對抗網(wǎng)絡(luò)等。典型的判別模型有決策樹,kNN算法,人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī),logistic回歸,AdaBoost算法等。

4.交叉驗(yàn)證

交叉驗(yàn)證(cross validation)是一種統(tǒng)計準(zhǔn)確率的技術(shù)。k折交叉驗(yàn)證將樣本隨機(jī)、均勻的分成k份,輪流用其中的k-1份訓(xùn)練模型,1份用于測試模型的準(zhǔn)確率,用k個準(zhǔn)確率的均值作為最終的準(zhǔn)確率。

5.過擬合欠擬合

欠擬合也稱為欠學(xué)習(xí),直觀表現(xiàn)是訓(xùn)練得到的模型在訓(xùn)練集上表現(xiàn)差,沒有學(xué)到數(shù)據(jù)的規(guī)律。引起欠擬合的原因有模型本身過于簡單,例如數(shù)據(jù)本身是非線性的但使用了線性模型;特征數(shù)太少無法正確的建立映射關(guān)系。

過擬合也稱為過學(xué)習(xí),直觀表現(xiàn)是在訓(xùn)練集上表現(xiàn)好,但在測試集上表現(xiàn)不好,推廣泛化性能差。過擬合產(chǎn)生的根本原因是訓(xùn)練數(shù)據(jù)包含抽樣誤差,在訓(xùn)練時模型將抽樣誤差也進(jìn)行了擬合。所謂抽樣誤差,是指抽樣得到的樣本集和整體數(shù)據(jù)集之間的偏差。引起過擬合的可能原因有:

模型本身過于復(fù)雜,擬合了訓(xùn)練樣本集中的噪聲。此時需要選用更簡單的模型,或者對模型進(jìn)行裁剪。訓(xùn)練樣本太少或者缺乏代表性。此時需要增加樣本數(shù),或者增加樣本的多樣性。訓(xùn)練樣本噪聲的干擾,導(dǎo)致模型擬合了這些噪聲,這時需要剔除噪聲數(shù)據(jù)或者改用對噪聲不敏感的模型。

6.偏差與方差分解

模型的泛化誤差可以分解成偏差和方差。偏差是模型本身導(dǎo)致的誤差,即錯誤的模型假設(shè)所導(dǎo)致的誤差,它是模型的預(yù)測值的數(shù)學(xué)期望和真實(shí)值之間的差距。

方差是由于對訓(xùn)練樣本集的小波動敏感而導(dǎo)致的誤差。它可以理解為模型預(yù)測值的變化范圍,即模型預(yù)測值的波動程度。

模型的總體誤差可以分解為偏差的平方與方差之和:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

如果模型過于簡單,一般會有大的偏差和小的方差;反之如果模型復(fù)雜則會有大的方差但偏差很小。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

7.正則化

為了防止過擬合,可以為損失函數(shù)加上一個懲罰項(xiàng),對復(fù)雜的模型進(jìn)行懲罰,強(qiáng)制讓模型的參數(shù)值盡可能小以使得模型更簡單,加入懲罰項(xiàng)之后損失函數(shù)為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

正則化被廣泛應(yīng)用于各種機(jī)器學(xué)習(xí)算法,如嶺回歸,LASSO回歸,logistic回歸,神經(jīng)網(wǎng)絡(luò)等。除了直接加上正則化項(xiàng)之外,還有其他強(qiáng)制讓模型變簡單的方法,如決策樹的剪枝算法,神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的dropout技術(shù),提前終止技術(shù)等。

8.維數(shù)災(zāi)難

為了提高算法的精度,會使用越來越多的特征。當(dāng)特征向量維數(shù)不高時,增加特征確實(shí)可以帶來精度上的提升;但是當(dāng)特征向量的維數(shù)增加到一定值之后,繼續(xù)增加特征反而會導(dǎo)致精度的下降,這一問題稱為維數(shù)災(zāi)難。

貝葉斯分類器

貝葉斯分類器將樣本判定為后驗(yàn)概率最大的類,它直接用貝葉斯公式解決分類問題。假設(shè)樣本的特征向量為x,類別標(biāo)簽為y,根據(jù)貝葉斯公式,樣本屬于每個類的條件概率(后驗(yàn)概率)為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

分母p(x)對所有類都是相同的,分類的規(guī)則是將樣本歸到后驗(yàn)概率最大的那個類,不需要計算準(zhǔn)確的概率值,只需要知道屬于哪個類的概率最大即可,這樣可以忽略掉分母。分類器的判別函數(shù)為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

在實(shí)現(xiàn)貝葉斯分類器時,需要知道每個類的條件概率分布p(x|y)即先驗(yàn)概率。一般假設(shè)樣本服從正態(tài)分布。訓(xùn)練時確定先驗(yàn)概率分布的參數(shù),一般用最大似然估計,即最大化對數(shù)似然函數(shù)。

如果假設(shè)特征向量的各個分量之間相互獨(dú)立,則稱為樸素貝葉斯分類器,此時的分類判別函數(shù)為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

實(shí)現(xiàn)時可以分為特征分量是離散變量和連續(xù)變量兩種情況。貝葉斯分分類器是一種生成模型,可以處理多分類問題,是一種非線性模型。

決策樹

決策樹是一種基于規(guī)則的方法,它用一組嵌套的規(guī)則進(jìn)行預(yù)測。在樹的每個決策節(jié)點(diǎn)處,根據(jù)判斷結(jié)果進(jìn)入一個分支,反復(fù)執(zhí)行這種操作直到到達(dá)葉子節(jié)點(diǎn),得到預(yù)測結(jié)果。這些規(guī)則通過訓(xùn)練得到,而不是人工制定的。

決策樹既可以用于分類問題,也可以用于回歸問題。分類樹的映射函數(shù)是多維空間的分段線性劃分,用平行于各坐標(biāo)軸的超平面對空間進(jìn)行切分;回歸樹的映射函數(shù)是分段常數(shù)函數(shù)。決策樹是分段線性函數(shù)而不是線性函數(shù)。只要劃分的足夠細(xì),分段常數(shù)函數(shù)可以逼近閉區(qū)間上任意函數(shù)到任意指定精度,因此決策樹在理論上可以對任意復(fù)雜度的數(shù)據(jù)進(jìn)行擬合。對于分類問題,如果決策樹深度夠大,它可以將訓(xùn)練樣本集的所有樣本正確分類。

決策樹的訓(xùn)練算法是一個遞歸的過程,首先創(chuàng)建根節(jié)點(diǎn),然后遞歸的建立左子樹和右子樹。如果練樣本集為D,訓(xùn)練算法的流程為:

1.用樣本集D建立根節(jié)點(diǎn),找到一個判定規(guī)則,將樣本集分裂成D1和D2兩部分,同時為根節(jié)點(diǎn)設(shè)置判定規(guī)則。

2.用樣本集D1遞歸建立左子樹。

3.用樣本集D2遞歸建立右子樹。

4.如果不能再進(jìn)行分裂,則把節(jié)點(diǎn)標(biāo)記為葉子節(jié)點(diǎn),同時為它賦值。

對于分類樹,如果采用Gini系數(shù)作為度量準(zhǔn)則,決策樹在訓(xùn)練時尋找最佳分裂的依據(jù)為讓Gini不純度最小化,這等價于讓下面的值最大化:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

尋找最佳分裂時需要計算用每個閾值對樣本集進(jìn)行分裂后的純度值,尋找該值最大時對應(yīng)的分裂,它就是最佳分裂。如果是數(shù)值型特征,對于每個特征將l個訓(xùn)練樣本按照該特征的值從小到大排序,假設(shè)排序后的值為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

接下來從x1開始,依次用每個xi作為閾值,將樣本分成左右兩部分,計算上面的純度值,該值最大的那個分裂閾值就是此特征的最佳分裂閾值。在計算出每個特征的最佳分裂閾值和上面的純度值后,比較所有這些分裂的純度值大小,該值最大的分裂為所有特征的最佳分裂。

決策樹可以處理屬性缺失問題,采用的方法是使用替代分裂規(guī)則。為了防止過擬合,可以對樹進(jìn)行剪枝,讓模型變得更簡單。

決策樹是一種判別模型,既支持分類問題,也支持回歸問題,是一種非線性模型,它支持多分類問題。

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

隨機(jī)森林

隨機(jī)森林是一種集成學(xué)習(xí)算法,是Bagging算法的具體實(shí)現(xiàn)。集成學(xué)習(xí)機(jī)器學(xué)習(xí)中的一種思想,而不是某一具體算法,它通過多個模型的組合形成一個精度更高的模型,參與組合的模型稱為弱學(xué)習(xí)器。在預(yù)測時使用這些弱學(xué)習(xí)器模型聯(lián)合進(jìn)行預(yù)測,訓(xùn)練時需要依次訓(xùn)練出這些弱學(xué)習(xí)器。

隨機(jī)森林用有放回抽樣(Bootstrap抽樣)構(gòu)成出的樣本集訓(xùn)練多棵決策樹,訓(xùn)練決策樹的每個節(jié)點(diǎn)時只使用了隨機(jī)抽樣的部分特征。預(yù)測時,對于分類問題,一個測試樣本會送到每一棵決策樹中進(jìn)行預(yù)測,然后投票,得票最多的類為最終分類結(jié)果。對于回歸問題,隨機(jī)森林的預(yù)測輸出是所有決策樹輸出的均值。

假設(shè)有n個訓(xùn)練樣本。訓(xùn)練每一棵樹時,從樣本集中有放回的抽取n個樣本,每個樣本可能會被抽中多次,也可能一次都沒抽中。如果樣本量很大,在整個抽樣過程中每個樣本有0.368的概率不被抽中。由于樣本集中各個樣本是相互獨(dú)立的,在整個抽樣中所有樣本大約有36.8%沒有被抽中。這部分樣本稱為包外(Out Of Bag,簡稱OOB)數(shù)據(jù)。

用這個抽樣的樣本集訓(xùn)練一棵決策樹,訓(xùn)練時,每次尋找最佳分裂時,還要對特征向量的分量采樣,即只考慮部分特征分量。由于使用了隨機(jī)抽樣,隨機(jī)森林泛化性能一般比較好,可以有效的降低模型的方差。

如果想更詳細(xì)的了解隨機(jī)森林的原理,請閱讀SIGAI之前的公眾號文章“隨機(jī)森林概述”。隨機(jī)森林是一種判別模型,既支持分類問題,也支持回歸問題,并且支持多分類問題,這是一種非線性模型。

AdaBoost算法

AdaBoost算法也是一種集成學(xué)習(xí)算法,用于二分類問題,是Boosting算法的一種實(shí)現(xiàn)。它用多個弱分類器的線性組合來預(yù)測,訓(xùn)練時重點(diǎn)關(guān)注錯分的樣本,準(zhǔn)確率高的弱分類器權(quán)重大。AdaBoost算法的全稱是自適應(yīng),它用弱分類器的線性組合來構(gòu)造強(qiáng)分類器。弱分類器的性能不用太好,僅比隨機(jī)猜測強(qiáng),依靠它們可以構(gòu)造出一個非常準(zhǔn)確的強(qiáng)分類器。強(qiáng)分類器的計算公式為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

其中x是輸入向量,F(xiàn)(x)是強(qiáng)分類器,ft(x)是弱分類器,at是弱分類器的權(quán)重,T為弱分類器的數(shù)量,弱分類器、的輸出值為+1或-1,分別對應(yīng)正樣本和負(fù)樣本。分類時的判定規(guī)則為:

、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

強(qiáng)分類器的輸出值也為+1或-1,同樣對應(yīng)于正樣本和負(fù)樣本。

訓(xùn)練時,依次訓(xùn)練每一個若分類器,并得到它們的權(quán)重值。訓(xùn)練樣本帶有權(quán)重值,初始時所有樣本的權(quán)重相等,在訓(xùn)練過程中,被前面的弱分類器錯分的樣本會加大權(quán)重,反之會減小權(quán)重,這樣接下來的弱分類器會更加關(guān)注這些難分的樣本。弱分類器的權(quán)重值根據(jù)它的準(zhǔn)確率構(gòu)造,精度越高的弱分類器權(quán)重越大。

給定l個訓(xùn)練樣本(xi,yi ),其中xi特征向量,yi為類別標(biāo)簽,其值為+1或-1。訓(xùn)練算法的流程為:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

根據(jù)計算公式,錯誤率低的弱分類器權(quán)重大,它是準(zhǔn)確率的增函數(shù)。AdaBoost算法在訓(xùn)練樣本集上的錯誤率會隨著弱分類器數(shù)量的增加而指數(shù)級降低。它能有效的降低模型的偏差。

AdaBoost算法從廣義加法模型導(dǎo)出,訓(xùn)練時求解的是指數(shù)損失函數(shù)的極小值:

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>與<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>核心知識點(diǎn)總結(jié)(一)

求解時采用了分階段優(yōu)化,先得到弱分類器,然后確定弱分類器的權(quán)重值,這就是弱分類器,弱分類器權(quán)重的來歷。除了離散型AdaBoost之外,從廣義加法模型還可以導(dǎo)出其他幾種AdaBoost算法,分別是實(shí)數(shù)型AdaBoost,Gentle型AdaBoost,Logit型AdaBoost,它們使用了不同的損失函數(shù)和最優(yōu)化算法。

標(biāo)準(zhǔn)的AdaBoost算法是一種判別模型,只能支持二分類問題。它的改進(jìn)型可以處理多分類問題。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }