99精品国产一区二区三区,久久久精品94久久精品

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習中常見的幾種最優(yōu)化方法

2018-03-25

機器學習中常見的幾種最優(yōu)化方法

我們每個人都會在我們的生活或者工作中遇到各種各樣的最優(yōu)化問題，比如每個企業(yè)和個人都要考慮的一個問題“在一定成本下，如何使利潤最大化”等。最優(yōu)化方法是一種數(shù)學方法，它是研究在給定約束之下如何尋求某些因素(的量)，以使某一(或某些)指標達到最優(yōu)的一些學科的總稱。隨著學習的深入，博主越來越發(fā)現(xiàn)最優(yōu)化方法的重要性，學習和工作中遇到的大多問題都可以建模成一種最優(yōu)化模型進行求解，比如我們現(xiàn)在學習的機器學習算法，大部分的機器學習算法的本質(zhì)都是建立優(yōu)化模型，通過最優(yōu)化方法對目標函數(shù)（或損失函數(shù)）進行優(yōu)化，從而訓練出最好的模型。常見的最優(yōu)化方法有梯度下降法、牛頓法和擬牛頓法、共軛梯度法等等。

1. 梯度下降法（Gradient Descent）

梯度下降法是最早最簡單，也是最為常用的最優(yōu)化方法。梯度下降法實現(xiàn)簡單，當目標函數(shù)是凸函數(shù)時，梯度下降法的解是全局解。一般情況下，其解不保證是全局最優(yōu)解，梯度下降法的速度也未必是最快的。梯度下降法的優(yōu)化思想是用當前位置負梯度方向作為搜索方向，因為該方向為當前位置的最快下降方向，所以也被稱為是”最速下降法“。最速下降法越接近目標值，步長越小，前進越慢。梯度下降法的搜索迭代示意圖如下圖所示：

牛頓法的缺點：

（1）靠近極小值時收斂速度減慢，如下圖所示；

（2）直線搜索時可能會產(chǎn)生一些問題；

（3）可能會“之字形”地下降。

從上圖可以看出，梯度下降法在接近最優(yōu)解的區(qū)域收斂速度明顯變慢，利用梯度下降法求解需要很多次的迭代。

在機器學習中，基于基本的梯度下降法發(fā)展了兩種梯度下降方法，分別為隨機梯度下降法和批量梯度下降法。

比如對一個線性回歸（Linear Logistics）模型，假設下面的h(x)是要擬合的函數(shù)，J(theta)為損失函數(shù)，theta是參數(shù)，要迭代求解的值，theta求解出來了那最終要擬合的函數(shù)h(theta)就出來了。其中m是訓練集的樣本個數(shù)，n是特征的個數(shù)。

1）批量梯度下降法（Batch Gradient Descent，BGD）

（1）將J(theta)對theta求偏導，得到每個theta對應的的梯度：

（2）由于是要最小化風險函數(shù)，所以按每個參數(shù)theta的梯度負方向，來更新每個theta：

（3）從上面公式可以注意到，它得到的是一個全局最優(yōu)解，但是每迭代一步，都要用到訓練集所有的數(shù)據(jù)，如果m很大，那么可想而知這種方法的迭代速度會相當?shù)穆Ｋ?，這就引入了另外一種方法——隨機梯度下降。

對于批量梯度下降法，樣本個數(shù)m，x為n維向量，一次迭代需要把m個樣本全部帶入計算，迭代一次計算量為m*n2。

2）隨機梯度下降（Random Gradient Descent，RGD）

（1）上面的風險函數(shù)可以寫成如下這種形式，損失函數(shù)對應的是訓練集中每個樣本的粒度，而上面批量梯度下降對應的是所有的訓練樣本：

（2）每個樣本的損失函數(shù)，對theta求偏導得到對應梯度，來更新theta：

（3）隨機梯度下降是通過每個樣本來迭代更新一次，如果樣本量很大的情況（例如幾十萬），那么可能只用其中幾萬條或者幾千條的樣本，就已經(jīng)將theta迭代到最優(yōu)解了，對比上面的批量梯度下降，迭代一次需要用到十幾萬訓練樣本，一次迭代不可能最優(yōu)，如果迭代10次的話就需要遍歷訓練樣本10次。但是，SGD伴隨的一個問題是噪音較BGD要多，使得SGD并不是每次迭代都向著整體最優(yōu)化方向。

隨機梯度下降每次迭代只使用一個樣本，迭代一次計算量為n2，當樣本個數(shù)m很大的時候，隨機梯度下降迭代一次的速度要遠高于批量梯度下降方法。兩者的關系可以這樣理解：隨機梯度下降方法以損失很小的一部分精確度和增加一定數(shù)量的迭代次數(shù)為代價，換取了總體的優(yōu)化效率的提升。增加的迭代次數(shù)遠遠小于樣本的數(shù)量。

對批量梯度下降法和隨機梯度下降法的總結：

批量梯度下降---最小化所有訓練樣本的損失函數(shù)，使得最終求解的是全局的最優(yōu)解，即求解的參數(shù)是使得風險函數(shù)最小，但是對于大規(guī)模樣本問題效率低下。

隨機梯度下降---最小化每條樣本的損失函數(shù)，雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向，但是大的整體的方向是向全局最優(yōu)解的，最終的結果往往是在全局最優(yōu)解附近，適用于大規(guī)模訓練樣本情況。

2. 牛頓法和擬牛頓法（Newton's method & Quasi-Newton Methods）

1）牛頓法（Newton's method）

牛頓法是一種在實數(shù)域和復數(shù)域上近似求解方程的方法。方法使用函數(shù)f (x)的泰勒級數(shù)的前面幾項來尋找方程f (x) = 0的根。牛頓法最大的特點就在于它的收斂速度很快。

具體步驟：

首先，選擇一個接近函數(shù) f (x)零點的 x0，計算相應的 f (x0) 和切線斜率f ' (x0)（這里f ' 表示函數(shù) f 的導數(shù)）。然后我們計算穿過點(x0, f (x0)) 并且斜率為f '(x0)的直線和 x 軸的交點的x坐標，也就是求如下方程的解：

我們將新求得的點的 x 坐標命名為x1，通常x1會比x0更接近方程f (x) = 0的解。因此我們現(xiàn)在可以利用x1開始下一輪迭代。迭代公式可化簡為如下所示：

已經(jīng)證明，如果f ' 是連續(xù)的，并且待求的零點x是孤立的，那么在零點x周圍存在一個區(qū)域，只要初始值x0位于這個鄰近區(qū)域內(nèi)，那么牛頓法必定收斂。并且，如果f ' (x)不為0, 那么牛頓法將具有平方收斂的性能. 粗略的說，這意味著每迭代一次，牛頓法結果的有效數(shù)字將增加一倍。下圖為一個牛頓法執(zhí)行過程的例子。

由于牛頓法是基于當前位置的切線來確定下一次的位置，所以牛頓法又被很形象地稱為是"切線法"。牛頓法的搜索路徑（二維情況）如下圖所示：

牛頓法搜索動態(tài)示例圖：

關于牛頓法和梯度下降法的效率對比：

從本質(zhì)上去看，牛頓法是二階收斂，梯度下降是一階收斂，所以牛頓法就更快。如果更通俗地說的話，比如你想找一條最短的路徑走到一個盆地的最底部，梯度下降法每次只從你當前所處位置選一個坡度最大的方向走一步，牛頓法在選擇方向時，不僅會考慮坡度是否夠大，還會考慮你走了一步之后，坡度是否會變得更大。所以，可以說牛頓法比梯度下降法看得更遠一點，能更快地走到最底部。（牛頓法目光更加長遠，所以少走彎路；相對而言，梯度下降法只考慮了局部的最優(yōu)，沒有全局思想。）

根據(jù)wiki上的解釋，從幾何上說，牛頓法就是用一個二次曲面去擬合你當前所處位置的局部曲面，而梯度下降法是用一個平面去擬合當前的局部曲面，通常情況下，二次曲面的擬合會比平面更好，所以牛頓法選擇的下降路徑會更符合真實的最優(yōu)下降路徑。

注：紅色的牛頓法的迭代路徑，綠色的是梯度下降法的迭代路徑。

牛頓法的優(yōu)缺點總結：

優(yōu)點：二階收斂，收斂速度快；

缺點：牛頓法是一種迭代算法，每一步都需要求解目標函數(shù)的Hessian矩陣的逆矩陣，計算比較復雜。

2）擬牛頓法（Quasi-Newton Methods）

擬牛頓法是求解非線性優(yōu)化問題最有效的方法之一，于20世紀50年代由美國Argonne國家實驗室的物理學家W.C.Davidon所提出來。Davidon設計的這種算法在當時看來是非線性優(yōu)化領域最具創(chuàng)造性的發(fā)明之一。不久R. Fletcher和M. J. D. Powell證實了這種新的算法遠比其他方法快速和可靠，使得非線性優(yōu)化這門學科在一夜之間突飛猛進。

擬牛頓法的本質(zhì)思想是改善牛頓法每次需要求解復雜的Hessian矩陣的逆矩陣的缺陷，它使用正定矩陣來近似Hessian矩陣的逆，從而簡化了運算的復雜度。擬牛頓法和最速下降法一樣只要求每一步迭代時知道目標函數(shù)的梯度。通過測量梯度的變化，構造一個目標函數(shù)的模型使之足以產(chǎn)生超線性收斂性。這類方法大大優(yōu)于最速下降法，尤其對于困難的問題。另外，因為擬牛頓法不需要二階導數(shù)的信息，所以有時比牛頓法更為有效。如今，優(yōu)化軟件中包含了大量的擬牛頓算法用來解決無約束，約束，和大規(guī)模的優(yōu)化問題。

具體步驟：

擬牛頓法的基本思想如下。首先構造目標函數(shù)在當前迭代xk的二次模型：

　　這里Bk是一個對稱正定矩陣，于是我們?nèi)∵@個二次模型的最優(yōu)解作為搜索方向，并且得到新的迭代點：

　　其中我們要求步長ak

滿足Wolfe條件。這樣的迭代與牛頓法類似，區(qū)別就在于用近似的Hesse矩陣Bk

代替真實的Hesse矩陣。所以擬牛頓法最關鍵的地方就是每一步迭代中矩陣Bk

的更新。現(xiàn)在假設得到一個新的迭代xk+1，并得到一個新的二次模型：

我們盡可能地利用上一步的信息來選取Bk。具體地，我們要求

　　從而得到

這個公式被稱為割線方程。常用的擬牛頓法有DFP算法和BFGS算法。

3. 共軛梯度法（Conjugate Gradient）

共軛梯度法是介于最速下降法與牛頓法之間的一個方法，它僅需利用一階導數(shù)信息，但克服了最速下降法收斂慢的缺點，又避免了牛頓法需要存儲和計算Hesse矩陣并求逆的缺點，共軛梯度法不僅是解決大型線性方程組最有用的方法之一，也是解大型非線性最優(yōu)化最有效的算法之一。在各種優(yōu)化算法中，共軛梯度法是非常重要的一種。其優(yōu)點是所需存儲量小，具有步收斂性，穩(wěn)定性高，而且不需要任何外來參數(shù)。

具體的實現(xiàn)步驟請參加wiki百科共軛梯度法。

下圖為共軛梯度法和梯度下降法搜索最優(yōu)解的路徑對比示意圖：

注：綠色為梯度下降法，紅色代表共軛梯度法

MATLAB代碼：

function [x] = conjgrad(A,b,x)
    r=b-A*x;
    p=r;
    rsold=r'*r;

    for i=1:length(b)
        Ap=A*p;
        alpha=rsold/(p'*Ap);
        x=x+alpha*p;
        r=r-alpha*Ap;
        rsnew=r'*r;
        if sqrt(rsnew)<1e-10
              break;
        end
        p=r+(rsnew/rsold)*p;
        rsold=rsnew;
    end
end

4. 啟發(fā)式優(yōu)化方法

啟發(fā)式方法指人在解決問題時所采取的一種根據(jù)經(jīng)驗規(guī)則進行發(fā)現(xiàn)的方法。其特點是在解決問題時,利用過去的經(jīng)驗,選擇已經(jīng)行之有效的方法，而不是系統(tǒng)地、以確定的步驟去尋求答案。啟發(fā)式優(yōu)化方法種類繁多，包括經(jīng)典的模擬退火方法、遺傳算法、蟻群算法以及粒子群算法等等。

還有一種特殊的優(yōu)化算法被稱之多目標優(yōu)化算法，它主要針對同時優(yōu)化多個目標（兩個及兩個以上）的優(yōu)化問題，這方面比較經(jīng)典的算法有NSGAII算法、MOEA/D算法以及人工免疫算法等。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

損失函數(shù) 機器學習線性回歸特征

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇機器學習中非平衡數(shù)據(jù)集的常用處理方法

下一篇SQL語句執(zhí)行過程詳解

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗證后自動注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習中常見的幾種最優(yōu)化方法

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者 ...

SQL 在預測分析中的應用：從數(shù)據(jù)查詢到趨勢預判 ...

數(shù)據(jù)查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習中常見的幾種最優(yōu)化方法

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者 ...

SQL 在預測分析中的應用：從數(shù)據(jù)查詢到趨勢預判 ...

數(shù)據(jù)查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...