2020-06-24
閱讀量:
2750
為什么損失函數(shù)是MSE的時候,使用梯度下降法最好。
我們要求解函數(shù)的最優(yōu)解,當(dāng)不易求解時就選擇反方向思路,構(gòu)造一個損失函數(shù),來求取損失函數(shù)的最小值。
損失函數(shù)可求導(dǎo)后為凸函數(shù)時,則可以直接等于0,求解最小值。
損失函數(shù)可求導(dǎo)后不是凸函數(shù)時,則需要使用梯度下降法,因此梯度下降法需要損失函數(shù)可求導(dǎo)。
為什么說損失函數(shù)MSE比SSE更加適合使用梯度下降法呢,
SSE則是沒有除樣本n,那么當(dāng)樣本量大的時候,梯度值算出的也比較大,步長就要盡量小。選擇步長時就更加敏感。而我們選擇MSE,在SSE的基礎(chǔ)上對樣本做一個平均就不會出現(xiàn)這個問題。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論