2020-06-10
閱讀量:
2716
GD(梯度下降)和SGD(隨機(jī)梯度下降)有什么區(qū)別?
- 相同點(diǎn)
在GD和SGD中,都會(huì)在每次迭代中更新模型的參數(shù),使得代價(jià)函數(shù)變小。
- 不同點(diǎn):
GD(梯度下降)
在GD中,每次迭代都要用到全部訓(xùn)練數(shù)據(jù)。
SGD(隨機(jī)梯度下降)
在SGD中,每次迭代可以只用一個(gè)訓(xùn)練數(shù)據(jù)來(lái)更新參數(shù)。
- 總結(jié)
當(dāng)訓(xùn)練數(shù)據(jù)過(guò)大時(shí),用GD可能造成內(nèi)存不夠用,那么就可以用SGD了,SGD其實(shí)可以算作是一種online-learning。另外SGD收斂會(huì)比GD快,但是對(duì)于代價(jià)函數(shù)求最小值還是GD做的比較好,不過(guò)SGD也夠用了。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論