0%

深度学习基本优化

视频链接

1596345717386

监督学习本质的工作是要最小化loss

1596345669314

1596345922163

SGDM相当于每次的梯度更新累计了过去的梯度,优势在于可以收敛到一些更小的极小值

1596346692369

1596346874568

将learning rate除一个梯度的求和,调整learning rate,在梯度很大的时候减少learning rate

1596347026022

相当于对adagrad的一个改进,个人理解就是这样不会造成learning rate 越来越小学不下去

1596347261859

RMSProp仍然会停在local optima,使用的还是直接的梯度,只是调整了合适的learning rate

Adam结合了SGDM和RMSProp

1596347428790

1596347460459

m和v与之前的方式有细微的区别,都除了一个和t相关的数来让值比较准确(具体作用还没懂)