深度学习基本优化

监督学习本质的工作是要最小化loss

SGDM相当于每次的梯度更新累计了过去的梯度，优势在于可以收敛到一些更小的极小值

将learning rate除一个梯度的求和，调整learning rate，在梯度很大的时候减少learning rate

相当于对adagrad的一个改进，个人理解就是这样不会造成learning rate 越来越小学不下去

RMSProp仍然会停在local optima，使用的还是直接的梯度，只是调整了合适的learning rate

Adam结合了SGDM和RMSProp

m和v与之前的方式有细微的区别，都除了一个和t相关的数来让值比较准确（具体作用还没懂）