rmsprop
# RMSProp 算法 🏷 sec_rmsprop :numref: sec_adagrad 中的关键问题之一,是学习率按预定时间表O(t−12)\mathcal{O}(t^{-\frac{1}{2}})O(t−21) 显著降低。 虽然这通常适用于凸问题,但对于深度学习中遇到的非凸问题,可能并不理想。 但是,作为一个预处理器,Adagrad 算法按坐标顺序的适应性是非常可取的。 :cite: Tieleman.Hinton.2012 建议以 RMSProp 算法作为将速率调度与坐标自适应学习率分离的简单修复方法。 问题在于,Adagrad 算法将梯度gt\mathbf{g}_tgt...
more...