# Adadelta
🏷 sec_adadelta
Adadelta 是 AdaGrad 的另一种变体( :numref: sec_adagrad
),
主要区别在于前者减少了学习率适应坐标的数量。
此外,广义上 Adadelta 被称为没有学习率,因为它使用变化量本身作为未来变化的校准。
Adadelta 算法是在 :cite: Zeiler.2012
中提出的。
# Adadelta 算法
简而言之,Adadelta 使用两个状态变量, 用于存储梯度二阶导数的泄露平均值, 用于存储模型本身中参数变化二阶导数的泄露平均值。请注意,为了与其他出版物和实现的兼容性,我们使用作者的原始符号和命名(没有其它真正理由让大家使用不同的希腊变量来表示在动量法、AdaGrad、RMSProp 和 Adadelta 中用于相同用途的参数)。
以下是 Adadelta 的技术细节。鉴于参数 du jour 是,我们获得了与 :numref: sec_rmsprop
类似的以下泄漏更新:
与 :numref: sec_rmsprop
的区别在于,我们使用重新缩放的梯度 执行更新,即
那么,调整后的梯度 是什么?我们可以按如下方式计算它:
\begin{aligned} \mathbf{g}_t' & = \frac{\sqrt{\Delta\mathbf{x}_{t-1} + \epsilon}}{\sqrt{\{\mathbf{s}_t + \epsilon}}} \odot \mathbf{g}_t, \\ \end{aligned}其中 是重新缩放梯度的平方 的泄漏平均值。我们将 初始化为,然后在每个步骤中使用 更新它,即
和(例如 这样的小值)是为了保持数字稳定性而加入的。
# 代码实现
Adadelta 需要为每个变量维护两个状态变量,即 和。这将产生以下实现。
%matplotlib inline | |
import torch | |
from d2l import torch as d2l | |
def init_adadelta_states(feature_dim): | |
s_w, s_b = torch.zeros((feature_dim, 1)), torch.zeros(1) | |
delta_w, delta_b = torch.zeros((feature_dim, 1)), torch.zeros(1) | |
return ((s_w, delta_w), (s_b, delta_b)) | |
def adadelta(params, states, hyperparams): | |
rho, eps = hyperparams['rho'], 1e-5 | |
for p, (s, delta) in zip(params, states): | |
with torch.no_grad(): | |
# In-placeupdatesvia[:] | |
s[:] = rho * s + (1 - rho) * torch.square(p.grad) | |
g = (torch.sqrt(delta + eps) / torch.sqrt(s + eps)) * p.grad | |
p[:] -= g | |
delta[:] = rho * delta + (1 - rho) * g * g | |
p.grad.data.zero_() |
对于每次参数更新,选择 相当于 10 个半衰期。由此我们得到:
data_iter, feature_dim = d2l.get_data_ch11(batch_size=10) | |
d2l.train_ch11(adadelta, init_adadelta_states(feature_dim), | |
{'rho': 0.9}, data_iter, feature_dim); |
loss: 0.243, 0.019 sec/epoch
为了简洁实现,我们只需使用高级 API 中的 Adadelta 算法。
trainer = torch.optim.Adadelta | |
d2l.train_concise_ch11(trainer, {'rho': 0.9}, data_iter) |
loss: 0.243, 0.014 sec/epoch
# 小结
- Adadelta 没有学习率参数。相反,它使用参数本身的变化率来调整学习率。
- Adadelta 需要两个状态变量来存储梯度的二阶导数和参数的变化。
- Adadelta 使用泄漏的平均值来保持对适当统计数据的运行估计。
# 练习
- 调整 的值,会发生什么?
- 展示如何在不使用 的情况下实现算法。为什么这是个好主意?
- Adadelta 真的是学习率为 0 吗?能找到 Adadelta 无法解决的优化问题吗?
- 将 Adadelta 的收敛行为与 AdaGrad 和 RMSProp 进行比较。
Discussions