transformer
# Transformer 🏷 sec_transformer :numref: subsec_cnn-rnn-self-attention 中比较了卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)。值得注意的是,自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 :cite: Cheng.Dong.Lapata.2016,Lin.Feng.Santos.ea.2017,Paulus.Xiong.Socher.2017 ,Transformer...
more...self-attention-and-positional-encoding
# 自注意力和位置编码 🏷 sec_self-attention-and-positional-encoding 在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。 想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention) :cite: Lin.Feng.Santos.ea.2017,Vaswani.Shazeer.Parmar.ea.2017...
more...conv-layer
# 图像卷积 🏷 sec_conv_layer 上节我们解析了卷积层的原理,现在我们看看它的实际应用。由于卷积神经网络的设计是用于探索图像数据,本节我们将以图像为例。 # 互相关运算 严格来说,卷积层是个错误的叫法,因为它所表达的运算其实是互相关运算(cross-correlation),而不是卷积运算。 根据 :numref: sec_why-conv 中的描述,在卷积层中,输入张量和核张量通过 (互相关运算) 产生输出张量。 首先,我们暂时忽略通道(第三维)这一情况,看看如何处理二维图像数据和隐藏表示。在 :numref: fig_correlation...
more...nadaraya-waston
# 注意力汇聚:Nadaraya-Watson 核回归 🏷 sec_nadaraya-watson 上节介绍了框架下的注意力机制的主要成分 :numref: fig_qkv : 查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 本节将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机制在实践中的运作方式。 具体来说,1964 年提出的 Nadaraya-Watson 核回归模型 是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。 import torchfrom torch import nnfrom...
more...batch-norm
# 批量规范化 🏷 sec_batch_norm 训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。 本节将介绍批量规范化(batch normalization) :cite: Ioffe.Szegedy.2015 ,这是一种流行且有效的技术,可持续加速深层网络的收敛速度。 再结合在 :numref: sec_resnet 中将介绍的残差块,批量规范化使得研究人员能够训练 100 层以上的网络。 #...
more...densenet
# 稠密连接网络(DenseNet) ResNet 极大地改变了如何参数化深层网络中函数的观点。 稠密连接网络(DenseNet) :cite: Huang.Liu.Van-Der-Maaten.ea.2017 在某种程度上是 ResNet 的逻辑扩展。让我们先从数学上了解一下。 # 从 ResNet 到 DenseNet 回想一下任意函数的泰勒展开式(Taylor expansion),它把这个函数分解成越来越高阶的项。在xxx 接近 0 时, f(x)=f(0)+f′(0)x+f′′(0)2!x2+f′′′(0)3!x3+….f(x) = f(0) + f'(0) x +...
more...