793 1 分钟

# 注意力机制 🏷 chap_attention 灵长类动物的视觉系统接受了大量的感官输入, 这些感官输入远远超过了大脑能够完全处理的程度。 然而,并非所有刺激的影响都是相等的。 意识的聚集和专注使灵长类动物能够在复杂的视觉环境中将注意力引向感兴趣的物体,例如猎物和天敌。 只关注一小部分信息的能力对进化更加有意义,使人类得以生存和成功。 自 19 世纪以来,科学家们一直致力于研究认知神经科学领域的注意力。 本章的很多章节将涉及到一些研究。 首先回顾一个经典注意力框架,解释如何在视觉场景中展开注意力。 受此框架中的注意力提示(attention...
13k 12 分钟

# Transformer 🏷 sec_transformer :numref: subsec_cnn-rnn-self-attention 中比较了卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)。值得注意的是,自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 :cite: Cheng.Dong.Lapata.2016,Lin.Feng.Santos.ea.2017,Paulus.Xiong.Socher.2017 ,Transformer...
4k 4 分钟

# 多输入多输出通道 🏷 sec_channels 虽然我们在 :numref: subsec_why-conv-channels 中描述了构成每个图像的多个通道和多层卷积层。例如彩色图像具有标准的 RGB 通道来代表红、绿和蓝。 但是到目前为止,我们仅展示了单个输入和单个输出通道的简化例子。 这使得我们可以将输入、卷积核和输出看作二维张量。 当我们添加通道时,我们的输入和隐藏的表示都变成了三维张量。例如,每个 RGB 输入图像具有3×h×w3\times h\times w3×h×w 的形状。我们将这个大小为333...
927 1 分钟

# 卷积神经网络 🏷 chap_cnn 在前面的章节中,我们遇到过图像数据。 这种数据的每个样本都由一个二维像素网格组成, 每个像素可能是一个或者多个数值,取决于是黑白还是彩色图像。 到目前为止,我们处理这类结构丰富的数据的方式还不够有效。 我们仅仅通过将图像数据展平成一维向量而忽略了每个图像的空间结构信息,再将数据送入一个全连接的多层感知机中。 因为这些网络特征元素的顺序是不变的,因此最优的结果是利用先验知识,即利用相近像素之间的相互关联性,从图像数据中学习得到有效的模型。 本章介绍的卷积神经网络(convolutional neural...
6.7k 6 分钟

# 自注意力和位置编码 🏷 sec_self-attention-and-positional-encoding 在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。 想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention) :cite: Lin.Feng.Santos.ea.2017,Vaswani.Shazeer.Parmar.ea.2017...
5.3k 5 分钟

# 图像卷积 🏷 sec_conv_layer 上节我们解析了卷积层的原理,现在我们看看它的实际应用。由于卷积神经网络的设计是用于探索图像数据,本节我们将以图像为例。 # 互相关运算 严格来说,卷积层是个错误的叫法,因为它所表达的运算其实是互相关运算(cross-correlation),而不是卷积运算。 根据 :numref: sec_why-conv 中的描述,在卷积层中,输入张量和核张量通过 (互相关运算) 产生输出张量。 首先,我们暂时忽略通道(第三维)这一情况,看看如何处理二维图像数据和隐藏表示。在 :numref: fig_correlation...
7.7k 7 分钟

# 注意力汇聚:Nadaraya-Watson 核回归 🏷 sec_nadaraya-watson 上节介绍了框架下的注意力机制的主要成分 :numref: fig_qkv : 查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 本节将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机制在实践中的运作方式。 具体来说,1964 年提出的 Nadaraya-Watson 核回归模型 是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。 import torchfrom torch import nnfrom...
7.9k 7 分钟

# 深度卷积神经网络(AlexNet) 🏷 sec_alexnet 在 LeNet 提出后,卷积神经网络在计算机视觉和机器学习领域中很有名气。但卷积神经网络并没有主导这些领域。这是因为虽然 LeNet 在小数据集上取得了很好的效果,但是在更大、更真实的数据集上训练卷积神经网络的性能和可行性还有待研究。事实上,在上世纪 90 年代初到 2012 年之间的大部分时间里,神经网络往往被其他机器学习方法超越,如支持向量机(support vector...
8.7k 8 分钟

# 批量规范化 🏷 sec_batch_norm 训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。 本节将介绍批量规范化(batch normalization) :cite: Ioffe.Szegedy.2015 ,这是一种流行且有效的技术,可持续加速深层网络的收敛速度。 再结合在 :numref: sec_resnet 中将介绍的残差块,批量规范化使得研究人员能够训练 100 层以上的网络。 #...
4.3k 4 分钟

# 稠密连接网络(DenseNet) ResNet 极大地改变了如何参数化深层网络中函数的观点。 稠密连接网络(DenseNet) :cite: Huang.Liu.Van-Der-Maaten.ea.2017 在某种程度上是 ResNet 的逻辑扩展。让我们先从数学上了解一下。 # 从 ResNet 到 DenseNet 回想一下任意函数的泰勒展开式(Taylor expansion),它把这个函数分解成越来越高阶的项。在xxx 接近 0 时, f(x)=f(0)+f′(0)x+f′′(0)2!x2+f′′′(0)3!x3+….f(x) = f(0) + f'(0) x +...