linear-algebra
# 线性代数 🏷 sec_linear-algebra 在介绍完如何存储和操作数据后,接下来将简要地回顾一下部分基本线性代数内容。 这些内容有助于读者了解和实现本书中介绍的大多数模型。 本节将介绍线性代数中的基本数学对象、算术和运算,并用数学符号和相应的代码实现来表示它们。 #...
more...beam-search
# 束搜索 🏷 sec_beam-search 在 :numref: sec_seq2seq 中,我们逐个预测输出序列, 直到预测序列中出现特定的序列结束词元 “<eos>”。 本节将首先介绍贪心搜索(greedy search)策略, 并探讨其存在的问题,然后对比其他替代策略: 穷举搜索(exhaustive search)和束搜索(beam search)。 在正式介绍贪心搜索之前,我们使用与 :numref: sec_seq2seq...
more...lstm
# 长短期记忆网络(LSTM) 🏷 sec_lstm 长期以来,隐变量模型存在着长期信息保存和短期输入缺失的问题。 解决这一问题的最早方法之一是长短期存储器(long short-term memory,LSTM) :cite: Hochreiter.Schmidhuber.1997 。 它有许多与门控循环单元( :numref: sec_gru )一样的属性。 有趣的是,长短期记忆网络的设计比门控循环单元稍微复杂一些, 却比门控循环单元早诞生了近 20 年。 # 门控记忆元 可以说,长短期记忆网络的设计灵感来自于计算机的逻辑门。 长短期记忆网络引入了记忆元(memory...
more...encoder-decoder
# 编码器 - 解码器架构 🏷 sec_encoder-decoder 正如我们在 :numref: sec_machine_translation 中所讨论的, 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。 这被称为编码器 - 解码器(encoder-decoder)架构, 如...
more...machine-translation-and-dataset
# 机器翻译与数据集 🏷 sec_machine_translation 语言模型是自然语言处理的关键, 而机器翻译是语言模型最成功的基准测试。 因为机器翻译正是将输入序列转换成输出序列的 序列转换模型(sequence transduction)的核心问题。 序列转换模型在各类现代人工智能应用中发挥着至关重要的作用, 因此我们将其做为本章剩余部分和 :numref: chap_attention 的重点。 为此,本节将介绍机器翻译问题及其后文需要使用的数据集。 机器翻译(machine...
more...