Mi Manchi = yuan = Whatever is worth doing at all is worth doing well

2023-02-15 11k 字 10 分钟

linear-algebra

# 线性代数 🏷 sec_linear-algebra 在介绍完如何存储和操作数据后，接下来将简要地回顾一下部分基本线性代数内容。这些内容有助于读者了解和实现本书中介绍的大多数模型。本节将介绍线性代数中的基本数学对象、算术和运算，并用数学符号和相应的代码实现来表示它们。 #...

more...

2023-02-15 5k 字 5 分钟

# 束搜索 🏷 sec_beam-search 在 :numref: sec_seq2seq 中，我们逐个预测输出序列，直到预测序列中出现特定的序列结束词元 “<eos>”。本节将首先介绍贪心搜索（greedy search）策略，并探讨其存在的问题，然后对比其他替代策略：穷举搜索（exhaustive search）和束搜索（beam search）。在正式介绍贪心搜索之前，我们使用与 :numref: sec_seq2seq...

more...

2023-02-15 3k 字 3 分钟

deep-rnn

# 深度循环神经网络 🏷...

more...

2023-02-15 6.7k 字 6 分钟

gru

# 门控循环单元（GRU） 🏷 sec_gru 在 :numref: sec_bptt...

more...

2023-02-15 651 字 1 分钟

index

# 现代循环神经网络 🏷 chap_modern_rnn 前一章中我们介绍了循环神经网络的基础知识，这种网络可以更好地处理序列数据。我们在文本数据上实现了基于循环神经网络的语言模型，但是对于当今各种各样的序列学习问题，这些技术可能并不够用。例如，循环神经网络在实践中一个常见问题是数值不稳定性。尽管我们已经应用了梯度裁剪等技巧来缓解这个问题，但是仍需要通过设计更复杂的序列模型来进一步处理它。具体来说，我们将引入两个广泛使用的网络，即门控循环单元（gated recurrent units，GRU）和长短期记忆网络（long short-term...

more...

2023-02-15 6.4k 字 6 分钟

lstm

# 长短期记忆网络（LSTM） 🏷 sec_lstm 长期以来，隐变量模型存在着长期信息保存和短期输入缺失的问题。解决这一问题的最早方法之一是长短期存储器（long short-term memory，LSTM） :cite: Hochreiter.Schmidhuber.1997 。它有许多与门控循环单元（ :numref: sec_gru ）一样的属性。有趣的是，长短期记忆网络的设计比门控循环单元稍微复杂一些，却比门控循环单元早诞生了近 20 年。 # 门控记忆元可以说，长短期记忆网络的设计灵感来自于计算机的逻辑门。长短期记忆网络引入了记忆元（memory...

more...

2023-02-15 1.9k 字 2 分钟

encoder-decoder

# 编码器 - 解码器架构 🏷 sec_encoder-decoder 正如我们在 :numref: sec_machine_translation 中所讨论的，机器翻译是序列转换模型的一个核心问题，其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出，我们可以设计一个包含两个主要组件的架构：第一个组件是一个编码器（encoder）：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。第二个组件是解码器（decoder）：它将固定形状的编码状态映射到长度可变的序列。这被称为编码器 - 解码器（encoder-decoder）架构，如...

more...

2023-02-15 6k 字 5 分钟

machine-translation-and-dataset

# 机器翻译与数据集 🏷 sec_machine_translation 语言模型是自然语言处理的关键，而机器翻译是语言模型最成功的基准测试。因为机器翻译正是将输入序列转换成输出序列的序列转换模型（sequence transduction）的核心问题。序列转换模型在各类现代人工智能应用中发挥着至关重要的作用，因此我们将其做为本章剩余部分和 :numref: chap_attention 的重点。为此，本节将介绍机器翻译问题及其后文需要使用的数据集。机器翻译（machine...

more...

2023-02-15 13k 字 12 分钟

seq2seq

# 序列到序列学习（seq2seq） 🏷 sec_seq2seq 正如我们在 :numref: sec_machine_translation 中看到的，机器翻译中的输入序列和输出序列都是长度可变的。为了解决这类问题，我们在 :numref: sec_encoder-decoder 中设计了一个通用的” 编码器－解码器 “架构。本节，我们将使用两个循环神经网络的编码器和解码器，并将其应用于序列到序列（sequence to sequence，seq2seq）类的学习任务 :cite:...

more...