6.8k 6 分钟

# 权重衰减 🏷 sec_weight_decay 前一节我们描述了过拟合的问题,本节我们将介绍一些正则化模型的技术。 我们总是可以通过去收集更多的训练数据来缓解过拟合。 但这可能成本很高,耗时颇多,或者完全超出我们的控制,因而在短期内不可能做到。 假设我们已经拥有尽可能多的高质量数据,我们便可以将重点放在正则化技术上。 回想一下,在多项式回归的例子( :numref: sec_model_selection...
9.7k 9 分钟

# 模型选择、欠拟合和过拟合 🏷 sec_model_selection 作为机器学习科学家,我们的目标是发现模式(pattern)。 但是,我们如何才能确定模型是真正发现了一种泛化的模式, 而不是简单地记住了数据呢? 例如,我们想要在患者的基因数据与痴呆状态之间寻找模式, 其中标签是从集合{痴呆,轻度认知障碍,健康}\{\text{痴呆}, \text{轻度认知障碍}, \text{健康}\}{痴呆,轻度认知障碍,健康}...
3.5k 3 分钟

# 针对序列级和词元级应用微调 BERT 🏷 sec_finetuning-bert 在本章的前几节中,我们为自然语言处理应用设计了不同的模型,例如基于循环神经网络、卷积神经网络、注意力和多层感知机。这些模型在有空间或时间限制的情况下是有帮助的,但是,为每个自然语言处理任务精心设计一个特定的模型实际上是不可行的。在 :numref: sec_bert 中,我们介绍了一个名为 BERT 的预训练模型,该模型可以对广泛的自然语言处理任务进行最少的架构更改。一方面,在提出时,BERT 改进了各种自然语言处理任务的技术水平。另一方面,正如在 :numref: sec_bert-pretraining...
4.9k 4 分钟

# 自然语言推断与数据集 🏷 sec_natural-language-inference-and-dataset 在 :numref: sec_sentiment 中,我们讨论了情感分析问题。这个任务的目的是将单个文本序列分类到预定义的类别中,例如一组情感极性中。然而,当需要决定一个句子是否可以从另一个句子推断出来,或者需要通过识别语义等价的句子来消除句子间冗余时,知道如何对一个文本序列进行分类是不够的。相反,我们需要能够对成对的文本序列进行推断。 # 自然语言推断 自然语言推断(natural language...
1.2k 1 分钟

# 自然语言处理:应用 🏷 chap_nlp_app 前面我们学习了如何在文本序列中表示词元, 并在 :numref: chap_nlp_pretrain 中训练了词元的表示。 这样的预训练文本表示可以通过不同模型架构,放入不同的下游自然语言处理任务。 前一章我们提及到一些自然语言处理应用,这些应用没有预训练,只是为了解释深度学习架构。 例如,在 :numref: chap_rnn 中, 我们依赖循环神经网络设计语言模型来生成类似中篇小说的文本。 在 :numref: chap_modern_rnn 和 :numref: chap_attention...
6.6k 6 分钟

# 自然语言推断:微调 BERT 🏷 sec_natural-language-inference-bert 在本章的前面几节中,我们已经为 SNLI 数据集( :numref: sec_natural-language-inference-and-dataset )上的自然语言推断任务设计了一个基于注意力的结构( :numref: sec_natural-language-inference-attention )。现在,我们通过微调 BERT 来重新审视这项任务。正如在 :numref: sec_finetuning-bert...
1.8k 2 分钟

# 符号 🏷 chap_notation 本书中使用的符号概述如下。 # 数字 xxx:标量 x\mathbf{x}x:向量 X\mathbf{X}X:矩阵 X\mathsf{X}X:张量 I\mathbf{I}I:单位矩阵 xix_ixi​, [x]i[\mathbf{x}]_i[x]i​:向量x\mathbf{x}x 第iii 个元素 xijx_{ij}xij​, [X]ij[\mathbf{X}]_{ij}[X]ij​:矩阵X\mathbf{X}X 第iii 行第jjj 列的元素 # 集合论 X\mathcal{X}X: 集合 Z\mathbb{Z}Z:...
5.1k 5 分钟

# 情感分析:使用卷积神经网络 🏷 sec_sentiment_cnn 在 :numref: chap_cnn 中,我们探讨了使用二维卷积神经网络处理二维图像数据的机制,并将其应用于局部特征,如相邻像素。虽然卷积神经网络最初是为计算机视觉设计的,但它也被广泛用于自然语言处理。简单地说,只要将任何文本序列想象成一维图像即可。通过这种方式,一维卷积神经网络可以处理文本中的局部特征,例如nnn 元语法。 本节将使用 textCNN 模型来演示如何设计一个表示单个文本 :cite: Kim.2014 的卷积神经网络架构。与 :numref: fig_nlp-map-sa-rnn 中使用带有...
7.8k 7 分钟

# 自然语言推断:使用注意力 🏷 sec_natural-language-inference-attention 我们在 :numref: sec_natural-language-inference-and-dataset 中介绍了自然语言推断任务和 SNLI 数据集。鉴于许多模型都是基于复杂而深度的架构,Parikh 等人提出用注意力机制解决自然语言推断问题,并称之为 “可分解注意力模型” :cite: Parikh.Tackstrom.Das.ea.2016 。这使得模型没有循环层或卷积层,在 SNLI...
3.4k 3 分钟

# 情感分析及数据集 🏷 sec_sentiment 随着在线社交媒体和评论平台的快速发展,大量评论的数据被记录下来。这些数据具有支持决策过程的巨大潜力。 情感分析(sentiment analysis)研究人们在文本中 (如产品评论、博客评论和论坛讨论等)“隐藏”...