Mi Manchi = yuan = Whatever is worth doing at all is worth doing well

2022-11-12 42k 字 38 分钟

SpringMVC_day02

# SpringMVC_day02 今日内容完成 SSM 的整合开发能够理解并实现统一结果封装与统一异常处理能够完成前后台功能整合开发掌握拦截器的编写 # 1，SSM 整合前面我们已经把 Mybatis 、 Spring 和 SpringMVC 三个框架进行了学习，今天主要的内容就是把这三个框架整合在一起完成我们的业务功能开发，具体如何来整合，我们一步步来学习。 # 1.1 流程分析 (1) 创建工程创建一个 Maven 的 web 工程 pom.xml 添加 SSM 需要的依赖 jar 包编写 Web 项目的入口配置类，实现...

more...

2022-11-12 55k 字 50 分钟

SpringMVC_day01

# SpringMVC_day01 今日内容理解 SpringMVC 相关概念完成 SpringMVC 的入门案例学会使用 PostMan 工具发送请求和数据掌握 SpringMVC 如何接收请求、数据和响应结果掌握 RESTful 风格及其使用完成基于 RESTful 的案例编写 SpringMVC 是隶属于 Spring 框架的一部分，主要是用来进行 Web 开发，是对 Servlet 进行了封装。对于 SpringMVC 我们主要学习如下内容: SpringMVC 简介请求与响应 REST 风格 SSM 整合 (注解版) 拦截器 SpringMVC 是处于 Web...

more...

2022-11-12 192 字 1 分钟

NLP和transformer大类概述

对于 head 的理解，预训练的模型可能自己本身是带有 head 的，如果使用 autoModel 的话，那么就会自动加上这个 Head。但如果想要利用这个预训练模型，然后调整下游任务，那么就要换上特定的 token，这是就得使用 AutoModelFor...，这样模型就会自动替换原先的 head，然后就可以从头开始训练了。但是因为还是使用原来的模型，所以 AutoTokenizer 还是可以继续用的。

more...

2022-11-12 104 字 1 分钟

Unigram

# Unigram 标记化 Unigram tokenization 在 SentencePiece 中经常使用 Unigram 算法，该算法是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的标记化算法。

more...

2022-11-12 371 字 1 分钟

Normalization and pre-tokenization

# Normalization and pre-tokenization 标准化和预标记化在我们更深入地研究与 Transformer 模型（字节对编码 Byte-Pair Encoding [BPE]、WordPiece 和 Unigram）一起使用的三种最常见的子词标记化算法之前，我们将首先看一下每个标记器 tokenizer 应用于文本的预处理。以下是 tokenization pipeline 标记化管道中步骤的高级概述：在将文本拆分为子标记之前（根据其模型），分词器执行两个步骤： normalization 和 pre-tokenization. #...

more...

2022-11-12 975 字 1 分钟

根据已有的tokenizer训练新的tokenizer

# 根据已有的 tokenizer 训练新的 tokenizer 如果您感兴趣的语言中没有可用的语言模型，或者如果您的语料库与您的语言模型所训练的语料库有很大不同，您很可能希望从适合您的数据的标记器从头开始重新训练模型。这将需要在您的数据集上训练一个新的标记器。但这究竟是什么意思？当我们在第二章中第一次查看标记器时，我们看到大多数 Transformer 模型使用子词分词算法。为了识别哪些子词是感兴趣的并且在手头的语料库中最常出现，标记器需要仔细查看语料库中的所有文本 —— 我们称之为 training 的过程。...

more...

2022-11-12 848 字 1 分钟

WordPiece

# WordPiece 标记化 WordPiece 是 Google 为预训练 BERT 而开发的标记化算法。此后，它在不少基于 BERT 的 Transformer 模型中得到重用，例如 DistilBERT、MobileBERT、Funnel Transformers 和 MPNET。它在训练方面与 BPE 非常相似，但实际标记化的方式不同。 # 训练算法 Google 从未开源 WordPiece 训练算法的实现，因此以下是我们基于已发表文献的最佳猜测。它可能不是 100% 准确的。与 BPE 一样，WordPiece...

more...

2022-11-12 7.3k 字 7 分钟

Byte-Pair Encoding tokenization

# Byte-Pair Encoding tokenization 字节对编码 (BPE) 最初被开发为一种压缩文本的算法，然后在预训练 GPT 模型时被 OpenAI 用于标记化。许多 Transformer 模型都使用它，包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。 # 训练算法 BPE 训练首先计算语料库中使用的唯一单词集 (在完成标准化和预标记化步骤之后), 然后通过获取用于编写这些单词的所有符号来构建词汇表。一个非常简单的例子，假设我们的语料库使用了这五个词: "hug", "pug",...

more...

2022-11-12 18k 字 16 分钟

微调一个掩码语言模型

# 微调掩码语言模型对于许多涉及 Transformer 模型的 NLP 程序，你可以简单地从 Hugging Face Hub 中获取一个预训练的模型，然后直接在你的数据上对其进行微调，以完成手头的任务。只要用于预训练的语料库与用于微调的语料库没有太大区别，迁移学习通常会产生很好的结果。但是，在某些情况下，你需要先微调数据上的语言模型，然后再训练特定于任务的 head。例如，如果您的数据集包含法律合同或科学文章，像 BERT 这样的普通 Transformer...

more...

2022-11-12 6.1k 字 6 分钟

文本摘要 summarize

# 文本摘要在本节中，我们将看看如何使用 Transformer 模型将长文档压缩为摘要，这项任务称为文本摘要。这是最具挑战性的 NLP 任务之一，因为它需要一系列能力，例如理解长篇文章和生成能够捕捉文档中主要主题的连贯文本。但是，如果做得好，文本摘要是一种强大的工具，可以减轻领域专家详细阅读长文档的负担，从而加快各种业务流程。尽管在 Hugging Face Hub 上已经存在各种微调模型用于文本摘要，几乎所有这些都只适用于英文文档。因此，为了在本节中添加一些变化，我们将为英语和西班牙语训练一个双语模型。在本节结束时，您将有一个可以总结客户评论的模型。 #...

more...