4k 4 分钟

# 填充和步幅 🏷 sec_padding 在前面的例子 :numref: fig_correlation 中,输入的高度和宽度都为333,卷积核的高度和宽度都为222,生成的输出表征的维数为2×22\times22×2。 正如我们在 :numref: sec_conv_layer 中所概括的那样,假设输入形状为nh×nwn_h\times n_wnh​×nw​,卷积核形状为kh×kwk_h\times k_wkh​×kw​,那么输出形状将是(nh−kh+1)×(nw−kw+1)(n_h-k_h+1) \times...
3.4k 3 分钟

# 汇聚层 🏷 sec_pooling 通常当我们处理图像时,我们希望逐渐降低隐藏表示的空间分辨率、聚集信息,这样随着我们在神经网络中层叠的上升,每个神经元对其敏感的感受野(输入)就越大。 而我们的机器学习任务通常会跟全局图像的问题有关(例如,“图像是否包含一只猫呢?”),所以我们最后一层的神经元应该对整个输入的全局敏感。通过逐渐聚合信息,生成越来越粗糙的映射,最终实现学习全局表示的目标,同时将卷积图层的所有优势保留在中间层。 此外,当检测较底层的特征时(例如 :numref: sec_conv_layer...
5.7k 5 分钟

# 含并行连结的网络(GoogLeNet) 🏷 sec_googlenet 在 2014 年的 ImageNet 图像识别挑战赛中,一个名叫 GoogLeNet :cite: Szegedy.Liu.Jia.ea.2015 的网络架构大放异彩。 GoogLeNet 吸收了 NiN 中串联网络的思想,并在此基础上做了改进。 这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。 毕竟,以前流行的网络使用小到1×11 \times 11×1,大到11×1111 \times 1111×11 的卷积核。 本文的一个观点是,有时使用不同大小的卷积核组合是有利的。 本节将介绍一个稍微简化的...
5.4k 5 分钟

# 卷积神经网络(LeNet) 🏷 sec_lenet 通过之前几节,我们学习了构建一个完整卷积神经网络的所需组件。 回想一下,之前我们将 softmax 回归模型( :numref: sec_softmax_scratch )和多层感知机模型( :numref: sec_mlp_scratch )应用于 Fashion-MNIST 数据集中的服装图片。 为了能够应用 softmax 回归和多层感知机,我们首先将每个大小为28×2828\times2828×28 的图像展平为一个 784...
6.5k 6 分钟

# 从全连接层到卷积 🏷 sec_why-conv 我们之前讨论的多层感知机十分适合处理表格数据,其中行对应样本,列对应特征。 对于表格数据,我们寻找的模式可能涉及特征之间的交互,但是我们不能预先假设任何与特征交互相关的先验结构。 此时,多层感知机可能是最好的选择,然而对于高维感知数据,这种缺少结构的网络可能会变得不实用。 例如,在之前猫狗分类的例子中:假设我们有一个足够充分的照片数据集,数据集中是拥有标注的照片,每张照片具有百万级像素,这意味着网络的每次输入都有一百万个维度。 即使将隐藏层维度降低到 1000,这个全连接层也将有106×103=10910^6 \times 10^3 =...
741 1 分钟

# 现代卷积神经网络 🏷 chap_modern_cnn 上一章我们介绍了卷积神经网络的基本原理,本章将介绍现代的卷积神经网络架构,许多现代卷积神经网络的研究都是建立在这一章的基础上的。 在本章中的每一个模型都曾一度占据主导地位,其中许多模型都是 ImageNet 竞赛的优胜者。ImageNet 竞赛自 2010 年以来,一直是计算机视觉中监督学习进展的指向标。 这些模型包括: AlexNet。它是第一个在大规模视觉竞赛中击败传统计算机视觉模型的大型神经网络; 使用重复块的网络(VGG)。它利用许多重复的神经网络块; 网络中的网络(NiN)。它重复使用由卷积层和1×11\times...
16k 15 分钟

# 锚框 🏷 sec_anchor 目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框(ground-truth bounding box)。 不同的模型使用的区域采样方法可能不同。 这里我们介绍其中的一种方法:以每个像素为中心,生成多个缩放比和宽高比(aspect ratio)不同的边界框。 这些边界框被称为锚框(anchor box)我们将在 :numref: sec_ssd 中设计一个基于锚框的目标检测模型。 首先,让我们修改输出精度,以获得更简洁的输出。 %matplotlib...
3.1k 3 分钟

# 网络中的网络(NiN) 🏷 sec_nin LeNet、AlexNet 和 VGG 都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet 和 VGG 对 LeNet 的改进主要在于如何扩大和加深这两个模块。 或者,可以想象在这个过程的早期使用全连接层。然而,如果使用了全连接层,可能会完全放弃表征的空间结构。 网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机 :cite: Lin.Chen.Yan.2013 # (NiN...
2.2k 2 分钟

# 目标检测和边界框 🏷 sec_bbox 前面的章节(例如 :numref: sec_alexnet — :numref: sec_googlenet )介绍了各种图像分类模型。 在图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。 然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。 在计算机视觉里,我们将这类任务称为目标检测(object detection)或目标识别(object...
3.3k 3 分钟

# 使用块的网络(VGG) 🏷 sec_vgg 虽然 AlexNet 证明深层神经网络卓有成效,但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。 在下面的几个章节中,我们将介绍一些常用于设计深层神经网络的启发式概念。 与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似,神经网络架构的设计也逐渐变得更加抽象。研究人员开始从单个神经元的角度思考问题,发展到整个层,现在又转向块,重复层的模式。 使用块的想法首先出现在牛津大学的视觉几何组(visual geometry group)的 VGG...