第07章-第1节 深度神经网络(AlexNet) 课堂互动 隐藏答案 | 返回首页

作者:欧新宇(Xinyu OU)

最后更新:2025-01-03


【课堂互动7.1.1】AlexNet和ImageNet简介

1. 以下哪一个模型是第一个卷积神经网络模型?
A. LeNet-5
B. AlexNet
C. VGGNet
D. GoogLeNet
E. ResNet

答案及解析:A
LeNet-5最早由Yann LeCun在1989年提出,并在1998年进行改进,该网络是实际上第一个真正的卷积神经网络,并被应用在美国邮政支票的手写字体识别中。

2. ( )年,AlexNet在Imagenet LSVRC竞赛中获得冠军,这也带来了深度学习的大爆发。
A. 2010
B. 2012
C. 2014
D. 2016

答案及解析:B
2012年,Alex Krizhevsky、IIya Sutskever在多伦多大学Geoff Hinton的实验室设计出了一个深层的卷积神经网络AlexNet,夺得了2012年ImageNet LSVRC的冠军,且准确率远超第二名(top5错误率为15.3%,第二名为26.2%),引起了举世瞩目的轰动。自2012年AlexNet诞生之后,ImageNet的冠军都被卷积神经网络(CNN)包办了,并且层次越来越深,使得CNN逐渐成为图像识别分类的核心算法模型,也带来了深度学习的大爆发。

3. Imagenet图像数据集始于2009年,该数据集由 ( ) 领导的团队创建。
A. Alex Krizhevsky 和 Geoffrey Hinton
B. 颜水成
C. 汤晓鸥
D. 李飞飞

答案及解析:D
ImageNet图像数据集始于2009年,当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后就是基于ImageNet数据集的8届ILSVRC挑战赛(2010-2017),2017年后,ImageNet由Kaggle继续维护。

4.(多选)在Imagenet大规模视觉识别挑战赛中,下列哪些任务没有使用Imagenet数据集作为官方数据集?
A. 图像分类与目标定位
B. 目标检测
C. 视频目标检测
D. 场景分类
E. 场景分割

答案及解析:DE

5.(多选)以下对于在ILSVRC竞赛中所使用的Imagenet数据集描述正确项包括:()。
A. 包含大约1400万张图像
B. 包含5万张验证集图像
C. 包含大约128万张测试集图像
D. 包含15万张训练集图像
E. 包含1000个类

答案及解析:BE
ILSVRC竞赛的分类和检测任务是其核心任务,主要基于ImageNet数据集。Imagenet数据集是一个基于50,000+众包收集的数据集,由李飞飞教授领导,该数据集包含14,197,122张图像,分为21,841个类别。用于组织ILSVRC竞赛的数据是其一个子库,包含1000个类,图像大约包括:

6. Imagenet LSVRC竞赛从2010年至2017年总共举办了8次,在近三次竞赛中,在分类任务中获得冠军最多的国家(以第一作者的国籍为准)是( )。
A. 中国
B. 美国
C. 加拿大
D. 英国
E. 德国

答案及解析:A
在ILSVRC的分类任务中,近三年斩获前几名最多队伍包括:公安三所,新加坡国立大学,牛津大学,香港中文大学,中国科学院,清华大学等,虽然获奖者分布在世界各地,但其第一作者大多都是中国人。点赞!

7. 最早使用卷积神经网络CNN在ILSVRC竞赛中获得冠军的模型是()。
A. LeNet-5
B. AlexNet
C. VGGNet
D. GoogLeNet
E. ResNet

答案及解析: B
2012年Alex Krizhevsky, Hinton等人提出了基于卷积神经网络的图像分类,该网络是一个7层的CNN,后来被广泛命名为AlexNet,该模型最终获得了ILSVRC2012分类任务的冠军。

【课堂互动7.1.2】AlexNet的网络体系结构

1.(多选)AlexNet最大的贡献是方法论的进化,以下描述出正确的包括()。
A. 特征提取从纯手工向模型自动提取转变
B. 样本的特征选择逐渐由程序员自主选择转变为由领域专家进行设计和选择
C. 使用端到端的设计思路,将特征提取模型及分类器模型合并成一个模型进行同时训练
D. 按照分布设计的思想,将特征提取模型及分类器模型分开进行训练,并将分别训练好的最后模型进行组合输出

答案及解析:AC
在机器学习时代,对于一张图片,首先要进行人工的特征提取。计算机视觉的研究者主要关注的就是如何实现更好的特征提取。所以,专家对整个问题的理解主要是放在手工特征提取这一块,他们的主要工作就是将对问题的理解转换为标准的机器学习算法所理解的数值。另一方面,对于深度卷积神经网络来说。它们的最后一层就是一个Softmax回归,之前的所有层可以看成是一个通过CNN来学习特征的特征学习和提取器。CNN的主要好处是,分类器之前的部分不再像传统机器学习模型一样是独立的了,特征提取与分类器成为了一个统一的整体,一起进行训练。这就意味着,CNN学出来的东西很有可能就是你Softmax想要的。我通过我的很深的神经网络把整个原始的像素能够映射到一个空间,使得你的Softmax能够很好地进行分类。对于AlexNet模型来说,有两点是值得肯定的。第一是构造CNN相对来说比较简单,不需要了解很多专业的计算视觉的知识,而且能够很好地跨越到其他不同的学科。第二点是说特征提取和分类器其实是在一起在训练的,从模型的角度来看它们其实就是一个模型,这样的模型也比分离式的机器学习模型更加高效。这也是深度学习相对于传统机器学习来说最大的改变。换句话说,我们不需要再去挣扎如何对样本进行特征的抽取,而是一种端到端的学习。模型可以从原始的像素、字符串开始,直接将信号传送给输出,并直接生成分类或预测。可以说,端到端学习是深度学习最大的一个卖点。

2. 设卷积层有m个特征图,则m由()决定?
A. 上一层卷积层的深度
B. 上一层卷积核的个数
C. 上一层卷积核的深度
D. m是超参数由程序员手工设定

答案及解析: B
在卷积神经网络中:
卷积核的个数 = 下一层数据的深度 = 下一层卷积层卷积核的深度 = 本层的输出通道数 = 提取特征的数量

3. 为了能实现更好的特征表达能力,除了卷积和池化,卷积神经网络还需要()。
A. 更宽的网络支持
B. 更深的网络
C. 更多的神经元
D. 更大的卷积核

答案及解析:B

4. 从学习方法来看,Alexnet模型属于()。
A. 监督学习
B. 非监督学习
C. 半监督学习
D. 弱监督学习

答案及解析:A
Alexnet是最早被应用在大规模图像分类上卷积神经网络模型,该模型使用Softmax和交叉熵来实现分类,在计算距离的时候,需要原始数据的标签来计算欧氏距离,因此属于监督模型。

5. (多选)在7层模型Alexnet网络中,哪些层包含有最大池化层(Max-Pooling)?
A. 卷积层Conv1
B. 卷积层Conv2
C. 卷积层Conv3
D. 卷积层Conv4
E. 卷积层Conv5
F. 全连接层FC6
G. 全连接层FC7

答案及解析:ABE
池化层一般指出现卷积层后,但是在Alexnet中,只有第一、二、五个卷积层(组)后面紧跟了一个最大池化层。

6. 在卷积神经网络中,全连接层的参数个数的比例通常较高,因此全连接层也是特征学习的主要来源。
A. 正确
B. 错误

答案及解析:B
相比全连接层,卷积层能够更好地还原样本的特征,因此卷积层才是特征学习的主要来源。不过,全连接层特征通常会被作为样本最终的表达送入下游任务中。

7. 在Alexnet网络模型中,全连接层(不含FC8,且只计算单层)的神经元数量为()个。
A. 256
B. 384
C. 1000
D. 2048
E. 4096

答案及解析:E
在标准的Alexnet中,包含两个神经元个数为4096的全连接层,但是根据目标任务的难易程度,可以对全连接层的神经元个数进行调整,通常对于类别较少的任务,神经元的个数也会做相应的减少。

8. 在Alexnet模型中,参数最多的一类层是(),最少的一类层是()。
A. 卷积层 池化层
B. 全连接层 池化层
C. 全连接层 卷积层
D. 池化层 卷积层

答案及解析:B
在所有的卷积神经网络中,参数最多的是全连接层,该层参数的个数由前后两层的神经元个数决定;参数最少池化层,该层的参数个数为0。

9. 在Alexnet模型中,输入样本的尺度为[227×227×3],若卷积核的尺度变为[7×7×3],卷积核的步长为2,padding为0,个数为96,则输出特征图的尺度为:()。
A. [55×55×96]
B. [110,110,96]
C. [111,111,96]
D. [111,111,3]

答案及解析:C
按照计算公式W2=(W1-F+2P)/S+1,可以得到输出特征图的平面维度=(227-7+0)/2+1=111,深度维度=卷积核的个数=96。
因此,最终的输出尺度为:[111,111,96]

10. 模型的复杂度是用来衡量模型所占用资源的依据,就LeNet和AlexNet来说,下列对模型复杂度描述正确的是()。
A. [55×55×96]
B. [110,110,96]
C. [111,111,96]
D. [111,111,3]

答案及解析:C
按照计算公式W2=(W1-F+2P)/S+1,可以得到输出特征图的平面维度=(227-7+0)/2+1=111,深度维度=卷积核的个数=96。
因此,最终的输出尺度为:[111,111,96]

【课堂互动7.1.3】AlexNet的技术细节一:数据增广、数据预处理

1. 在Alexnet模型中,一般使用()方式进行均值减除。
A. 逐像素求均值
B. 按色彩通道求均值
C. 按行求均值
D. 按列求均值

答案及解析:B
在进行图像预处理时,求均值是一个非常重要的操作,它可以消除像素间的相关性。常见的求均值包括:逐像素、逐行、逐列、按色彩通道。在基于深度学习的模型中,按色彩通道求平均时效果最好的。在Alexnet中,作者使用128万的训练级完成了三个色彩通道的均值计算,该值为[104,117,123]。一般认为这个均值是比较符合自然场景的均值,因此被广泛应用到大多数通用的计算机视觉任务中。

2. 观察如下数据预处理的数学表达式,请问哪一项是Alexnet所使用的均值消除方式?
A. x=xxminxmaxxminx^{\ast} = \frac{x-x_{min}}{x_{max}-x_{min}}
B. x=xuσx^{\ast} = \frac{x-u}{\sigma}
C. x=xux^{\ast} = x-u

答案及解析:C
标准化和归一化都具有消除量纲的功能,使得原本分布相差较大的特征调整为对模型具有相同权重的影响,在传统及其学习中使用非常普遍。如果期望在最后的计算中,让所有特征都具有相同作业,则使用标准化;若希望保留原始数据中标准差所反映的潜在权重关系,则使用归一化。此外,标准化更加适合具有较多噪声的大数据场景。考虑到对于图像或视频或音频的数据的预处理,由于使用的都是同样类型的数据(图像视频为像素、音频为波形),所有的样本点都是一种特征,例如图像都分布在 [0,255]或[0,1] 之间。因此,不存在量纲问题。所以,只需要做零均值化即可。当然,选项B,方差归一化也是深度学习中常用的预处理方法。

3. (多选)在计算机视觉的任务中,以下属于均值消除带来的优点的包括()。
A. 提高神经网络的收敛速度,从而降低训练时间
B. 降低像素间的相关性,减少模型复杂度,从而实现模型瘦身
C. 降低像素间的相关性,从而提高特征的显著性,进而提高模型的拟合能力
D. 减少噪声数据对模型的影响,从而提高新模型的性能

答案及解析:AC
零均值有助于避免Z型更新的情况,一方面提高神经网络收敛速度,另外一方面也能避免像素间因为均值的相互影响导致特征显著性的下降。

4. 灰度图和彩色图不同,通常不但需要做均值消除,还需要做标准化处理。
A. 正确
B. 错误

答案及解析:B
灰度图通常只需要将色彩的数值模式从0-255转换为0-1之间,而不需要再做减均值操作,也不现需要做标准化处理。但是,在一些任务中,需要执行二值化操作,即使用阈值的方法,将所有像素的值都设置成0或1。

5.(多选)数据增广是基于深度学习任务中非常重要的一个环节,可以有效地解决过拟合问题,使用数据增广的主要原因包括( )。
A. 深度模型的参数太多
B. 相对于深度模型来说,数据太少
C. 深度模型的神经元太多
D. 很多时候数据的多样性不足

答案及解析:ABCD
数据增广(Data Augmentation)又称为数据扩充,通常包括平移、旋转、色彩变换、缩放、遮挡、裁剪、水印、光照等多种变换。对原始数据集进行数据增广,既可以增加数据量,又可以增加样本的多样性,从而消除因为样本数量少或者样本中对象特殊性过引起的过拟合问题。同时,由于深度神经网络通常具有较多的参数和神经元,这非常容易产生过拟合问题,大规模数据的引入可以在很大程度上缓解这种过拟合问题。

6. 在Alexnet模型中,不计算色彩饱和度变换,原始的训练数据被扩展了()倍。
A. 2
B. 10
C. 1024
D. 2048

答案及解析:D
训练阶段,执行随机裁剪+水平反转:对256×256的图片进行顺序裁剪至224×224,并对每个切片都执行水平反转。数据增加量=(256224)2×2=2048=(256−224)^2×2=2048

7. 在Alexnet模型的测试过程中,原始的测试数据被扩展了()倍。
A. 2
B. 10
C. 1024
D. 2048

答案及解析:B
在测试阶段,通常使用10重切割进行数据扩展。即在256×256的样本中执行左上,左下,右上,右下,中间5次裁剪,并对裁剪数据执行水平翻转。预测时,对10个样本的预测概率求平均值。

【课堂互动7.1.4】AlexNet的技术细节二:ReLU、Dropout、有重叠池化及LRN`

1. 以下常见的激活函数,哪一个收敛速度最快?
A. Sigmoid
B. SoftPlus
C. Tanh双曲正切函数
D. ReLU限制线性单元

答案及解析:D
在Alex给出的实验中,证明ReLU由于其线性特性,因此它的导数始终为1,所以大大减少了反向传播时的计算量,这给优势让它比Sigmoid和Tanh快了近6倍。相似的,SoftPlus也是非线性的激活函数,因此执行效率和Sigmoid近似。

2. 下列为了实现保留输入特征图的维度,从而使输出特征图具有和输入特征图一样的维度的技术是哪一个?
A. Convolution
B. Padding
C. Max-Pooling
D. Stride
E. Mean-Pooling

答案及解析: B
Padding技术实现在输入特征图周围进行补0操作,从而实现在输出激活中保留输入空间的维度,即使输出特征图具有和输入特征图一样的维度。

3. (多选)下列技术可以对输出激活实现降采样的有哪些?
A. Convolution
B. Padding
C. Max-Pooling
D. Stride
E. Mean-Pooling

答案及解析: BCD
池化技术和步长Stride技术都可以实现对输出激活(特征图)的降采样。

4. 下列哪一项时Dropout的典型值?
A. 0
B. 0.5
C. 0.9
D. 1

答案及解析:B
x = fluid.layers.dropout(x, 0.5)

5. 以下步长和池化核尺度的关系中,属于有重叠池化的一个是。
A. pool_size = 2, stride = 2
B. pool_size = 2, stride = 3
C. pool_size = 3, stride = 2
D. pool_size = 3, stride = 3

答案及解析:C
有重叠池化是指步长小于池化核时,相邻的池化运算具有重叠的区域。一般来说,pool_size = stride称为无重叠池化;stride<pool_size,则称为有重叠池化.

6. 下列选项中,被Alex认为可以通过局部响应归一化实现值域限制来改进性能的激活函数包括()。
A. ReLU
B. Sigmoid
C. Tanh
D. Softmax

答案及解析:A
Sigmod和Tanh有一定的归一化作用,它们将输出归一化到[0,1]/[-1,1]之间。而ReLU的值域并没有限制,因此需要对其进行归一化。Alexnet提出了一种归一化方法,称为局部响应归一化 (Local Response Normalization,LRN)。基本想法是通过LRN层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力。

【课堂互动7.1.5】AlexNet的技术细节三:训练及推理

1. Softmax概率归一化函数的主要功能是实现()。
A. 将神经网络获得的特征值(分值)转换为概率分布
B. 计算网络输出的归一化概率和真是标签之间的交叉熵
C. 获取神经网络输出对应的One-hot向量
D. 获取网络的输出分值

答案及解析: A
神经网络的多分类损失主要包含两部,第一步是使用Softmax概率归一化函数实现将神经网络的输出分值归一化为概率分布;第二步是计算归一化概率和真实标签之间的交叉熵。交叉熵可以用来衡量两个概率之间的距离。

2. 在原始的Alexnet中,作者使用2块GTX 580 GPU来进行训练,在这两个GPU上都有完整的Alexnet模型。
A. 正确
B. 错误

答案及解析:B
在Alexnet中,作者所使用的GPU并行计算,通常称为模型并行。使用该方法的原因是,Alexnet需要用到超过3GB的现存,而当时最好的显卡GTX 580 只有3GB。因此,Alex就将模型拆分成两组,除了输入和最终的输出部分,模型都被平均分成两份,放在两个不同的GPU显卡上。因此,在两个GPU上实际上是没有完整模型的。

3. GPU并行计算是深度学习模型能够顺利训练的关键因素,目前在模型训练中,最常用的多GPU并行方法是()。
A. 模型并行
B. 参数并行
C. 数据并行
D. 混合并行

答案及解析:C

深度学习的GPU并行,通常指基于Batch划分的多GPU并行。不同的数据batch会被分到不同的GPU上进行训练,并在最后进行梯度合并,然后再划分到不同的GPU上执行反向传播更新梯度。

4. 在深度学习的训练过程中,有时候会用到多块GPU进行多GPU并行训练,这种方法最大的优势是()。
A. 缩短训练时间
B. 提高训练精度
C. 减少硬盘空间的占用
D. 降低模型对总数据量的需求

答案及解析:A
深度学习常用的多GPU并行训练,通常指基于Batch划分的多GPU并行。在训练过程中,可以将不同Batch的数据分配到不同的GPU上进行同时训练,相当于原来在一个GPU上训练的工作,被分配到多个GPU上共同承担,这样可以大大缩短训练时间。

5. 在卷积神经网络中,输出层输出的预测标签为输出概率的对数中()的索引。
A. 平均值
B. 最小值
C. 最大值
D. 无法判定

答案及解析:C
最大值

6. 在卷积神经网络中,基于动量的随机梯度下降被广泛使用,其中超参数Momentum的典型值为()。
A. 0
B. 0.5
C. 0.9
D. 1.0

答案及解析:C
在权重更新公式中,动量Momentum=0.9, 权重衰减系数=0.0005,为一组典型值。

7. (多选)下列哪些项,包含在Alexnet的权重更新规则中?
A. 动量项
B. 权重衰减项
C. 梯度提升项
D. 梯度项

答案及解析:ABD
权重(梯度)更新规则为:
vi+1:=0.9vi0.0005ϵwiϵ<Lwwi>Div_{i+1} := 0.9·v_i - 0.0005·\epsilon·w_i - \epsilon·<\frac{\partial L}{\partial w}|_{w_i}>_{D_i}
wi+1:=vi+1w_{i+1} := v_{i+1}

8. (多选)下列多级学习率设计合理的包括()。
A. [0.01, 0.001, 0.0001]
B. [0.0001, 0.001, 0.01]
C. [0.0001, 0.01, 0.001, 0.0001]
D. [0.001, 0.01, 0.001, 0.01]

答案及解析:AC

9. 在AlexNet的训练过程中,基于动量的随机梯度下降被广泛使用,并且使用了步进学习率。即当验证误差趋于平稳,不再下降时,学习率()。
A. 提高100倍
B. 提高10倍
C. 保持不变
D. 降低10倍
E. 降低100倍

答案及解析: D
步进学习率时训练深度神经网络时常用的学习率策略,它指在学习过程中,当验证误差不再下降时(趋于平稳态),学习率降低10倍。

10. 下列关于模型结束训练描述正确的是()。
A. 当错误率小于0.01时可以停止训练
B. 需要等待所有轮次训练完才能结束训练
C. 当训练损失仍在下降时不应该结束训练
D. 当验证集损失停止下降时应该结束训练

答案及解析: D
在进行模型训练时,最佳的结束训练时间是验证集损失停止下降时。通常,当验证集损失不再下降就应该及时停止训练,避免过拟合的产生,这种策略也成为早期停止(early-stop). C选项,训练损失仍在下降,而验证损失不在下降就是典型的过拟合现象。

11. (多选)Alexnet模型的原文中,实现了以下哪些任务?
A. 图像分类
B. 目标检测和识别
C. 图像检索
D. 图像分割

答案及解析:ABC
分类、检测、检索、分割是计算机视觉的四大任务,在Alexnet的原始论文《ImageNet Classification with Deep Convolutional Neural Networks》,作者主要实现了图像分类、目标识别和定位、图像检索三大任务。

12. 多模型融合一般指使用不同类型的模型结构进行融合,同时使用多个CNN进行融合,一般无法起到提高性能的作用。
A. 正确
B. 错误

答案及解析:B
无论是使用多个不同类型的模型,还是使用同类型,甚至同结构的模型进行融合都会有一定的效果。特别是对于CNN来说,由于每个模型都是使用随机初始化,同时还使用Dropout,因此每次训练获得的模型,都有其独特性(显著性),通过融合不同次训练的模型,可以让这种独特性往好的方向发展,从而提高系统性能。

13. (多选)在使用卷积神经网络进行图像查询的时候,一般使用()来进行相似性对比。
A. 交叉熵
B. 欧氏距离
C. 汉明距离
D. 贝叶斯概率

答案及解析: BC
A选项常被应用在分类任务中;B、C选项用于计算两个样本的相似性(或距离),可以用于图像检索,也可以用于目标检测的回归分支;D选项用于评价信息的置信度

14. ZFNet对AlexNet进行了()的优化,并最终获得了ILSVRC2014的冠军,ZFNet也证明了合理的超参数设置对于网络的性能具有很大的影响。
A. 超参数
B. 模型宽度
C. 模型深度
D. 输入图像尺度

答案及解析: A
ZFNet对AlexNet进行了超参数的优化,并最终获得了ILSVRC2014的冠军。ZFNet的具体优化包括:

第07章-第1节 深度神经网络(AlexNet) 课堂互动 隐藏答案 | 返回首页