课堂互动
隐藏答案 | 返回首页 作者:欧新宇(Xinyu OU)
当前版本:Release v1.0
最后更新:2022-11-23
深度神经网络(AlexNet)@7.11AlexNet和ImageNet简介
1. 以下哪一个模型是第一个卷积神经网络模型?
A. LeNet-5
B. AlexNet
C. VGGNet
D. GoogLeNet
E. ResNet
答案及解析:A
LeNet-5最早由Yann LeCun在1989年提出,并在1998年进行改进,该网络是实际上第一个真正的卷积神经网络,并被应用在美国邮政支票的手写字体识别中。
2. ( )年,AlexNet在Imagenet LSVRC竞赛中获得冠军,这也带来了深度学习的大爆发。
A. 2010
B. 2012
C. 2014
D. 2016
答案及解析:B
2012年,Alex Krizhevsky、IIya Sutskever在多伦多大学Geoff Hinton的实验室设计出了一个深层的卷积神经网络AlexNet,夺得了2012年ImageNet LSVRC的冠军,且准确率远超第二名(top5错误率为15.3%,第二名为26.2%),引起了举世瞩目的轰动。自2012年AlexNet诞生之后,ImageNet的冠军都被卷积神经网络(CNN)包办了,并且层次越来越深,使得CNN逐渐成为图像识别分类的核心算法模型,也带来了深度学习的大爆发。
3. Imagenet图像数据集始于2009年,该数据集由 ( ) 领导的团队创建。
A. Alex Krizhevsky 和 Geoffrey Hinton
B. 颜水成
C. 汤晓鸥
D. 李飞飞
答案及解析:D
ImageNet图像数据集始于2009年,当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后就是基于ImageNet数据集的8届ILSVRC挑战赛(2010-2017),2017年后,ImageNet由Kaggle继续维护。
4. (多选)在Imagenet大规模视觉识别挑战赛中,下列哪些任务没有使用Imagenet数据集
作为官方数据集?
A. 图像分类与目标定位
B. 目标检测
C. 视频目标检测
D. 场景分类
E. 场景分割
答案及解析:DE
5. (多选)以下对于在ILSVRC竞赛中所使用的Imagenet数据集描述正确项包括:()。
A. 包含大约1400万张图像
B. 包含5万张验证集图像
C. 包含大约128万张测试集图像
D. 包含15万张训练集图像
E. 包含1000个类
答案及解析:BE
ILSVRC竞赛的分类和检测任务是其核心任务,主要基于ImageNet数据集。Imagenet数据集是一个基于50,000+众包收集的数据集,由李飞飞教授领导,该数据集包含14,197,122张图像,分为21,841个类别。用于组织ILSVRC竞赛的数据是其一个子库,包含1000个类,图像大约包括:
6. Imagenet LSVRC竞赛从2010年至2017年总共举办了8次,在近三次竞赛中,在分类任务中获得冠军最多的国家(以第一作者的国籍为准)是( )。
A. 中国
B. 美国
C. 加拿大
D. 英国
E. 德国
答案及解析:A
在ILSVRC的分类任务中,近三年斩获前几名最多队伍包括:公安三所,新加坡国立大学,牛津大学,香港中文大学,中国科学院,清华大学等,虽然获奖者分布在世界各地,但其第一作者大多都是中国人。点赞!
7. 最早使用卷积神经网络CNN在ILSVRC竞赛中获得冠军的模型是()。
A. LeNet-5
B. AlexNet
C. VGGNet
D. GoogLeNet
E. ResNet
答案及解析: B
2012年Alex Krizhevsky, Hinton等人提出了基于卷积神经网络的图像分类,该网络是一个7层的CNN,后来被广泛命名为AlexNet,该模型最终获得了ILSVRC2012分类任务的冠军。
深度神经网络(AlexNet)@7.12AlexNet的网络体系结构
1. (多选)AlexNet最大的贡献是方法论的进化,以下描述出正确的包括()。
A. 特征提取从纯手工向模型自动提取转变
B. 样本的特征选择逐渐由程序员自主选择转变为由领域专家进行设计和选择
C. 使用端到端的设计思路,将特征提取模型及分类器模型合并成一个模型进行同时训练
D. 按照分布设计的思想,将特征提取模型及分类器模型分开进行训练,并将分别训练好的最后模型进行组合输出
答案及解析:AC
在机器学习时代,对于一张图片,首先要进行人工的特征提取。计算机视觉的研究者主要关注的就是如何实现更好的特征提取。所以,专家对整个问题的理解主要是放在手工特征提取这一块,他们的主要工作就是将对问题的理解转换为标准的机器学习算法所理解的数值。另一方面,对于深度卷积神经网络来说。它们的最后一层就是一个Softmax回归,之前的所有层可以看成是一个通过CNN来学习特征的特征学习和提取器。CNN的主要好处是,分类器之前的部分不再像传统机器学习模型一样是独立的了,特征提取与分类器成为了一个统一的整体,一起进行训练。这就意味着,CNN学出来的东西很有可能就是你Softmax想要的。我通过我的很深的神经网络把整个原始的像素能够映射到一个空间,使得你的Softmax能够很好地进行分类。对于AlexNet模型来说,有两点是值得肯定的。第一是构造CNN相对来说比较简单,不需要了解很多专业的计算视觉的知识,而且能够很好地跨越到其他不同的学科。第二点是说特征提取和分类器其实是在一起在训练的,从模型的角度来看它们其实就是一个模型,这样的模型也比分离式的机器学习模型更加高效。这也是深度学习相对于传统机器学习来说最大的改变。换句话说,我们不需要再去挣扎如何对样本进行特征的抽取,而是一种端到端的学习。模型可以从原始的像素、字符串开始,直接将信号传送给输出,并直接生成分类或预测。可以说,端到端学习是深度学习最大的一个卖点。
2. 设卷积层有m个特征图,则m由()决定?
A. 上一层卷积层的深度
B. 上一层卷积核的个数
C. 上一层卷积核的深度
D. m是超参数由程序员手工设定
答案及解析: B
在卷积神经网络中:
卷积核的个数 = 下一层数据的深度 = 下一层卷积层卷积核的深度 = 本层的输出通道数 = 提取特征的数量
3. 为了能实现更好的特征表达能力,除了卷积和池化,卷积神经网络还需要()。
A. 更宽的网络支持
B. 更深的网络
C. 更多的神经元
D. 更大的卷积核
答案及解析:B
4. 从学习方法来看,Alexnet模型属于()。
A. 监督学习
B. 非监督学习
C. 半监督学习
D. 弱监督学习
答案及解析:A
Alexnet是最早被应用在大规模图像分类上卷积神经网络模型,该模型使用Softmax和交叉熵来实现分类,在计算距离的时候,需要原始数据的标签来计算欧氏距离,因此属于监督模型。
5. (多选)在7层模型Alexnet网络中,哪些层包含有最大池化层(Max-Pooling)?
A. 卷积层Conv1
B. 卷积层Conv2
C. 卷积层Conv3
D. 卷积层Conv4
E. 卷积层Conv5
F. 全连接层FC6
G. 全连接层FC7
答案及解析:ABE
池化层一般指出现卷积层后,但是在Alexnet中,只有第一、二、五个卷积层(组)后面紧跟了一个最大池化层。
6. 在卷积神经网络中,全连接层的参数个数的比例通常较高,因此全连接层也是特征学习的主要来源。
A. 正确
B. 错误
答案及解析:B
相比全连接层,卷积层能够更好地还原样本的特征,因此卷积层才是特征学习的主要来源。不过,全连接层特征通常会被作为样本最终的表达送入下游任务中。
7. 在Alexnet网络模型中,全连接层(不含FC8,且只计算单层)的神经元数量为()个。
A. 256
B. 384
C. 1000
D. 2048
E. 4096
答案及解析:E
在标准的Alexnet中,包含两个神经元个数为4096的全连接层,但是根据目标任务的难易程度,可以对全连接层的神经元个数进行调整,通常对于类别较少的任务,神经元的个数也会做相应的减少。
8. 在Alexnet模型中,参数最多的一类层是(),最少的一类层是()。
A. 卷积层 池化层
B. 全连接层 池化层
C. 全连接层 卷积层
D. 池化层 卷积层
答案及解析:B
在所有的卷积神经网络中,参数最多的是全连接层,该层参数的个数由前后两层的神经元个数决定;参数最少池化层,该层的参数个数为0。
9. 在Alexnet模型中,输入样本的尺度为[227×227×3],若卷积核的尺度变为[7×7×3],卷积核的步长为2,padding为0,个数为96,则输出特征图的尺度为:()。
A. [55×55×96]
B. [110,110,96]
C. [111,111,96]
D. [111,111,3]
答案及解析:C
按照计算公式W2=(W1-F+2P)/S+1,可以得到输出特征图的平面维度=(227-7+0)/2+1=111,深度维度=卷积核的个数=96。
因此,最终的输出尺度为:[111,111,96]
10. 模型的复杂度是用来衡量模型所占用资源的依据,就LeNet和AlexNet来说,下列对模型复杂度描述正确的是()。
A. [55×55×96]
B. [110,110,96]
C. [111,111,96]
D. [111,111,3]
答案及解析:C
按照计算公式W2=(W1-F+2P)/S+1,可以得到输出特征图的平面维度=(227-7+0)/2+1=111,深度维度=卷积核的个数=96。
因此,最终的输出尺度为:[111,111,96]
深度神经网络(AlexNet)@7.13AlexNet的技术细节一:数据增广、数据预处理
1. 在Alexnet模型中,一般使用()方式进行均值减除。
A. 逐像素求均值
B. 按色彩通道求均值
C. 按行求均值
D. 按列求均值
答案及解析:B
在进行图像预处理时,求均值是一个非常重要的操作,它可以消除像素间的相关性。常见的求均值包括:逐像素、逐行、逐列、按色彩通道。在基于深度学习的模型中,按色彩通道求平均时效果最好的。在Alexnet中,作者使用128万的训练级完成了三个色彩通道的均值计算,该值为[104,117,123]。一般认为这个均值是比较符合自然场景的均值,因此被广泛应用到大多数通用的计算机视觉任务中。
2. 观察如下数据预处理的数学表达式,请问哪一项是Alexnet所使用的均值消除方式?
A.
B.
C.
答案及解析:C
标准化和归一化都具有消除量纲的功能,使得原本分布相差较大的特征调整为对模型具有相同权重的影响,在传统及其学习中使用非常普遍。如果期望在最后的计算中,让所有特征都具有相同作业,则使用标准化;若希望保留原始数据中标准差所反映的潜在权重关系,则使用归一化。此外,标准化更加适合具有较多噪声的大数据场景。考虑到对于图像或视频或音频的数据的预处理,由于使用的都是同样类型的数据(图像视频为像素、音频为波形),所有的样本点都是一种特征,例如图像都分布在 [0,255]或[0,1] 之间。因此,不存在量纲问题。所以,只需要做零均值化即可。当然,选项B,方差归一化也是深度学习中常用的预处理方法。
3. (多选)在计算机视觉的任务中,以下属于均值消除带来的优点的包括()。
A. 提高神经网络的收敛速度,从而降低训练时间
B. 降低像素间的相关性,减少模型复杂度,从而实现模型瘦身
C. 降低像素间的相关性,从而提高特征的显著性,进而提高模型的拟合能力
D. 减少噪声数据对模型的影响,从而提高新模型的性能
答案及解析:AC
零均值有助于避免Z型更新
的情况,一方面提高神经网络收敛速度,另外一方面也能避免像素间因为均值的相互影响导致特征显著性的下降。
4. 灰度图和彩色图不同,通常不但需要做均值消除,还需要做标准化处理。
A. 正确
B. 错误
答案及解析:B
灰度图通常只需要将色彩的数值模式从0-255转换为0-1之间,而不需要再做减均值操作,也不现需要做标准化处理。但是,在一些任务中,需要执行二值化操作,即使用阈值的方法,将所有像素的值都设置成0或1。
5.(多选)数据增广是基于深度学习任务中非常重要的一个环节,可以有效地解决过拟合问题,使用数据增广的主要原因包括( )。
A. 深度模型的参数太多
B. 相对于深度模型来说,数据太少
C. 深度模型的神经元太多
D. 很多时候数据的多样性不足
答案及解析:ABCD
数据增广(Data Augmentation)又称为数据扩充,通常包括平移、旋转、色彩变换、缩放、遮挡、裁剪、水印、光照等多种变换。对原始数据集进行数据增广,既可以增加数据量,又可以增加样本的多样性,从而消除因为样本数量少或者样本中对象特殊性过引起的过拟合问题。同时,由于深度神经网络通常具有较多的参数和神经元,这非常容易产生过拟合问题,大规模数据的引入可以在很大程度上缓解这种过拟合问题。
6. 在Alexnet模型中,不计算色彩饱和度变换,原始的训练数据被扩展了()倍。
A. 2
B. 10
C. 1024
D. 2048
答案及解析:D
训练阶段,执行随机裁剪+水平反转:对256×256的图片进行顺序裁剪至224×224,并对每个切片都执行水平反转。数据增加量倍
7. 在Alexnet模型的测试过程中,原始的测试数据被扩展了()倍。
A. 2
B. 10
C. 1024
D. 2048
答案及解析:B
在测试阶段,通常使用10重切割进行数据扩展。即在256×256的样本中执行左上,左下,右上,右下,中间5次裁剪,并对裁剪数据执行水平翻转。预测时,对10个样本的预测概率求平均值。
深度神经网络(AlexNet)@7.14AlexNet的技术细节二:ReLU、Dropout、有重叠池化及LRN
1. 以下常见的激活函数,哪一个收敛速度最快?
A. Sigmoid
B. SoftPlus
C. Tanh双曲正切函数
D. ReLU限制线性单元
答案及解析:D
在Alex给出的实验中,证明ReLU由于其线性特性,因此它的导数始终为1,所以大大减少了反向传播时的计算量,这给优势让它比Sigmoid和Tanh快了近6倍。相似的,SoftPlus也是非线性的激活函数,因此执行效率和Sigmoid近似。
2. 下列为了实现保留输入特征图的维度,从而使输出特征图具有和输入特征图一样的维度的技术是哪一个?
A. Convolution
B. Padding
C. Max-Pooling
D. Stride
E. Mean-Pooling
答案及解析: B
Padding技术实现在输入特征图周围进行补0操作,从而实现在输出激活中保留输入空间的维度,即使输出特征图具有和输入特征图一样的维度。
3. (多选)下列技术可以对输出激活实现降采样的有哪些?
A. Convolution
B. Padding
C. Max-Pooling
D. Stride
E. Mean-Pooling
答案及解析: BCD
池化技术和步长Stride技术都可以实现对输出激活(特征图)的降采样。
4. 下列哪一项时Dropout的典型值?
A. 0
B. 0.5
C. 0.9
D. 1
答案及解析:B
x = fluid.layers.dropout(x, 0.5)
5. 以下步长和池化核尺度的关系中,属于有重叠池化的一个是。
A. pool_size = 2, stride = 2
B. pool_size = 2, stride = 3
C. pool_size = 3, stride = 2
D. pool_size = 3, stride = 3
答案及解析:C
有重叠池化是指步长小于池化核时,相邻的池化运算具有重叠的区域。一般来说,pool_size = stride
称为无重叠池化;stride<pool_size
,则称为有重叠池化.
6. 下列选项中,被Alex认为可以通过局部响应归一化实现值域限制来改进性能的激活函数包括()。
A. ReLU
B. Sigmoid
C. Tanh
D. Softmax
答案及解析:A
Sigmod和Tanh有一定的归一化作用,它们将输出归一化到[0,1]/[-1,1]之间。而ReLU的值域并没有限制,因此需要对其进行归一化。Alexnet提出了一种归一化方法,称为局部响应归一化 (Local Response Normalization,LRN)。基本想法是通过LRN层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力。
深度神经网络(AlexNet)@7.15AlexNet的技术细节三:训练及推理
1. Softmax概率归一化函数的主要功能是实现()。
A. 将神经网络获得的特征值(分值)转换为概率分布
B. 计算网络输出的归一化概率和真是标签之间的交叉熵
C. 获取神经网络输出对应的One-hot向量
D. 获取网络的输出分值
答案及解析: A
神经网络的多分类损失主要包含两部,第一步是使用Softmax概率归一化函数实现将神经网络的输出分值归一化为概率分布;第二步是计算归一化概率和真实标签之间的交叉熵。交叉熵可以用来衡量两个概率之间的距离。
2. 在原始的Alexnet中,作者使用2块GTX 580 GPU来进行训练,在这两个GPU上都有完整的Alexnet模型。
A. 正确
B. 错误
答案及解析:B
在Alexnet中,作者所使用的GPU并行计算,通常称为模型并行。使用该方法的原因是,Alexnet需要用到超过3GB的现存,而当时最好的显卡GTX 580 只有3GB。因此,Alex就将模型拆分成两组,除了输入和最终的输出部分,模型都被平均分成两份,放在两个不同的GPU显卡上。因此,在两个GPU上实际上是没有完整模型的。
3. GPU并行计算是深度学习模型能够顺利训练的关键因素,目前在模型训练中,最常用的多GPU并行方法是()。
A. 模型并行
B. 参数并行
C. 数据并行
D. 混合并行
答案及解析:C
深度学习的GPU并行,通常指基于Batch划分的多GPU并行。不同的数据batch会被分到不同的GPU上进行训练,并在最后进行梯度合并,然后再划分到不同的GPU上执行反向传播更新梯度。
4. 在深度学习的训练过程中,有时候会用到多块GPU进行多GPU并行训练,这种方法最大的优势是()。
A. 缩短训练时间
B. 提高训练精度
C. 减少硬盘空间的占用
D. 降低模型对总数据量的需求
答案及解析:A
深度学习常用的多GPU并行训练,通常指基于Batch划分的多GPU并行。在训练过程中,可以将不同Batch的数据分配到不同的GPU上进行同时训练,相当于原来在一个GPU上训练的工作,被分配到多个GPU上共同承担,这样可以大大缩短训练时间。
5. 在卷积神经网络中,输出层输出的预测标签为输出概率的对数中()的索引。
A. 平均值
B. 最小值
C. 最大值
D. 无法判定
答案及解析:C
最大值
6. 在卷积神经网络中,基于动量的随机梯度下降被广泛使用,其中超参数Momentum的典型值为()。
A. 0
B. 0.5
C. 0.9
D. 1.0
答案及解析:C
在权重更新公式中,动量Momentum=0.9, 权重衰减系数=0.0005,为一组典型值。
7. (多选)下列哪些项,包含在Alexnet的权重更新规则中?
A. 动量项
B. 权重衰减项
C. 梯度提升项
D. 梯度项
答案及解析:ABD
权重(梯度)更新规则为:
8. (多选)下列多级学习率设计合理的包括()。
A. [0.01, 0.001, 0.0001]
B. [0.0001, 0.001, 0.01]
C. [0.0001, 0.01, 0.001, 0.0001]
D. [0.001, 0.01, 0.001, 0.01]
答案及解析:AC
9. 在AlexNet的训练过程中,基于动量的随机梯度下降被广泛使用,并且使用了步进学习率。即当验证误差趋于平稳,不再下降时,学习率()。
A. 提高100倍
B. 提高10倍
C. 保持不变
D. 降低10倍
E. 降低100倍
答案及解析: D
步进学习率时训练深度神经网络时常用的学习率策略,它指在学习过程中,当验证误差不再下降时(趋于平稳态),学习率降低10倍。
10. 下列关于模型结束训练描述正确的是()。
A. 当错误率小于0.01时可以停止训练
B. 需要等待所有轮次训练完才能结束训练
C. 当训练损失仍在下降时不应该结束训练
D. 当验证集损失停止下降时应该结束训练
答案及解析: D
在进行模型训练时,最佳的结束训练时间是验证集损失停止下降时。通常,当验证集损失不再下降就应该及时停止训练,避免过拟合的产生,这种策略也成为早期停止(early-stop). C选项,训练损失仍在下降,而验证损失不在下降就是典型的过拟合现象。
11. (多选)Alexnet模型的原文中,实现了以下哪些任务?
A. 图像分类
B. 目标检测和识别
C. 图像检索
D. 图像分割
答案及解析:ABC
分类、检测、检索、分割是计算机视觉的四大任务,在Alexnet的原始论文《ImageNet Classification with Deep Convolutional Neural Networks》,作者主要实现了图像分类、目标识别和定位、图像检索三大任务。
12. 多模型融合一般指使用不同类型的模型结构进行融合,同时使用多个CNN进行融合,一般无法起到提高性能的作用。
A. 正确
B. 错误
答案及解析:B
无论是使用多个不同类型的模型,还是使用同类型,甚至同结构的模型进行融合都会有一定的效果。特别是对于CNN来说,由于每个模型都是使用随机初始化,同时还使用Dropout,因此每次训练获得的模型,都有其独特性(显著性),通过融合不同次训练的模型,可以让这种独特性往好的方向发展,从而提高系统性能。
13. (多选)在使用卷积神经网络进行图像查询的时候,一般使用()来进行相似性对比。
A. 交叉熵
B. 欧氏距离
C. 汉明距离
D. 贝叶斯概率
答案及解析: BC
A选项常被应用在分类任务中;B、C选项用于计算两个样本的相似性(或距离),可以用于图像检索,也可以用于目标检测的回归分支;D选项用于评价信息的置信度
14. ZFNet对AlexNet进行了()的优化,并最终获得了ILSVRC2014的冠军,ZFNet也证明了合理的超参数设置对于网络的性能具有很大的影响。
A. 超参数
B. 模型宽度
C. 模型深度
D. 输入图像尺度
答案及解析: A
ZFNet对AlexNet进行了超参数的优化,并最终获得了ILSVRC2014的冠军。ZFNet的具体优化包括:
模块化的网络(VGGNet)@7.21VGG的特点
1. 以下增加神经网络深度的方法中,VGG所使用的是()。
A. 直接进行更多的全连接层的堆叠
B. 直接进行更多的卷积层的堆叠
C. 精心设计各种功能层的组合
D. 模块化地进行卷积层组的堆叠
答案及解析:D
选项A的设计和深度多层感知机的思想差不多,然而它最大的问题就是参数过多,实现的价值过于昂贵;选项B和D的区别是前者只是单纯地进行卷积层的堆叠,而后者是先组合再按组进行堆叠,单纯的进行卷积层的堆叠会导致超参数的确定困难;选项C所采用的精心设计网络是GoogLeNet的主要方法,这种方法性价比最好,但是设计和实现较为困难;选项D是本题VGG的设计方法。
2. (多选)VGGNet的一个重要贡献是证明了堆叠小卷积核比使用大卷积核具有更多的优势,这些优势包括()。
A. 可以获得更深的网络,即得到更强的非线性特性
B. 减少参数,从而降低模型对存储的需求
C. 缩小特征图尺度,降少计算量
D. 增强神经元的强度,从而提高神经网络的判别能力
答案及解析: AB
相比AlexNet模型,VGG使用了更小的卷积核来生成卷积特征图,主要原因包括:
3. VGGNet中小卷积核起到了至关重要的作用,下列维度的卷积核哪一个是标准VGG16中最主要的卷积核。
A. [5×5]
B. [4×4]
C. [3×3]
D. [2×2]
E. [1×1]
答案及解析:C
[3×3]卷积是VGG最主要的贡献之一,堆叠[3×3]的卷积可以获得和AlexNet中[7×7]卷积核同样的感知域。
4. 堆叠3个3×3的卷积层,可以获得与()的卷积层一样的感知域。
A. 5×5
B. 7×7
C. 9×9
D. 11×11
答案及解析: B
1个3×3的卷积核视野为3×3;2个3×3的卷积核堆叠,其视野为5×5;3个3×3的卷积核堆叠,其视野为7×7;4个3×3的卷积核堆叠,其视野为9×9。
模块化的网络(VGGNet)@7.22VGG架构的详细分析
1. 在基于VGG模型的卷积神经网络中,大多数的内存主要消耗在()。
A. 低层的卷积层
B. 高层的卷积层
C. 高层的全连接层
D. 低层的池化层
E. 高层的池化层
答案及解析:A
由于低层特征图的尺度比较大,因此需要较多的内存空间来进行存储。
2. 在基于VGG模型的卷积神经网络中,大多数的参数主要位于()。
A. 低层的卷积层
B. 高层的卷积层
C. 高层的全连接层
D. 低层的池化层
E. 高层的池化层
答案及解析: C
在卷积神经网络中,参数最多的部分是全连接层,而全连接层通常位于网络的高层部分,即输出部分。
3. 在VGGNet中,作者验证了在AlexNet中提出的局部正则响应层(LRN)能够有效地提高模型的辨别能力。
A. 正确
B. 错误
答案及解析: B
作者在VGGNet的B模型中测试了局部正则响应层的作用,然而并没有得到LRN可以提高性能的证据。因此,在之后的模型和其他网络中,LRN倍彻底弃用。
4. VGGNet的成功证明了,对模型进行()的增加能够有效提高模型的识别能力。
A. 宽度
B. 深度
C. 通道数
D. 特征图尺度
答案及解析: B
VGG最大的贡献是通过组合简单的3×3卷积为VGG块,然后通过堆叠VGG块实现模型深度的增加。
多分支网络(GoogLeNet)@7.31网络中的网络
1. 在卷积神经网络中,大多数参数来源于()。
A. 卷积层
B. 卷积层与池化层之间
C. 卷积层与全连接层的交接处
D. 全连接层
答案及解析:CD
对于卷积神经网络来说,大多数参数来源于全连接层以及全连接层和卷积层的边界。其中全连接层因为密集连接所以导致参数较多;而交界处主要是因为卷积层的输入通道数和输出通道数都较多,也导致参数较多。并且,相对来说,交界处的参数比全连接层还要更多一些。
2. 在NiN网络中,1×1卷积的功能包括()。
A. 增加模型的非线性性
B. 提供更多种类的特征,即增加特征的多样性
C. 对单通道特征进行融合,生成复合特征
D. 减少网络的参数数量
答案及解析:ACD
在NiN网络中,1×1卷积设计的初衷是通过减少网络参数数量来降低过拟合的风险,并减少模型对硬件资源的消耗。因为更小的卷积,将带来更多的参数共享特性。从另外一个角度来看,1×1卷积因为使用的窗口尺度仅仅只有一个像素,所以它能够实现对一个局部区域的特征融合。并且,当它扫过整个特征图时,它的输出的尺度也将和输入尺度保持不变,这就相当于在不改变尺度的同时,还能够增加网络的深度。此外,由于卷积核的数量是一个超参数,所以,可以人为地进行输出通道(即卷积核数量/深度)的设置,从而起到调节特征图深度的目的。
3. 在NiN网络中,使用了以下哪些功能层?
A. 平均池化层(Mean-Pooling)
B. 最大池化层(Max-Pooling Layer)
C. 卷积层(Convolution Layer)
D. 全局平均池化层(Global Average Pooling Layer)
E. 全连接层(Fully-Connection Layer)
答案及解析:BCD
NiN网络最大的贡献是利用1×1卷积来实现参数的大幅缩小,为了做得足够极致,它还去掉了最后的全连接层,甚至连映射类别标签的全连接层也没有保留。为了实现分类,它引入了一种新的功能层,即全局平均池化(GlobalAvgPooling),该层最主要的功能是实现对最后一个特征图的融合,并输出成类别标签。此外,它使用NiN模块和Max-Pooling层进行交替组合,实现网络主干的构建。
4. [多选] 以下对神经网络模型特性的描述种,符合NiN模型的包括()。
A. 随着网络深度的加深,特征图的尺度逐渐变大
B. 语义信息越强的层次,特征通道数量越多
C. 交替使用NiN网络和最长为3的最大池化层来构建模型
D. NiN模型使用全卷积架构来实现特征提取,因此除最后的Softmax外,只存在卷积层
E. NiN模型最重要的设计初衷是解决全连接层参数过多的问题
答案及解析:BE
NiN模型与VGGNet类似,同样采用模块化的设计思路,它通过组合NiN模块和步长为2的最大池化层来构建模型。在NiN中,随着深度的增加,特征图的尺度逐渐缩小,同时输出通道数逐渐增加。在最后的输出部分,它使用全局平均池化直接获得输出类别数。它是少数彻底摒弃全连接层的神经网络模型。
多分支网络(GoogLeNet)@7.32Inception
1. GoogLeNet使用并行的思路设计了Inception模块,并联了多个不同感知域的卷积层和池化层,这种方法有效组合了不同视野下特征,起到了特征互补的作用。
A. 正确
B. 错误
答案及解析: A
解释如题。
2. 在GoogLeNet中,使用1×1卷积的瓶颈设计通过减少特征通道的数量,实现了()。
A. 计算复杂性的降低
B. 参数数量的减少
C. 模型判别能力的提高
D. 模型结构的简化
答案及解析: A
基于1×1卷积的瓶颈结构(bottleneck)可以保证输出特征图尺度不变的情况下调节特征图的数量。GoogLeNet利用瓶颈结构减少了卷积核的个数,但保留了特征图的尺度,然后在后续的结构中又再次还原了特征图的数量,这种设计通过强制特征融合减了特征图的数量,从而降低了计算复杂性(即减少了计算的次数)。
3. 在GoogLeNetV1的Inception模块中,融合了以下哪几种尺度的卷积层?
A. 1×1卷积
B. 3×3卷积
C. 5×5卷积
D. 7×7卷积
E. 11×11卷积
答案及解析:ABC
Inception模块的设计思想是兼容并蓄,融合多种不同的功能模块,但它也不是无限制地乱融合。其中1×1卷积用来实现特征通道的调整(大多数时候是减少)和特征图的融合;3×3卷积由于性能较好,被用于提取比较鲁棒的局部特征;5×5卷积用来获得比3×3更多的轮廓信息。而对于7×7和11×11等更大的卷积,作者并没有提及其融合性能。因此,并不能排除它们也具有一定的作用,例如它们也许可以通过更大的感受野来获得比3×3和5×5更多轮廓信息。但这些更大的卷积核也存在一些比较严重的问题,那就是参数过多,这与GoogLeNet和Inception的设计初衷相背离,所以,一般认为这是Inception没有使用更大卷积核的原因。
4. 以下以卷积为核心的功能层/模块中,计算复杂度最高(FLOPS)的模块和最低的模块分别是()。
A. 3×3卷积 基本Inception模块
B. 5×5卷积 基本Inception模块
C. 3×3卷积 带瓶颈设计的Inception模块
D. 5×5卷积 带瓶颈设计的Inception模块
答案及解析:D
在神经网络中,衡量模型复杂性的参数主要包括两个,一个是参数数量,一个是浮点计算数。虽然它们被用来衡量的是不同的指标,但通常它们也具有一定的相关性。也就是说参数比较多的模型,所需要的浮点运算数量也比较多,反之亦然。在题目的选项中所列出的四种功能层/模块,其参数数量和浮点运算数的大小关系为:5×5卷积 > 3×3卷积 > 基本Inception模块 > 带瓶颈设计的Inception模块。
5. 以下对计算复杂度描述正确的公式包括(),其中K表示卷积核,F表示特征图,in_channel表示输入通道,out_channel表示输出通道,N=Numbers表示数量。
A. 参数数量 = Kwidth × KHeight × Nin_channels × Nout_channels
B. 参数数量 = Kwidth × KHeight × KDepth × NKernels
C. FLOPS = (Kwidth × KHeight × KDepth) × NKernels × (FWidth × FHeight × FDepth)
D. FLOPS = (Kwidth × KHeight × KDepth) × NKernels × (FWidth × FHeight)
答案及解析:ABD
选项A和B描述的是同样的概念,其中输入通道数等于卷积核的深度,输出通道数等于卷积核的个数。选项C和D描述的是浮点运算次数,对于每个3D卷积核来说,所有元素在每个空间位置都需要进行一次浮点计算。因此,它所滑动的次数,决定了它浮点运算的次数。当特征图越大的时候,浮点运算次数也越多。
多分支网络(GoogLeNet)@7.33GoogLeNet体系结构详解及其变种
1. 下列模型中,参数数量最少的模型是()。
A. AlexNet
B. VGGNet
C. GoogLeNet
D. ResNet
答案及解析: C
GoogLeNet是一个精心设计的模型,主要对在执行效率方面进行了改进。它的参数比AlexNet少12倍,比VGG16少16倍。
2. VGGNet和GoogLeNet模型的设计都没有超过30层,这有利的证明了深度学习中的“深度”的上限不超过30层。
A. 正确
B. 错误
答案及解析: B
虽然VGGNet和GoogLeNet的深度分别为19层和22层,但是这并不是说深度学习已经失效,网络无法设计的更深主要是因为随着深度的增加,梯度逐渐消失了(ResNet中可以找到相关的论述)。随着残差网络的提出,深度学习证明了深度
对于模型性能的提升是积极意义的,因为它提供了更多的非线性特性。
3. 在标准的GoogLeNetV1中总共包含()层(有权重参数的层)。
A. 16
B. 19
C. 22
D. 37
答案及解析: C
标准的GoogLeNetV1总共有22层。
4. 在GoogLeNet中,前后两个相邻的卷积层组的特征图尺度间的关系是()。
A. 尺度保持不变
B. 尺度缩小一半
C. 尺度放大一倍
D. 无法确定
答案及解析:B
在GoogLeNet中,随着深度的增加,每个卷积层组中特征图的尺度都将缩小一半,而通道数则逐渐增加。与GoogLeNet类似,VGG和ResNet也有类似的特性。
深度残差网络(ResNet)@7.4
1. 深度模型的深度"失效"的主要原因是()。
A. 过拟合
B. 欠拟合
C. 优化困难
D. 更深的模型意义不大
答案及解析: C
随着深度模型深度的增加,性能出现了反转,即更深的模型性能反而不如较浅的深度模型,但是这个过程中并没有出现过拟合的问题,因此更多的可能是更难以被优化。
2. 下列模型中,哪一个模型证明了深度学习的“深度”并没有失效,并且将深度学习真正推到超过1000层的深度。
A. AlexNet
B. VGGNet
C. GoogLeNet
D. ResNet
答案及解析: D
借助于残差结构和恒等关系的设计,ResNet证明了深度对于卷积神经网络是有积极意义的,并且在Cifar10数据集上实现了超过1000层的深度设计。
3. (多选)下列模型中,哪些模型利用1×1卷积来实现瓶颈设计。
A. AlexNet
B. VGGNet
C. GoogLeNet
D. ResNet
答案及解析: CD
GoogLeNet和ResNet
4. 观察下列结构,哪一个(哪些)属于残差模块。
![]() |
|||
A | B | C | D |
答案及解析:AB
A,基本残差结构;B,带瓶颈设计的残差结构;C,基本Inception结构;D,带瓶颈设计的残差结构
5. 以下科学家,哪一位是ResNet的主要设计者?
A. Alex Krizhevsky
B. Christian Szegedy
C. Karen Simonyan
D. Kaiming He
答案及解析: D
Alex Krizhevsky是AlexNet的设计者,Christian Szegedy是GoogLeNet的缔造者,Laren Simonyan是VGGNet的设计者,Kaiming He(何凯明)是ResNet的缔造者。
6. 在残差结构公式 H(x) = F(x) + x 中,表示残差一项是()。
A. F(x)
B. H(x)
C. x
D. F(x)+x
答案及解析: A
在残差结构公式 H(x) = F(x) + x 中,H(x)=x 表示恒等映射,其中 x 是输入,H(x)是恒等映射的结果,F(x) 是残差。
蓬勃发展的卷积神经网络@7.5
1. (多选)下列模型中,除了分类用的全连接层,没有其他的全连接层的模型包括()。
A. AlexNet
B. VGGNet
C. GoogLeNet
D. ResNet
答案及解析: CD
GoogLeNet和ResNet在卷积层后面都使用全局均值pooling实现特征的向量化,都抛弃了使用FC层来实现特征提取。
2. (多选)随着ResNet以及各种基于残差网络的编制卷积神经网络模型被设计出来,CNN结构的研究方向已经从提高精度向提高计算效率等方向转变,下列模型中,更适合于移动设备的模型包括()。
A. SENet
B. MobileNet
C. ShuffleNet
D. DenseNet
答案及解析: BC
MobileNet和ShuffleNet主要设计来适应移动设备;DenseNet通过密集连接实现了性能的大幅提升;SENet通过特征调整模块使网络自动学习自适应的权重让模型具有更强的判别能力。
3. 下列模型中,参数最多的是()。
A. VGGNet
B. ResNet
C. GoogLeNet
D. AlexNet
答案及解析: A
在几个经典的卷积神经网络中,参数最多的是VGGNet,效率最高的是GoogLeNet,综合性能最好的是ResNet
4. 下列模型中,执行效率最高的是()。
A. VGGNet
B. ResNet
C. GoogLeNet
D. AlexNet
答案及解析: C
在几个经典的卷积神经网络中,参数最多的是VGGNet,效率最高的是GoogLeNet,综合性能最好的是ResNet
5. 下列模型中,综合性能最好的是()。
A. VGGNet
B. ResNet
C. GoogLeNet
D. AlexNet
答案及解析: B
在几个经典的卷积神经网络中,参数最多的是VGGNet,效率最高的是GoogLeNet,综合性能最好的是ResNet