第09章-第2节 基于深度学习的图像分割 课堂互动 隐藏答案 | 返回首页

作者:欧新宇(Xinyu OU)

最后更新:2025-01-05


【课堂互动13.3.1】图像分割概述

1.(多选)下列哪些任务属于像素级分类?
A. 从监控视频中找到指定人物
B. 从一张胸部X光照片中找出哪些位置是结节区域
C. 为一辆自动驾驶的汽车找到视野范围内的公路区域
D. 机场安检台上判断乘客是否是在通缉人员

答案及解析:BC
在计算机视觉的主要任务中,图像分割属于像素级分类,它需要去识别视觉范围内的每一个像素的类别,即需要去判断各种不规则区域的类别。

2. 以下任务中,不仅需要将每个相似的类别都识别出来,还需要将同一个类别的不同个体区分开的是()。
A. 对象分割
B. 语义分割
C. 个体分割
D. 实例分割
E. 区域分割

答案及解析:D
图像分割等同于像素级分类,常见的任务包括语义分割实例分割。其中语义分割将同一个类别的像素使用一种标识进行表示;实例分割还需要将同一个类别的不同个体区分开。

3.(多选)下列数据可以用来做分割任务标注信息的是()。
A. 标量数据,例如:0, 1, 2, 3...
B. 序列数据,例如:[23,231,234,334,2]
C. 二维矩阵
D. 三维矩阵

答案及解析:CD
选项A,可以用来做分类任务的标注,表示目标所属类别的索引;选项B,用来做检测任务的标注,前4位是对象的空间坐标,第5位是对象的类别;选项CD都可以可以作为分割任务的标注,其中二维矩阵中保存的是对应像素的类别索引,三维矩阵使用二值方式来标识像素的类别,层的索引标识类别索引。

4.(多选)实例分割可以理解为以下哪两个任务的合成?
A. 图像分类
B. 语音识别
C. 目标检测
D. 语义分割

答案及解析:CD
实例分割的任务是对样本图像的像素进行分类,并将不同个体区分出来。前者是语义分割的任务,后者则是目标检测的任务。

5.(多选)下列常见的特征,哪些是传统图像分割常用的特征?
A. CNN特征
B. 形状特征
C. 纹理特征
D. RNN特征
E. 颜色特征
F. 灰度级特征

答案及解析:BCEF
传统图像分割根据颜色、纹理、形状、灰度级等低级视觉特征(Low-level)将图像划分为不同的互不相交的区域,再进行同类别组合。CNN特征,RNN属于深度特征,被用在基于深度学习的图像分割中。

6.(多选)以下图像分割算法,哪一个属于传统图像分割算法?
A. 基于阈值的图像分割算法
B. 基于卷积神经网络的图像分割算法
C. 基于图划分的图像分割算法
D. 基于像素聚类的图像分割算法

答案及解析:ACD

7.(多选)下列数据集可以用来衡量图像分割算法性能包括()。
A. 标准ImageNet分类数据集
B. 标准Pascal VOC数据集
C. Pascal Context数据集
D. MSCOCO数据集
E. Cityscapes数据集

答案及解析:CDE
A选项是标准的分类数据集,要实现目标检测和分割任务需要扩充的标注信息;B选项是典型图像检测数据集,但也可以通过扩充标注信息实现分割;CDE选项都是标准图像分割数据集,其中CD是通用数据集,E选项Citscapes是自动驾驶数据集,用于城市道路场景的图像分割。

【课堂互动13.3.2】评价指标及关键技术

1.(多选)图像分割常用的评价指标包括:()。
A. 平均交并比(mIoU)
B. 平均精确度(mACC)
C. 均方误差(MSE)
D. 平均值(Average)

答案及解析:AB
选项AB是图像分割的常见评价指标,此外每类精度AP,推理时间Inference time,召回率ReCall,F1值也是图像分割常用的评价指标。

2.(多选)在基于卷积神经网络的图像分割模型中,可以动态地调整卷积特征图的尺度,以实现不同类型的特征提取。下列可以实现卷积特征图尺度变大的技术包括()。
A. 滑动窗口技术
B. 转置卷积
C. 跨步卷积
D. 最大升采样

答案及解析:BD
在全卷积网络结构中,为了提取不同尺度的特征,需要对卷积特征图进行尺度缩放,包括降采样和升采样两类技术。其中降采样包括:池化,跨步卷积等;升采样包括反池化(升采样UnPooling)、转置卷积(反卷积)、最近邻、零填充等。

3. 升采样常被看作是最大池化的逆操作,因此不需要对Max-Pooling做任何改变即可直接使用Max-unPooling。
A. 正确
B. 错误

答案及解析:B
Max-unPooling虽然可以看作是Max-Pooling的逆操作。但是Max-Pooling是不可逆的,因此需要在执行最大池化的时候记住最大值的位置,然后在执行最大升采样时按照记录的位置还原最大值,并在其他位置不灵。

4.(多选)在使用使用滑动窗口技术对图像进行逐像素识别时,具有哪些缺点?
A. 执行速度慢
B. 无法覆盖整幅图像的所有区域
C. 重叠或邻居像素无法共享特征
D. 只能识别前景对象,无法识别背景对象

答案及解析:AC
滑动窗口技术会逐项目扫描整幅图像,因此当图像尺寸比较大时,是非常耗费时间的;且因为是逐像素进行识别,因此无法利用近邻特征或共享特征来实现性能的提升。

5. 以下四种升采样技术,属于可学习升采样的是()。
A. 最近邻
B. 零填充
C. 最大升采样
D. 转置卷积

答案及解析:D
ABC选项都是无参数升采样技术,执行速度较快,但无法很好地利用上下文信息;D选项属于参数方法,需要借助于前向传输的信息来完成学习,并通过矩阵乘法来实现升采样,性能最佳,但速度较慢。

6. 在执行转置卷积的时候,下列哪个参数用于控制输入特征图与输出特征图之间的变换尺度?
A. 卷积核的尺度(kernel_size)
B. 步长的大小(stride)
C. 填充的大小(padding)
D. 特征图的尺度(feature map)

答案及解析:B
在执行转置卷积时,调节变换尺度由步长(stride)完成,卷积核的尺度和填充的大小主要用来完成计算尺度的整除调整,而尺度变换的基数由输入的特征图尺度确定。例如输入的特征图尺度为14×14,卷积核为3×3,填充为1时,当步长为1时,输出为14×14,而步长为2时,输出为28×28.

7. 图像分割属于()。
A. 样本级分类
B. 区域级分类
C. 像素级分类
D. 以上都可以

答案及解析:C
选项A,图像分类属于样本级分类,针对一个样本,模型只会给出一个类别概率值;选项B,目标检测属于区域级分类,针对样本中的每个区域都会给出一个类别概率值;选项C,图像分割属于像素级分类,针对样本图像的每个像素都会给出一个类别概率值。

【课堂互动13.3.3】FCN全卷积网络

1. 在Max-Uppooling中,对于空位置的像素值,使用()来进行填充。
A. Max-Pooling中pool的索引所对应位置的值
B. 随机值
C. 0
D. 1

答案及解析:D
通常情况,向上最大池化Max-Uppooling被认为是Max-Pooling的反向操作。在前向传输时,需要记录Max-Pooling过程中Pool的位置索引;然后,在反向传输/升采样时,直接对索引标注位置进行赋值,并对其他位置填充0。有时候,也会对填充位置使用随机值进行填充,但该方法效果通常交叉,因为,这种操作可能会产生不必要的噪声。

2.(多选)以下哪些层次模块被组合到FCN全卷积网络中用于实现图像分割?
A. 卷积层
B. 反卷积层
C. 池化层
D. 全连接层

答案及解析:AC
FCN全连接网络以VGG16网络为基础进行修改,它将使用卷积层替代了所有的全连接层,并使用双线性插值实现了卷积特征图的升采样。

3. 在由UC Berkeley开发的标准FCN全卷积网络中,()被是用来实现将卷积特征图上采样至原图尺寸。
A. 最大上采样
B. 转置卷积
C. 双线性插值
D. 最近邻插值

答案及解析:C
上采样的方法很多,其中插值是最常用的方法,而且不需要进行训练。其中,双线性插值是一种比较平滑的插值方法,被广泛使用。这种方法对于非边缘区域(具有色彩跳变的区域)效果非常理想。

4. 在全卷积网络FCN中,作者使用VGG16作为骨干网络,该模型的输出层的尺度为()。
A. 1×1
B. 7×7
C. 21×21
D. 与输入尺度相同

答案及解析:D
对于图像分割来说,输出层的尺度通常与输入层一致,样本的Label同样也与输出层一致。对于输出结果和Label来说,每个像素都代表一个类别的ID,这个类别ID对应于输入图像中对应位置像素的类别。

5.(多选)在标准FCN全卷积网络中,最终的特征图包含以下哪几种尺度的特征图()。
A. 2倍上采样
B. 4倍上采样
C. 8倍上采样
D. 16倍上采样
E. 32倍上采样

答案及解析:CDE
FCN全卷积网络融合了三种不同尺度的特征图,分别是8倍、16倍和32倍上采样图。

【课堂互动13.3.4】U-Net/PSPNet/SegNet模型

1. U-Net是一种U型结构的网络,它具有精度高的特点,该模型最初设计用于()。
A. 文字识别
B. 人脸识别
C. 医学图像识别
D. 行人识别
E. 实时系统

答案及解析:C
医学图像识别是一类很典型的识别任务,要求模型具有较高的识别精度,但对于速度要求不高。U-Net通过多尺度特征融合、转置卷积、多层卷积等技术实现了精度的提升,但这些操作对于推理速度都有一定的影响。然而,这种设计对于医学图像处理并没有太大影响。

2.(多选)下列对SegNet网络的描述正确的包括()。
A. SegNet使用编码器-解码器的形式构建分割网络
B. SegNet也是一种全卷积网络
C. 由于使用最大升采样方法实现特征图尺度提升,因此分割速度非常快,可以满足实时的要求
D. SegNet的输出具有和输入样本一样的尺度

答案及解析:ABCD

3.(多选)与SegNet相比,U-Net的区别主要包括()。
A. 解码器使用反卷积滤波器,进一步提高了分割网络的运行速度
B. 通过多尺度特征的混合,提高了分割的精度
C. 通过整合全连接层打破全卷积网络的空间限制,提高了模型的多样性识别能力
D. 在上采样后紧跟2个卷积层,提高了模型的非线性特性,从而得到了更鲁棒的特征

答案及解析:BD
U-Net的设计主要用于实现医学影像的分割,而医学影像分割对于实时性要求不高,更强调的是分割的精度。因此,它通过多尺度混合、附加更多的卷积层实现了精度的进一步提升。

4. PSP网络利用空间金字塔结构缓解了全卷积网络FCN()的缺点。
A. 推理速度慢
B. 没有考虑上下文信息
C. 没有考虑不同尺度信息
D. 感受野范围较小

答案及解析:B
在FCN中,作者提出对多个上采样层进行特征融合,从一定程度上融合了全局和局部特征,但这种融合只是一种整体的融合,对于一个局部区域并不能很好地利用不同视野的特征来对目标进行优化。PSP网络又称空空间金字塔场景解析网络,该网络对局部区域使用不同视野特征的融合实现了,目标上下文信息的联合。

【课堂互动13.3.5】DeepLab系列分割模型

1. 条件随机场CRF在分割网络中的主要作用是()。
A. 提高预测时分割网络的执行速度
B. 实现分割结果的精细调整
C. 提高分割网络的训练速度
D. 实现将经过卷积层缩小的特征图还原到输入尺寸(升采样)

答案及解析:B
CRF是一种后处理技术,它可以实现对分割网络的精细调整。但CRF的计算量大,需要花费的时间较长,不适合应用在实时系统中。

2. 空洞卷积(Dailated Convolutions)可以指数级地扩大感受野,而不丢失分辨率,在分割网络中常常被用来替代()。
A. Max-Pooling
B. 卷积层
C. 全连接层
D. Softmax层

答案及解析:A
池化层最大的作用就是在保持卷积核尺度不增大的前提下,通过缩小特征图来实现更大感受野的特征提取。空洞卷积可以在不缩小特征图的前提下实现更大感受野的特征提取,因此可以在分割网络中用来替代池化层(例如常用的Max-Pooling层)。

3.(多选)在DeepLab模型中,多尺度训练帮助模型获得不同粒度的特征,下列那些尺度被DeepLab默认使用()。
A. 0.1倍
B. 0.25倍
C. 0.5倍
D. 0.75倍
E. 1倍

答案及解析:BCD
Multi-Scale Train是DeepLab模型的典型设置,输入图像被缩放成三种不同的尺度,分别是[1, 0.75, 0.5],不同尺度的样本经过不同的CNN进行特征提取,最终都被升采样为原始尺寸来进行损失计算。

4.(多选)下列哪些模型可以用来将一个室内场景图像中的家具部分以精确到像素的标准标识出来?
A. Mask R-CNN
B. Faster R-CNN
C. DeepLab
D. YOLOv2

答案及解析:AC
题目中描述的场景显然是一个图像分割任务,以上选项中A是一个检测、分割混合模型,C是一个经典的分割模型,BD是经典的目标检测模型。

5.(多选)在DeepLab v2模型中,空洞空间金字塔池化ASPP结构采用多个不同尺度的 3×3 Conv 进行特征提取,并进行上下文信息融合,这些尺度包括()。
A. rate=6
B. rate=12
C. rate=18
D. rate=24

答案及解析:ABCD
rateASPPrate_{ASPP} = [6,12,18,24],多尺度的特征在经过卷积层和全连接层后,使用按位加(Elementiwise Add)的方式进行了融合,然后送人最终的分类器进行损失计算。

6.(多选)在DeepLab v3和v3+模型中,改进版的空洞空间金字塔池化ASPP结构被用来实现使用多个不同尺度的 3×3 Conv 进行特征提取,并进行上下文信息融合,这些尺度包括()。
A. rate=6
B. rate=12
C. rate=18
D. rate=24

答案及解析:ABC
rateASPP+rate_{ASPP+} = [6,12,18],在ASPP+模块中,作者增加了一个1×1的Conv和1给基于全局平均池化的图像级特征提取层,相比于使用rate=18的ASPP,新的ASPP能够获取更完整的全局信息,而减少了空洞信息的损失。

【课堂互动13.3.6】实例分割和全景分割

1. 以下关键词描述属于实例分割的一组是()。
A. 不包括背景 不区分个体
B. 不包括背景 区分个体
C. 包括背景 不区分个体
D. 包括背景 不区分个体

答案及解析:B
对于图像分割,常见的类型主要有三种,其主要区别如下:
语义分割(Semantic Segmentation):对每个像素(包括背景)进行分类,并将相同像素使用相同的索引(颜色)进行编号,不区分个体。
实例分割(Instance Segmentation):对每个像素(不包括背景)进行分类,同时区分不同的个体,并将同一类别且属于同一个体的区域,使用相同的索引(颜色)进行编号。
全景分割(Panoptic Segmentation):对每个像素(包括背景)都进行分类,同时区分不同的个体,并将同一类别且属于同一个体的区域,使用相同的索引(颜色)进行编号。

2. Mask R-CNN可以用来同时处理检测和分割任务,相比Faster R-CNN模型,它增加了一个()。
A. 掩膜预测的损失函数
B. 分类损失函数
C. 边界框回归损失函数
D. 边界框分类损失函数

答案及解析:A
Mask R-CNN具有和Faster R-CNN相似的主干结构,但它可以同时实现目标检测和实例分割。其中分类损失和BBox回归损失用于优化检测任务;掩膜损失用于优化分割任务。

3. 关于Mask R-CNN的掩膜预测描述,下列正确的包括()。
A. 每个类都预测一个掩膜,最终生成 [C×W×H] 的张量
B. 所有类生成一个W×H的掩膜张量
C. 掩膜预测时,一次性就完成了实例分割
D. 掩膜矩阵由BBox回归生成的边界框通过RoiAlign方式进行生成

答案及解析:A
Mask R-CNN包含三个主要的创新:
一是RoIAlign,用于解决RoIPooling对齐误差的问题;
二是提出FRN空间金字塔网络实现多尺度的特征提取;
三是增加掩膜预测,利用Sigmoid为每一个像素生成一个二值的分类。Mask R-CNN的掩膜预测是一种语义分割,因此它本身并不区分个体实例,但由于每个预测都是针对正例RoI完成的,因此配合目标检测的BBox回归和分类,掩膜预测的区域就可以实现确定类别的实例分割。

4. Mask R-CNN模型是一种实例分割模型,它的分割分支直接输出分割好的实例对象。
A. 正确
B. 错误

答案及解析:B
Mask R-CNN模型是一种实例分割模型,它的分割分支并不具备实例分割的功能,但由于分割预测都是基于正例RoI完成的,因此最终可以输出基于实例的分割结果。

5.与Yolo不同的是,在Solo模型中,特征图被划分位S×S的网格,每个网格都可以实现多个语义类概率预测。
A. 正确
B. 错误

答案及解析:B
在Solo模型中,每个网格也只能实现一个语义类别的预测,这种模式与Yolo v1是相同的。

6. 全景分割模型UPSNet为了避免一个实例因为错判而导致双重惩罚的问题,增加了一个未知类用于预测难以判定的样本区域。
A. 正确
B. 错误

答案及解析:A
未知类的设计是为了避免一个实例因为错判而导致双重惩罚的问题。例如:A被判定为B类时,A类的假负FN将增加1,同时B类的假阳性(FP)也增加1. 如果错误不可避免,那么仅增加A类的FN,而不影响B类是一种理想的状态。

第09章-第2节 基于深度学习的图像分割 课堂互动 隐藏答案 | 返回首页