课堂互动
隐藏答案 | 返回首页 作者:欧新宇(Xinyu OU)
最后更新:2025-01-04
1.(多选)基于海量图片的图像检索面临的挑战问题包括()。
A. 光照变化
B. 视角变化
C. 遮挡
D. 位置变化
答案及解析:ABC
在大数据环境下,图像检索是一个不容易的任务,它面临很多的挑战问题,例如:光照变化、尺度变化、视角变化、遮挡、背景杂乱、三维旋转等。
2.(多选)哈希编码是图像检索中最常用的特征表达方法,相比直接对特征进行匹配,哈希编码的优势包括()。
A. 匹配速度快
B. 精确度高
C. 召回率高
D. 特征占用的存储空间小
答案及解析:AD
哈希编码将原始的浮点特征转换为二进制特征,大大缩小了特征所占用的内存空间和存储空间;同时,哈希编码可以使用汉明距离、余弦异或等方法求解两个样本间的相似性,这些方法相比欧氏距离要简单得多,同时,还支持矩阵的批量计算,可以大大提高检索速度。
3. 当我们使用同样的特征匹配方法在ImageNet2012数据集上,使用相同的验证集来进行图像检索,下列哪一个网络结构获得的检索性能最好()。
A. MNIST
B. CIFAR
C. AlexNet
D. ResNet-101
E. 以上网络性能一致
答案及解析:D
图像检索的性能主要有两个方面决定:特征的鲁棒性和匹配算法。当匹配算法一致的时候,不同特征将影响最终的检索性能。在使用基于卷积神经网络特征进行检索时,越强大的网络得到的特征判别性越强。在ABCD四个模型中,ResNet101模型的性能显然是最优秀的,因此,使用基于该模型的特征进行检索也能够获得最好的性能。
4. 在将图像的高维特征映射到二值空间生成哈希编码时,可以根据需要映射为任意长度的哈希编码,而不用强制生成与原编码同维度的序列。
A. 正确
B. 错误
答案及解析:A
构造哈希编码的时候,我们可以使用哈希函数直接将高维特征向低维特征转换;也可以在使用阈值法转换为二值码后,再使用PCA等方法进行降维。
5.(多选)下列特征可以用来作为行人再识别任务的行人特征的包括()。
A. SIFT特征
B. VGGNet的卷积特征
C. 颜色特征
D. AlexNet的卷积的特征
答案及解析:ABCD
用来实现图像检索的特征多种多样,包括常见的手工特征颜色、纹理、形状、SIFT、SURF等,也包括各种基于CNN的深度特征。所不同的是,不同类型的特征对于目标的表达能力不同。
1. 要能够完成目标跟踪,至少需要知道()。
A. 目标在第一帧中的位置
B. 目标在第一帧和最后一帧的位置
C. 目标在前两帧中的位置
D. 目标在每一帧中的位置
答案及解析:A
目标跟踪的主要任务是从连续的视频序列中建立跟踪目标的位置信息,得到运动轨迹。因此,首先需要知道的是目标的起始位置,并根据起始位置去连续地预测后续的变化后的位置。
2.(多选)对于在线跟踪算法,下列描述正确的包括()。
A. 只要算法速度足够快,可以实现对视频中目标的实时跟踪
B. 在线跟踪算法在进行跟踪的时候,使用的是预先训练好的模型
C. 在线跟踪算法在进行在线跟踪的时候,需要实时地对某些层进行微调训练
D. CNN的主干网用于学习目标共有的底层特征
答案及解析:ACD
在线跟踪算法最大的特点是对目标进行实时计算,需要不停地对网络进行微调训练。这种方法准确性比较好,但对算法的实时性要求极高,对于密集预测难度较大。
3.(多选)对于离线跟踪算法,下列描述正确的包括()。
A. 可以实现对视频中目标的实时跟踪
B. 离线跟踪算法在进行跟踪的时候,使用的是预先训练好的模型,不需要进行微调训练
C. 一般来说离线更新算法要比在线更新算法的识别能力更强
D. 离线跟踪算法需要对比搜索模板样本和目标样本,因此无法实现端到端的训练
答案及解析:ABC
离线跟踪算法可以使用Siamese网络或者单一的神经网络进行特征提取,基于CNN的训练特性,它同样可以实现端到端的训练。相比在线方法,因为不需要一边预测一边finetune,因此速度更快。但使用固定的网络,识别性能相对差一些。
4. 目标跟踪可以认为是一种()技术的延申和应用。
A. 多目标分类
B. 目标检测
C. 图像实例分割
D. 基于内容的图像检索
答案及解析:B
目标跟踪实际上是在连续的视频序列中找到跟踪目标的位置信息。定位到一帧中,它和图像的目标检测非常相似。
1.(多选)细粒度分类与标准的图像分类任务,主要的区别包括()。
A. 类别数更多
B. 不同类别间的差异更加细微
C. 受姿态、光照、遮挡、背景干扰等因素的影像更大
D. 一个样本中通常存在更多的目标对象
答案及解析:BC
细粒度图像分类又被称为子类别图像分类,是一个极具挑战的研究任务。它比粗粒度的大类别分类要求更高,需要识别不同子类别之间的细微差异,而且容易受到姿态、光照、遮挡、背景干扰等诸多不确定的环境因素的影响。
2.(多选)细粒度识别常用的方法包括()。
A. 利用部件(Part)信息进行目标区分
B. 借助于多尺度(Multi-Scale)信息实现不同层次的特征判别
C. 使用更深的网络获得更复杂的非线性特征,实现目标特殊信息的提取
D. 使用注意力(Attention)方法找到最关键的区域
答案及解析:ABD
ABD选项都是常见的细粒度识别方法;选项C确实可以获得更复杂的非线性特征,但是并没有相关文献证明更深的网络对于细粒度识别具有特殊的效果。
3.(多选)图像风格迁移需要网络能够同时提供两种类型的信息,分别是()。
A. 内容信息
B. 风格信息
C. 细粒度信息
D. 多尺度信息
E. 上下文信息
答案及解析:AB
风格迁移主要包含内容(Content)和风格(Style)两种内容的信息,内容体现的是轮廓与结构,风格体现的是纹理和样式。选项CDE与风格迁移没有直接关系,但都是可以用来提高风格迁移性能的重要信息。选项C的细粒度信息表示目标对象更局部的信息,选项E的上下文信息表示的是目标对象与周边对象相互关系的信息。
4.(多选)风格迁移的内容信息和风格信息可以来源于同一个模板,也可以来源于不同的模板,一般来说这两种模板的来源关系可以是()。
A. 1:1
B. 1:n
C. n:1
D. n:n
答案及解析:ABCD
风格迁移的模板对应关系以上四种都可以。A选项表示风格和内容都只来源于一种模板;B选项表示同一种内容被渲染上了多种风格;C选项表示不同内容渲染上同一种风格;D选项表示多种内容和多种风格之间的任意匹配。
5. 在风格迁移中,需要计算参考样式样本和生成样本之间的()矩阵,并以此作为样式特征进行合成。
A. 协方差矩阵
B. Gram矩阵
C. 冲突矩阵
D. 特征矩阵
答案及解析:B
B选项,相比内容保持的CNN矩阵,Gram矩阵一般认为是一种二阶的矩阵,它是两个向量内容的对称矩阵,表达了像素间的内在关系。
1. 图片的标题生成(Image Caption)是指对给定的图片,输出()。
A. 图片中包含的所有对象的类别及其位置
B. 图片中所有对象之家的语义关系
C. 对图片进行描述的文本
D. 图片的标题
答案及解析:C
图片标题生成又称为Image Caption是计算机视觉的一种高级应用,它需要1)检测出样本中对象,2)对象的属性和行为,3)对象间的关系,并根据这些信息连接成一段对该图片的文本描述。根据图片复杂程度,文本描述可以是简单的一句话,也可能是复杂的段落。
2. 超分辨率重建,一般是指从()分辨率的样本向()分辨率样本的重建过程。
A. 低 低
B. 低 高
C. 高 低
D. 高 高
答案及解析:B
超分辨率是一种典型的图像恢复技术,一般包括两种技术,一是使用多个低分辨率样本来合成一个高分辨率的样本,又称为图像拼接(合成);另外一种是使用单幅低分辨率样本来生成高分辨率样本。
3.(多选)医学影像分析经常使用目标检测和图像分割技术来实现对局部或整体样本的分析和理解,它对()的要求较高。
A. 系统的分析速度
B. 系统的召回率
C. 系统的精确度
D. 系统的准确率
答案及解析:BCD
医学影像分析是一类非常特殊的应用,它对于样本分析的正确性要求特别高,而对分析的速度并没有特别的要求(当然,在保证正确性的前提下,越快越好)。
@ 选项B,召回率描述的是在对待检测目标进行识别的时候,能找到给更多目标,例如:恶性肿瘤目标;
@ 选项C,精确度描述是在进行检测的时候,负样本的干扰度,例如:病变区域的时候,有多少正常区域会被识别出来;
@ 选项D,准确率是一个综合的指标,它描述的是对正负样本的识别有多少是正确的,例如区分良性和恶性癌细胞样本时,有多少分析结果是真正正确的。
4.(多选)自然场景的文字识别是一类具有挑战性的任务,他所面临的挑战问题主要包括()。
A. 多种语言混合
B. 文字形变严重(各种仿射变换)
C. 尺度差异较大
D. 排布形式多种多样
答案及解析:ABD
文字识别的挑战问题很多,最典型的几种包括:文字存在多种分布、文字排布形式多样、文字存在多个方向、文字形变严重、多种语言混合.