第13章-第1节 计算机视觉概述 课堂互动 隐藏答案 | 返回首页

作者:欧新宇(Xinyu OU)

最后更新:2025-01-02


【课堂互动13.1.1】计算机视觉概述

1.(多选)计算机视觉是一个跨学科的领域,它涉及到诸多的领域,包括()。
A. 认知科学
B. 机器人学
C. 图像处理
D. 物理学

答案及解析:ABCD
计算机视觉是一个涉及很多学科的领域,为了实现计算机视觉的应用,可能需要掌握很多的领域,包括生物学、心理学、物理学、工程学、数学、计算机科学等。以上选项中,认知科学是心理学的范畴,机器人学是工程学的领域,图像处理是计算机领域的知识,而物理学中的光学知识是计算机视觉数据的来源。

2.(多选)以下属于计算机视觉的具体应用领域的包括()。
A. 目标检测
B. 场景理解
C. 三维重建
D. 行人识别
E. 目标跟踪

答案及解析:ABCDE
计算机视觉的应用涉及面非常广,包括目标检测、分类、场景理解、语义/实例分割、三维重建、目标跟踪,行人姿态估计、行为识别、视觉内容问答等。

3. OCR又称为光学字符识别,它指将电子设备上的字符,通过某种字符识别方法将其转换成计算机文字的过程。整个过程主要是自然语言处理的范畴,与计算机视觉无关。
A. 对
B. 错

答案及解析:B
OCR的前期工作是从图像中去识别文字,这个过程实际上就是将视觉内容向文本转换的过程,所以也属于计算机视觉应用的范畴。

4. 人脸识别是广为人知的应用,它属于以下哪个任务的范畴?
A. 目标识别
B. 三维重建
C. 图像分割
D. 视频内容问答

答案及解析: A
完善的人脸识别系统涉及到很多的领域,特别是今天越来越安全的人脸识别系统,但标准人脸识别系统属于目标识别(分类/验证)。当然,今天的人脸识别系统越来越复杂,可能还涉及到三维重建,行为识别等功能。

5. 在最近几年的ImageNet大规模视觉识别挑战赛(ILSVRC)中,性能最好的模型属于()。
A. Mark I 感知机
B. 时空图模型
C. 支持向量机
D. 卷积神经网络

答案及解析: D
近年来卷积神经网络在包括Imagenet大规模视觉识别挑战赛中展露头角,获得了举世瞩目的成绩,包括Alexnet,VGG,GoogLeNet、ResNet在内的的很多CNN不断刷新各种竞赛的最高分。

【课堂互动13.1.2】计算机视觉简史

1. 视觉起源于()生物大爆发,在这次生物大爆发里视觉的进化是突然的,动物面临着进化和死亡的抉择。
A. 奥陶纪
B. 寒武纪
C. 侏罗纪
D. 白垩纪

答案及解析: B
寒武纪大爆发是由视觉的突然进化引发的,这引发了一场关于进化的军备竞赛,这个时期的动物要么进化,要么死亡。——Andrew Parker

2. Hubel和Wiesel在1958年的( )视觉皮层实验中,首次观察到视觉初级皮层的神经元对移动的边缘刺激敏感,发现了视功能柱结构,为计算机视觉神经研究奠定了重要的基础。
A. 蜜蜂
B. 章鱼
C. 猫
D. 人
E. 狗

答案及解析: C
Hubel和Wiesel在1958年的猫视觉皮层实验中,首次观察到视觉初级皮层的神经元对移动的边缘刺激敏感,并定义了简单和复杂细胞,发现了视功能柱结构。此项工作为视觉神经研究奠定了重要的基础,两人在1981年共享了诺贝尔生理学或医学奖,以表彰他们在“视觉系统信息加工”的重要贡献。

3. 爱因斯坦复杂问题曾经有过一段定义,他说到“对于一个复杂的问题,解决问题比理解问题内在的含义更加重用,因为解决问题需要更多的想象力,这也标志着科学的真正进步。”
A. 对
B. 错

答案及解析: B
对一个问题的简单阐述往往比解决该问题更重要,因为它需要创造性的想象力,它标志着科学的真正进步。——Albert Einstein, 1921

4. 世界上第一个计算机视觉项目成立于1966年的()。
A. 斯坦福大学
B. 哈佛大学
C. 麻省理工学院
D. 牛津大学
E. 加州理工大学

答案及解析: C
1966年7月7日,在麻省理工学院第一个视觉项目"The sumer vision Project"建立,它致力于研究模式识别的一个子问题——视觉。

5.(多选)以下技术,哪一个算法可以用来实现目标识别?
A. Normalized Cut
B. 尺度不变特征变换 SIFT
C. 梯度直方图 HoG
D. 部件模型 DPM

答案及解析: BCD
Normlized Cut是一种图像分割算法,它可以实现将不同物体/区域的像素用不同的色彩标注出来;尺度不变特征变换SIFT是一种特征匹配算法,通过计算两幅图像之间匹配特征的数量实现目标的识别;HoG和DPM是两种基于梯度的特征提取算法,通过特征的提取和对比,同样可以实现目标的识别。

6.(多选)以下名词,属于数据集的是哪几项?
A. Caltech101
B. ResNet
C. ImageNet
D. Pascal VOC
E. MSCOCO

答案及解析: ACDE
以上名词中,B选项ResNet是一种卷积神经网络模型,由何凯明等人发明;Caltech101, ImageNet, Pascal VOC, MSCOCO都是著名的数据集,这些数据集可以用来评估图像分类,目标检测、图像分割,视觉内容问答等多种任务。

7. 解决对象识别的三个基础元素是()。
A. 数据、知识、GPU
B. 算法、知识、GPU
C. 数据、算法、学习
D. 数据、学习、知识

答案及解析:D
解决对象识别的三个基础元素是数据、学习、知识。

8. 以下常见带标注的数据集中,样本数据量最大的是()。
A. Pascal VOC
B. Caltech101
C. MSCOCO
D. LabelMe
E. ImageNet

答案及解析:E
Caltect101, ~9K; PascalVOC2012Trainval, ~17K; LabelMe, 37K; Sun, 131K; MSCOCO, 328K; ImageNet, 14M; 其中ImageNet中抽取137W数据,1000个类,作为ILSVRC竞赛数据。

9. 在计算机和互联网出现之前,整个人工智能领域缺少数据,也缺乏计算资源,唯一值得称道的只有优秀的机器学习算法。
A. 正确
B. 错误

答案及解析:B
在计算机视觉出现的起源阶段,我们不但没有数据,没有互联网,也没有足够的算力;同样,也几乎没有任何机器学习算法的知识和积累;拥有的仅仅只是少量的统计学习的知识。

10. 梯度方向直方图HoG和可变形部件模型DPM是计算机视觉的经典模型,它们是专门针对()应用而设计,并获得了巨大的成功。
A. 人脸识别
B. 行人识别
C. 车牌识别
D. 通用对象识别

答案及解析:B
梯度方向直方图HoG和可变形部件模型DPM最初的设计是面向行人的特征提取,它们可以获得非常鲁棒的关于人体的梯度特征,被广泛应用在行人识别和行人再识别等任务中。当然,它们也可以用于其他对象的识别。

11. ()技术是目前三维重建、无人机路线规划、机器人路线规划的基础()。
A. 空间金字塔
B. 点云
C. 虚拟现实
D. 图像分割

答案及解析:B
点云是指目标表面特性的海量点集合,是物体表面最具代表性的特征的采样点。

【课堂互动13.1.3】基于深度学习的视频内容理解

1.(多选) 以下特点,哪些是网络视频具有的特点。
A. 数据量大、占比高
B. 增速快
C. 信息量大
D. 传播快
E. 实时性、鲁棒性、高度集成

答案及解析:ABDE
视频是当前互联网中最主要的数据形式,它具有数据量、占比高,增速快,传播快,实时性、鲁棒性和高度集成等特点。

2.(多选)以下任务,哪些属于基于视频理解的常见应用?
A. 非法信息检测
B. 视频格式转换
C. 特定人物识别
D. 智慧交通

答案及解析:ACD
当前,很多应用都是基于视频的视觉理解,这些应用不断地改善这我们的日常生活,例如智慧交通、智慧医疗、智慧教育、特定人物/目标识别、非法信息检测、行人检测、自动驾驶、自动机器人导航等。

3.(多选)在视频应用中,下列哪些问题属于常见的难点?
A. 外观变化
B. 视角变换
C. 背景变换
D. 光照变化

答案及解析: ABCD
在当前基于视频的应用中,有许多的难点,包括:外观变化、视角变换、背景变换、光照变化、遮挡、景深的变化(尺度)、分辨率的不足。

4. 在视频分类数据集中,最常见的任务是对视频中的行为进行分类,也就是说视频分类是描述视频中的行为是在做什么的任务。
A. 正确
B. 错误

答案及解析: B
在视频分类任务中,最常见的任务就是判断视频中的行为是在做什么,例如:射箭、骑车、奔跑。但这并不是视频分类的全部描述,例如:判断视频所描述的场景是哪里,判断视频所描述的地点等也是视频分类的常见任务。

5. 给定一个视频片段和一个带空格的语句,计算机通过训练好的模型在句子中的空白部分填入正确的词汇。这种任务一般称为()。
A. 视频分类
B. 行为识别
C. 基于视觉内容的问答
D. 视频检索

答案及解析: C
基于视觉内容的填空是基于视觉内容问答的一种简化形式,它要求计算机对给定好的带空格的语句进行填空。更完整的基于视觉内容的问答是一问一答的形式,这种没有提示的问答相比填空要更难一些。

【课堂互动13.1.4】常见的视频处理方法

1.(多选)在处理基于视觉内容的识别任务中,下列属于传统方法中常见特征的包括()。
A. 费舍尔向量
B. CNN特征
C. 运动轨迹
D. HoG方向梯度直方图
E. 视觉词袋
F. 光流信息

答案及解析: CDF
CDF都是传统方法中常见的特征,其中光流信息和运动轨迹在基于深度学习的方法中依然很常用;A费尔舍向量和E词袋模型属于特征融合算法;B,CNN特征是最基本深度模型特征

2.(多选)在对多帧进行特征融合的时候,常见的融合方式包括()。
A. 后期融合Late Fusion
B. 中期融合Middle Fusion
C. 早期融合Early Fusion
D. 慢融合Slow Fusion
E. 快融合Fast Fusion

答案及解析: ACD
理论上任何融合方式,只要可以实现都是可行的。但在本题中所提到的C中期融合是很难去实现,当然这种方式也可以理解为一种瓶颈设计,只是目前还没有相关的文献提出;E选项提出的快融合可以理解为早期融合,即在视频帧输入到神经网络的开始阶段就进行融合,但一般不这么描述。所以,正确答案为ACD。

3. 在对视频内容进行特征提取的时候,一般无法实现对高分辨率样本和低分辨率样本的同时学习,因为不同分辨率是无法进行融合的。
A. 正确
B. 错误

答案及解析: B
对于不同分辨率的样本,只要它们尺度是相同的,或者可以通过一定的空间变换实现尺度的统一,都可以实现特征融合。

4. 在处理视频数据时,3D卷积和2D卷积最大的区别时直接编码学习空间信息特征。
A. 正确
B. 错误

答案及解析: B
在处理视频数据时,3D卷积和2D卷积最大的区别时直接编码学习时间信息特征。

5.(多选)在处理基于视觉内容的识别任务中,下列属于深度学习中常见特征的包括()。
A. 单帧静态的外观信息
B. 多帧光流信息
C. 多帧运动轨迹
D. 单帧HoG信息

答案及解析: ABC
在处理视频片段的深度学习模型中,常见的特征包括静态的单帧特征和包含时间信息的多帧特征。单帧特征主要提取对象的外观信息,多帧特征主要包括像素的运动轨迹和位移(光流)两种信息。选项D所描述的HoG特征主要是指对象的边缘梯度信息,一般在传统方法中使用,当然也可以作为一种辅助特征融合到深度特征中。

第13章-第1节 计算机视觉概述 课堂互动 隐藏答案 | 返回首页