第01章深度学习概述 `课堂互动` 隐藏答案 | 返回首页

作者：欧新宇（Xinyu OU）
当前版本：Release v2.0

最后更新：2025-01-02

【课前自测01】

1. 在深度学习中，机器学习的主要任务是什么？（）。
A. 识别图像中的物体
B. 将输入映射到目标
C. 预测股票价格
D. 编写计算机程序

答案及解析: B
本题考核的是深度学习和机器学习的核心任务和应用的区别。选项A，识别图像中的物体是深度学习的一个常见应用，但它并不是机器学习的“主要任务”，机器学习的应用非常广泛，不仅仅局限于图像识别。选项B是机器学习的核心，机器学习实现的正是通过模型训练来实现从输入数据（如特征、图像、文本等）到目标（如标签、类别、预测值等）的映射。无论是图像识别、自然语言处理、预测分析还是其他任何任务，都是在尝试找到这种映射关系。选项C也是机器学习的一个具体应用，特别是在金融领域。选项D与机器学习的核心任务无关，编写计算机程序是软件开发和编程的任务，而机器学习是使用这些程序来训练模型并做出预测或决策。

2. 深度学习作为一种极具变革性的方法，已经被用来解决许多实际问题，但依然没有普及到改变实际的产品和流程中。由此可见，深度学习注定会成为人工智能的第三次寒冬。（ $\times$ ）

答案及解析：
人工智能可能还需要很长的一段时间才能充分发挥其潜力，这一潜力的范围大到难以想象，但人工智能终将到来，它将以一种奇妙的方式改变我们的世界。若干年后，我们可能不再使用神经网络，但深度学习的一些重要特性证明它确实是人工智能的革命，并且能长盛不衰。近年来，大模型技术得到了飞速发展，基于深度学习的人工智能也开始逐渐赋能到社会生活的方方面面。

3. SVM的目标是通过在属于两个不同类别的两组数据间找到良好的决策边界来解决分类问题，它首先将原始特征映射到（）。
A. 高维空间
B. 低维空间
C. 等维度的其他空间
D. 向量空间

答案及解析：A
SVM首先将原始特征映射到一个新的高维空间，以便于使用一个超平面来对原始数据进行划分，在进行划分的时候，按照间隔最大化的原则进行反复迭代。

4. 一般来说，想要预测连续变量会使用下列（）方法。
A. 逻辑回归
B. 线性回归
C. KMeans
D. 以上都行

答案及解析：B
预测连续变量可以认为是一种回归任务，在上述选项中只有线性回归是回归算法。A选项逻辑回归是一种分类算法，相当于是线性回归的基础上增加了Sigmoid激活函数；C选项是聚类算法。AC均无法完成回归预测。

5. 损失函数的主要任务是什么？（）
A. 控制神经网络的输出
B. 计算预测值与期望值之间的距离
C. 初始化权重
D. 激活神经元

答案及解析: B
损失函数（Loss Function）在深度学习和机器学习中起着至关重要的作用。其主要任务是量化模型预测值（或输出）与真实值（或期望值）之间的差异或误差。通过计算这个差异或误差，我们可以评估模型的性能，并在训练过程中指导模型如何改进。选项A“控制神经网络的输出”并不准确，因为神经网络的输出是由其结构和参数决定的，而不是由损失函数直接控制的。损失函数只是用来评估模型的输出与真实值之间的差异。选项C“初始化权重”是神经网络训练过程中的一个步骤，但它与损失函数的主要任务无关。权重初始化是为了在训练开始时为模型提供一个合理的起点，而损失函数则是用来指导模型在训练过程中如何调整权重以优化性能。选项D“激活神经元”是神经网络中神经元的基本操作之一，它决定了神经元是否应该被激活以及激活的程度。

6. 在神经网络中，什么被称为神经元？
A. 数据点
B. 权重
C. 网络层
D. 基本的计算单元

答案及解析: D
在神经网络中，神经元（Neuron）是构成网络的基本计算单元。它接收来自其他神经元或外部源的输入信号，并对这些信号进行加权求和，然后通过一个激活函数（Activation Function）产生输出。这个输出可以传递给其他神经元或作为网络的最终输出。选项A的数据点是数据集中单个实例或观测值。选项B的权重是神经网络中连接神经元之间的参数，它决定了输入信号对神经元输出的影响程度，但权重本身并不是神经元。选项C的网络层是由多个神经元组成的集合，它们共同执行某种特定的计算或表示，网络层是一个更高层次的概念，而神经元是构成网络层的基本单元。

7. 随机梯度下降（SGD）是优化神经网络参数的唯一方法。（ $\times$ ）

答案及解析：
随机梯度下降（SGD）是优化神经网络参数的一种常用方法，但不是唯一方法。其他方法还包括批量梯度下降、小批量梯度下降、Adam、RMSprop等。

8. 梯度是（）运算的导数，它是导数从一元函数向多元函数的推广。
A. 标量
B. 向量
C. 张量
D. 函数

答案及解析：C
梯度（gradient）是张量运算的导数。它是导数这一概念从一元函数向多元函数导数的推广。多元函数是以张量作为输入的函数。
假设有一个输入向量x，一个矩阵W、一个目标y和一个损失函数loss。则，可以通过W来计算预测值y_pred ，然后计算损失，即预测值y_pred和目标y之间的距离。

【课堂互动1.1】人工智能的基本概念及发展简介@1.1

1. （多选）人工智能、机器学习和深度学习三者之间的关系是（）
A. 深度学习是机器学习的一种实现方法
B. 三个不同的领域，分别独立但互有交叉
C. 计算机视觉、语音识别和自然语言处理都是深度学习的具体应用，也都属于机器学习和人工智能的范畴
D. 人工神经网络是深度学习最具代表性的一种方法，它与人工智能和机器学习无关

答案及解析：AC
人工智能是一个很大的范畴，它指努力将通常由人类完成的智力任务自动化。机器学习是人工智能的一种方法，专门用于解决分类、回归、检测等任务。深度学习是机器学习的一种具体实现，它使用多层迭代的方式解决机器学习的具体应用。

2. 人工智能诞生于20世纪50年代的（）。
A. 博鳌论坛
B. 达特茅斯会议
C. 世界人工智能大会
D. MIT人工智能研究小组内部会议

答案及解析：B
1956年8月，在美国汉诺斯小镇宁静的达特茅斯学院中，约翰·麦卡锡（John McCarthy）、马文·闵斯基（Marvin Minsky，人工智能与认知学专家）、克劳德·香农（Claude Shannon，信息论的创始人）、艾伦·纽厄尔（Allen Newell，计算机科学家）、赫伯特·西蒙（Herbert Simon，诺贝尔经济学奖得主）等科学家正聚在一起，讨论着一个完全不食人间烟火的主题：用机器来模仿人类学习以及其他方面的智能。会议足足开了两个月的时间，虽然大家没有达成普遍的共识，但是却为会议讨论的内容起了一个名字：人工智能。因此，1956年也就成为了人工智能元年。

3. （多选）深度学习已经在很多任务上获得了重大突破，以下属于这一类的包括：（）。
A. 接近人类水平的图像分类
B. 更好的机器翻译
C. 接近人类水平的逻辑判断与推理
D. 自动文本到语音的转换

答案及解析：ABD
深度学习目前主要在面向视觉和听觉的感知任务上有较大的突破，在自然语言方面也有一定的成果。但对于形式推理及通用人工智能方面依然不足。

4. 到目前为止，人工智能已经经历了（）次寒冬，这几次寒冬都给人工智能的发展带来了几乎毁灭性的影响。
A. 一次
B. 二次
C. 三次
D. 四次

答案及解析：B
至今人工智能已经经历了两次寒冬，第一次寒冬发生在19世纪80年代初主要原因是对符号主义期待过高；第二次寒冬发生在20世纪90年代，主要原因是专家系统的成本太高且应用面太窄。

5. 人工智能的第一次寒冬是由于（）并没有完成它所被期望任务。
A. 专家系统
B. 支持向量机
C. 多层感知机
D. 符号主义

答案及解析：D
20世纪60年代，符号主义横空出世，以马文·闵斯基为代表的先驱者们，一度认为这预示着人工智能的未来。但在随后的几年这种过高的期望并没有实现，甚至到2020年的今天，这一目标仍然十分遥远，遥远到我们无法预测需要多长时间才能实现。

6. 人工智能的第二次寒冬是由于（）并没有完成它所被期望任务。
A. 专家系统
B. 支持向量机
C. 多层感知机
D. 符号主义

答案及解析：A
20世纪80年代，一种新的符号主义人工智能——专家系统，开始在大公司中受到追捧。但专家系统的维护费用变得很高，并且难以扩展，应用面有限。

【课堂互动1.2】机器学习概述@1.2.1

1. 与经典的程序设计相似，在机器学习的范式中，数据也是最主要的输入，不同的是在机器学习范式中，输出是（）。
A. 答案
B. 规则
C. 数据
D. 以上都不是

答案及解析：B
在基于机器学习的范式中，人们输入的是数据和预期得到的答案，系统输出的是规则，利用这些规矩和新的数据，系统可以自动得出答案。

2. 机器学习（特别是深度学习）呈现出相对较少的数学理论，并且以工程为导向。因此，研究机器学习应用不需要数学知识。（ $\times$ ）

答案及解析：
机器学习，特别是深度学习，确实在实践和应用层面表现出很强的工程导向性，但这并不意味着研究机器学习应用不需要数学知识。实际上，机器学习是一个高度依赖于数学理论的领域，其背后有着深厚的数学基础，这些技术涉及到统计学、线性代数、概率论和优化理论等多个数学分支。例如，线性回归、逻辑回归、支持向量机（SVM）、主成分分析（PCA）等算法都涉及到线性代数的知识；而贝叶斯分类器、隐马尔可夫模型（HMM）等则与概率论紧密相关；神经网络的训练和优化过程则依赖于优化理论。其次，深度学习作为机器学习的一个子集，其复杂性更高，对数学的要求也更高。深度神经网络的设计、训练和优化都需要深厚的数学基础。例如，反向传播算法是深度学习训练中的核心算法，它涉及到链式法则、梯度下降等数学原理。此外，深度学习中的正则化技术、激活函数选择、批量归一化等也都需要数学理论的支持。最后，虽然在实际应用中，很多机器学习工程师可能更多地关注于如何调参、如何设计网络结构等工程层面的问题，但这并不意味着他们不需要数学知识；相反，一个具有深厚数学背景的机器学习工程师往往能够更好地理解算法的原理和局限性，从而设计出更加高效、鲁棒的机器学习系统。因此，研究机器学习应用确实需要数学知识，而且数学基础越扎实，越有可能在机器学习领域取得突破性的成果。

3. 机器学习（深度学习）的核心问题在于：（）。
A. 完整地输入数据，确保所有的数据都起到作用
B. 有意义地转换数据，使其更容易被理解和使用
C. 对每个数据都有正确的输出，以确保数据利用的有效性
D. 获取数据更多的特征，以更充分地利用数据

答案及解析：B
机器学习模型将输入数据变换为有意义的输出，这是一个由已知输入向输出示例转换的“学习”过程。因此，机器学习（深度学习）的核心问题在于：有意义地转换数据。换句话说，在于学习输入数据的有用表示 (representation)——这种表示可以让数据更接近于预期输出。

4. 机器学习中的学习是指（）。
A. 更好地将输入数据转换为有用的表示
B. 将数据转换为更有代表性的特征
C. 寻找更好的数据表示的搜索过程
D. 使用机器实现人工算法的自动化

答案及解析：C
机器和学习的核心是有意义地转换数据，这意味着我们需要找到一种方法来实现这种数据转换，这个寻找的过程就称为学习。越好的学习方法意味着找到更好数据表示方法的几率越大。机器学习中的学习指的就是寻找更好的数据表示的自动搜索过程。

5. 在使用深度神经网络在对图像样本进行建模的过程中，越深的层（）。
A. 所得到的表示与原始图像越接近
B. 包含原始图像的信息越多
C. 其语义信息越丰富
D. 其所包含的信息越有价值

答案及解析：C
在深度神经网络中，随着网络层数的加深，每一层所学习到的特征表示会逐渐变得更加抽象和高级。对于图像样本的建模，较浅的层通常学习到的是边缘、颜色、纹理等低级特征，这些特征与原始图像的像素值较为接近，其局部信息越丰富。而较深的层则会基于这些低级特征，学习到更加复杂的、与具体任务相关的语义信息，越接近输出端其全局信息越丰富。局部信息主要展现了样本的细节信息，而全局信息则更偏向于样本的语义信息。

【课堂互动1.3】机器学习的历史和辉煌@1.2.2

1. 概率建模是统计学原理在数据分析中的应用，是最早的机器学习形式之一，最著名的算法之一就是支持向量机。（ $\times$ ）

答案及解析：
支持向量机的核心是决策边界，朴素贝叶斯算法才是最著名的概率模型。

2. 逻辑回归被认为是现代机器学习的“Hello World”，它是一种基于概率的算法，它是典型的（）算法。
A. 回归模型
B. 分类模型
C. 既是回归模型，也是分类模型
D. 既不是回归模型，也不是分类模型

答案及解析：B
逻辑回归被认为是现代机器学习的“Hello World”，容易被误导的是逻辑回归并不是回归算法，而是分类算法。它即简单又通用，至今仍然很有用，而且经常被作为最基础的Baseline。

3. 1989年，第一次将卷积神经网络应用到手写数字识别的研究者是（）。
A. Geoffrey Hinton（杰夫瑞辛顿）
B. Yoshua Bengio（约书亚·本吉奥）
C. Yann LeCun（燕乐坤）
D. Andrew Ng（吴恩达）

答案及解析：C
1989年贝尔实验室的Yann LeCun教授将卷积神经网络与反向传播算法结合，用于手写数字识别。这种算法就是今天著名的LeNet网络，该网络在20世纪90年代被美国邮政署采用，用于自动读取信封上的邮政编码。

4. 20世纪90年代，支持向量机成为最具影响力的机器学习算法，这主要得益于它是基于（）的算法。
A. 概率统计
B. 逻辑推理
C. 线性模型
D. 核方法

答案及解析：D
成功于20世纪90年代的神经网络很快就被一种新的机器学习方法所取代，这就是核方法（kernel method）。核方法是一类方法，其中最著名的就是支持向量机（SVM）。

5. （多选）以下模型原生就属于融合模型（Boosting）的包括（）。
A. 随机森林
B. 支持向量机
C. 梯度提升机
D. 决策树

答案及解析：AC
随机森林通过组合多个决策树来对特征进行联合判别。梯度提升机以弱预测模型(通常为决策树)的集合形式产生预测模型。集成了梯度提升技术的决策树被称为提升树，其性质与随机森林相似，但性能往往比随机森林更好。

6. 与传统机器学习不同的是，深度学习不需要手工从数据中选择并提取特征，整个特征工程完全是自动化的，这种学习方法被称为端到端学习法。（ $\checkmark$ ）

答案及解析：
深度学习发展如此迅速，主要原因在于它在很多问题上都表现出更好的性能。但这不是唯一原因，还因为深度学习让解决问题变得更简单，因为特征工程完全自动化，而这一步骤是机器学习是否有效的关键。这种学习方法被称为端到端学习法。

【课堂互动1.4】深度学习的概述@1.3

1. 神经网络的训练总是需要大量的计算资源。（ $\checkmark$ ）

答案及解析：
神经网络的训练通常涉及大量的矩阵运算和参数更新，因此需要大量的计算资源。然而，随着硬件技术的发展和优化算法的改进，训练神经网络所需的资源正在逐渐减少。

2. 深度学习与传统机器学习相比，最大的不同是摒弃了特征工程的繁琐，使得模型能够完全自动化地从原始数据获取信息，这种方法称为（）。
A. 去特征化学习
B. 端到端学习
C. 无监督学习
D. 自动特征抽取学习

答案及解析：B
选项A，去特征化学习的描述不准确，在深度学习中并没有“去特征化学习”这一说法，而是自动化地学习并抽取数据的特征。
选项B正确，端到端学习指的是模型能够直接从原始输入数据学习并输出最终结果，无需人工干预或进行特征工程的步骤。它允许模型自动发现数据的表示和特征，从而简化了机器学习模型的构建过程。
选项C，无监督学习是机器学习的一种类型，但它并不特指深度学习与传统机器学习在特征工程方面的差异。无监督学习主要处理没有标签的数据，目的是发现数据中的隐藏结构或模式。
选项D，特征自动抽取不正确。虽然这个选项描述了深度学习的一个关键特性，即自动抽取特征，但它没有涵盖从原始数据到最终输出的完整过程，因此不如“端到端学习”全面。

3. （多选）深度学习能在计算机视觉和语音识别等感知任务上具有非凡的效果，最重要的原因是来源于两个思想（）。
A. 基于概率的数学推导
B. 卷积神经网络
C. 决策边界理论
D. 反向传播

答案及解析：BD
深度学习用于计算机视觉的两个关键思想，即卷积神经网络和反向传播，这个思想在1989年就为人所知（LeNet）。长短期记忆（LSTM）算法是深度学习处理时间序列的基础，在1997年被开发出来。今天，LSTM依然是自然语言处理最有效的方法。

4. （多选）深度学习在2012年后取得了成功，这主要是因为三种技术推动了机器学习的进步，它们包括：（）。
A. 硬件，尤其是高性能的图形芯片GPU的出现
B. 数据集和基准
C. 先进的数学理论的产生
D. 算法上的改进

答案及解析：ABD
深度学习用于计算机视觉的两个关键思想，即卷积神经网络和反向传播，这个思想在1989年就为人所知（LeNet）。长短期记忆（LSTM）算法是深度学习处理时间序列的基础，在1997年被开发出来。今天，LSTM依然是自然语言处理最有效的方法。

5. （多选）下列数据源对计算机视觉任务具有较大帮助的包括：（）。
A. Flickr
B. 维基百科
C. YouTube
D. Imagenet

答案及解析：ACD
在过去20年里，数据领域最大的变革来源于互联网的兴起，它使得收集与分发用于机器学习的超大型数据集变得可行。其中Flickr、YouTube是面向视觉领域的数据源；维基百科是面向自然语言处理的关键数据库；Imagenet、Pascal VOC等数据库推动了分类、检测等多个视觉任务的发展。

6. （多选）除了硬件和数据之外，一些可靠的方法用于实现较深的神经网络，它们包括：（）。
A. ReLU激活函数
B. Xavier权重初始化方案
C. 随机梯度下降SGD
D. 批标准化BatchNorm

答案及解析：ABCD
从2009年开始，一些算法的产生带来了深度学习的发展，这主要包括激活函数、权重初始化方案和优化方法。

7. 以下编程语言最适合人工智能，特别是深度学习领域的是（）。
A. Java
B. PHP
C. Python
D. Html

答案及解析： C
在早期，从事深度学习需要精通C++和CUDA，而它们只有少数人能掌握；今天，具有基本的Python脚本技能，就可以从事高级的深度学习研究，得益于Caffe，Theano，MXNet及随后的TensorFlow，Pytorch、Keras、PaddlePadle等用户友好型框架的兴起，深度学习应用的开发就像操作乐高积木一样简单。当然，C++和CUDA依然是深度学习底层开放人员所必备的知识。

【课堂互动1.5】深度学习的工作原理@1.4.1

1. 深度学习中，什么函数用于衡量预测值与期望值之间的差距？（）
A. 激活函数
B. 损失函数
C. 优化器
D. 梯度下降

答案及解析：B

2. 以下描述神经网络的工作原理正确的是（）。
A. 通过观察示例学习数据变换
B. 将输入映射到目标的过程
C. 通过一系列简单的数据变换实现输入到目标的映射
D. 通过观察示例学习权重

答案及解析：C
神经网络的核心功能是将输入数据映射到期望的输出或目标。这一映射是通过神经网络内部的多层结构和神经元之间的连接实现的。在神经网络中，数据变换是通过神经元之间的连接权重和激活函数来实现的。权重是通过学习得到的，即神经网络通过观察示例（训练数据）来调整权重，以优化映射的准确性和效率。

3. 机器学习学习过程的本质是（）。
A. 找到一组模型参数，使得损失函数最大化
B. 找到一组模型参数，使得损失函数最小化
C. 找到一组模型参数，使得损失函数等于0
D. 找到一组模型参数，使得损失函数等于1

答案及解析：B
在机器学习的学习过程中，我们的目标是找到一个模型（或一组模型参数），这个模型能够最好地拟合训练数据，并且在新数据上也能有良好的表现。为了量化模型的表现，我们通常定义一个损失函数（loss function），它度量了模型的预测值和真实值之间的差距。选项A是错误的，因为我们的目标是找到使损失函数值尽可能小的模型参数，而不是最大化损失函数。选项C在实际中通常是不现实的。除非数据是线性可分的，且模型有足够的复杂性（例如，对于线性可分的数据使用线性模型），否则很难找到一个模型使得损失函数在所有数据点上都等于0。此外，即使存在这样的模型，它也可能出现过拟合问题。选项D同样是错误的，损失函数的值取决于数据和模型，而不是一个固定的数（如1）。我们的目标是找到使损失函数值尽可能小的模型参数，而不是使损失函数等于某个特定的数。

4. 在深度学习中，用于调节权重的核心算法是什么？
A. 梯度下降
B. 反向传播
C. 前向传播
D. 线性回归

答案及解析: B
在深度学习中，用于调节权重的核心算法是反向传播（Backpropagation）。反向传播算法是深度学习的基石，它通过调整网络权重以最小化损失函数（或目标函数）来学习和优化神经网络。虽然梯度下降是优化神经网络参数的一种常用方法，但它本身并不直接涉及权重的调节。梯度下降是一个更广泛的概念，用于寻找函数的最小值，而反向传播用于将计算出的梯度来更新权重。前向传播是神经网络中数据从输入层流向输出层的过程，用于计算网络的输出值。线性回归是一种简单的统计方法，用于建立因变量与自变量之间的线性关系，它并不涉及深度学习中权重的调节或反向传播算法。综上所述，反向传播算法是深度学习中用于调节权重的核心算法，它通过计算损失函数的梯度并逐层反向传播误差来更新网络的权重和偏置，从而实现神经网络的优化。因此，正确答案是B。

【课堂互动1.6】神经网络工作原理的关键点@1.4.2

1. 以下哪个部件是神经网络的核心元素？（）
A. 权重和激活函数
B. 全连接层和softmax
C. 神经元和权重
D. 张量和ReLU

答案及解析：C
在分析神经网络的核心元素时，我们需要考虑构成神经网络的基本组件和它们如何共同作用以学习并处理数据。选项A中的两个元素在神经网络中非常重要，但它们并不是神经网络的完整核心。权重用于调节神经元的输入和输出之间的连接强度，而激活函数决定了神经元是否应该被激活（即是否应该传递信号）。然而，它们只是神经元的一部分。在选项B中，全连接层是神经网络的一种层类型，其中每个神经元都连接到前一层和后一层的所有神经元。softmax通常用于多分类问题的输出层，将神经网络的输出转换为概率分布。然而，全连接层和softmax并不是神经网络的核心元素，而是构建神经网络的特定层类型。选项C正确，神经元是神经网络的基本单元，它们接收输入，对这些输入进行加权求和，并应用激活函数以产生输出。权重则是连接神经元之间的参数，它们决定了每个输入对神经元输出的贡献程度。神经元和权重共同构成了神经网络的基本结构和功能，是神经网络的核心元素。选项D错误，张量是神经网络中用于表示多维数组的数据结构，而ReLU是一种常用的激活函数。虽然张量和ReLU在神经网络中都有重要作用，但它们并不是神经网络的核心元素。

2. 神经网络中每层对输入数据所做的操作都保存在（）。
A. SQL Server或Oracle等关系型数据库中
B. 输入样本的附加张量中
C. 该层的权重中
D. 一般不进行保存

答案及解析：C
选项A是传统的数据库系统，用于存储结构化数据，而不是神经网络的结构或操作。在神经网络中，每层对输入数据所做的具体操作都保存在该层的权重(weight)中，其本质是一串数字。每层实现的变换由其权重来参数化。权重也被称为该层的参数，通常以张量形式进行保存。在实际操作中，这些权重参数会被以张量的形式进行存储，并保存在二进制文或文本文件中。这个被保存下来的文件就称为模型文件。在实际应用中，这些权重参数会被存储在二进制文件或文本文件中，这些文件通常被称为模型文件。模型文件是神经网络训练成果的具体体现，它包含了网络结构的信息以及各层的权重参数，使得我们能够在需要时重新加载并使用这个训练好的神经网络模型。

3. 反向传播算法是深度学习的核心，它利用（）作为反馈信号来对模型进行微调，从而降低损失值。
A. 最后一层的权重
B. 任意层的权重
C. 预测值与真实值之间的距离
D. 预测值

答案及解析：C
深度学习的基本技巧是利用距离值作为反馈信号来对权重值进行微调，以降低当前示例对应的损失值。这种调节由优化器(optimizer)来完成，它实现了反向传播算法(backpropagation)，这是深度学习的核心算法。

4. 感知机在执行训练时，有如下任务：(1)初始化权重；(2)更新权重；(3)输入数据，获得输出；(4)反复迭代；(5)计算预测值与真实值的误差。这些任务的正确执行顺序是（）。
A. 1, 3, 5, 2, 4
B. 1, 2, 3, 4, 5
C. 3, 1, 2, 5, 4
D. 3, 1, 5, 2, 4

答案及解析：A

5. 在神经网络训练开始时，权重通常如何初始化？
A. 设置为1
B. 设置为0
C. 随机初始化
D. 设置为无穷大

答案及解析: C

在神经网络训练开始时，权重的初始化对模型的训练效率和最终性能有着至关重要的影响。选项B中的全零初始化将权重全部初始化为0，那么在第一遍前向传播过程中，所有隐藏层神经元的激活函数值都相同，导致深层神经元可有可无，这一现象被称为对称权重现象。这会使得网络失去学习能力，因为不同神经元之间失去了区分性。选项A和D将权重初始化为1或无穷大都会导致网络在训练开始时表现出极端的行为。对于激活函数如sigmoid或tanh，过大的输入会导致梯度消失或饱和，从而使得网络难以通过梯度下降进行优化。选项C中的随机初始化是解决对称权重现象的有效方法。通过对每层的权重进行随机初始化，可以使得不同层的神经元之间有很好的区分性，该选项正确。

6. 以下哪个选项与神经网络的优化无关？（）
A. 梯度下降
B. 反向传播
C. 线性回归
D. 批量梯度下降

答案及解析: C
在神经网络中，优化方法用于调整网络的参数（如权重和偏置）以最小化损失函数，从而改进模型的性能。梯度下降是一种常用的优化方法，它通过计算损失函数关于模型参数的梯度，并沿着梯度的反方向更新参数来最小化损失函数。梯度下降有多种变体，选项D的批量批量梯度下降就是其中的一种。选项B常与梯度下降一起使用，但它本身并不是一种优化方法，它用于更新梯度。选项C的线性回归是一种用于预测数值型数据的统计方法，与神经网络的优化无关。

7. 神经网络的层数越多，其性能一定越好。（ $\times$ ）

答案及解析：
神经网络的性能并不总是随着层数的增加而提高。过深的网络可能导致过拟合、梯度消失或梯度爆炸等问题，反而降低模型的性能。

8. 在神经网络中，每个神经元都接收来自前一层所有神经元的输出。（ $\times$ ）

答案及解析：
在神经网络中，全连接层（dense layer）的每个神经元通常接收来自前一层所有神经元的输出，但在卷积神经网络（CNN）等结构中，神经元可能只接收前一层的部分输出（即局部感受野）。

【课堂互动1.7】神经网络的基本原理：导数及梯度@1.4.3

1. 基于多层感知机的神经网络使用（）层来构建网络模型。
A. 卷积层
B. 全连接层
C. 池化层
D. 半连接层

答案及解析：B
在多层感知机（MLP）种，我们使用全连接层来构建神经网络，所谓全连接，其本质含义是指两个层之间的所有神经元都需要相互连接，我们可以使用 output=relu(dot(W, input)+ b) 来表示这种关系。但在全连接层后面，我们依然会使用激活函数来实现线性模型向非线性模型的转换。

2. 神经网络的权重称为可训练参数，它反映了训练数据的内在特征，这些权重通常需要在（）时进行随机初始化。
A. 第一次迭代训练开始前
B. 每次迭代训练开始前
C. 每次迭代训练结束后
D. 最后一轮迭代训练结束后

答案及解析：A
神经网络的权重被称为可训练参数，这意味着训练的目的是获得合适的权重。而在训练开始时，这些权重需要被初始化。随机初始化是一种比较好的方法，它使用随机算法将权重矩阵初始化为一些很小的随机值。

3. 在对神经网络的权重矩阵进行初始化时，通常会将这些权重初始化为（）。
A. 全0的值
B. 全1的值
C. 很小的随机值
D. 很大的随机值
E. 任意随机值

答案及解析：C
随机初始化算法将权重矩阵初始化为一些很小的随机值。此时的值不具任何意义，但这是训练的起点。此后，这些权重会根据反馈信号逐渐进行调节，使其能够更好地反映训练数据的内在特征，这个过程就称为训练。选项A，如果将权重矩阵初始化为全0的值，那么在反向传播时，所有的神经元将会接收到相同的梯度，从而导致它们在更新权重时都做出相同的改变。这会导致网络的对称性，即网络无法学习不同的特征。选项B，全1的值与全0的值类似，也会导致网络在训练时的对称性；此外，全1值和较大的随机值（选项D）可能使得网络在初始阶段就处于激活函数的饱和区，从而导致梯度消失或梯度爆炸的问题，从而阻碍网络的训练。选项E中的任意随机值，其特性无法保证，在不限制的情况下，可能会遇到与D选项相同的问题，即网络在初始阶段可能处于激活函数的饱和区，导致梯度消失或梯度爆炸。因此，通常建议使用较小的随机值来初始化权重。

4. 若存在一个连续的光滑函数 $f(x)$ ，若存在点M，当点M的导数为 $w<0$ 时，x在点M附近的微小变化将导致函数f(x) ( )。
A. 不变
B. 减小
C. 增大
D. 无法确定

答案及解析：B
若w时𝑓在p点导数，则

如果a是负值，则x在p点附近的微小变化将导致f(x)减小；
如果a是正值，则x在p点附近的微小变化将导致f(x)增大。
a的绝对值的大小（导数大小），表示增大或减小的速度快慢。

5. 下列公式能够正确表示函数 $f$ 在距离起始点 $W_0$ 附近的点 $W_1$ 的梯度的是（）。
A. $W_1=w_0-\text{step*gradient}(f)(w_0)$
B. $W_1=W_0-\text{step*gradient}(f)(W_0)$
C. $W_1=\text{step*gradient}(f)(w_0)$
D. $W_1=\text{step*gradient}(f)(W_0)$

答案及解析：B
假设 $W$ 的当前值为 $W_0$ ，则 $f$ 在 $W_0$ 点的导数是一个张量 $gradient(f)(W_0)$ ，其形状与 $W$ 相同。对于张量 $W$ 的函数 $f(W)$ ，可以通过将 $W$ 向梯度的反方向移动来减小 $f(W)$ ，例如： $W_1=W_0−\text{step*gradient}(f)(W_0)$ 。其中，step 是一个很小的比例因子。也就是说，沿着曲率的反方向移动，直观上看在曲线上的位置会更低。其中，比例因子 step 是必需的，与 $p$ 点导数相似，gradient $(f)(W_0)$ 只是在 $W_0$ 附近曲率的近似值，不能离 $W_0$ 太远。值得注意的是：大写W表示的是张量，而小写w表示的是标量。

6. 关于神经网络中权重更新的描述，说法正确的是（）。
A. 权重更新的方向取决于预测值与期望值的差值
B. 权重更新的方向总是沿着梯度的正方向
C. 权重更新的方向是沿着梯度的反方向，以减小损失
D. 权重更新的大小与网络参数的数量无关

答案及解析：C
选项A，虽然预测值与期望值的差值会影响损失函数的值，但权重更新的方向并不直接取决于这个差值本身，而是取决于损失函数对权重的梯度。选项B显然错误，权重更新的方向沿着梯度的反方向，因此选项C正确。选项D不完全准确，权重更新的大小通常由学习率来控制，其更新的基数是由误差决定，误差和学习率的选择可能都会受到网络参数数量、损失函数的性质以及训练数据的影响，进而影响权重更新的大小。

【课堂互动1.8】神经网络的基本原理：随机梯度下降@1.4.4

1. 解析法又称分析法是使用解析式求解数学模型的常用方法。这种方法对于求解神经网络模型同样适用。（ $\times$ ）

答案及解析：
给定一个可微函数，理论上可以使用解析法求其最小值，即导数为0的点所对应的函数位置的值。对于一个神经元来说，理论上，可以通过其梯度方程 gradient(f)(W)=0 求解权重W。然而，事实上这并不现实。对于任何一个神经网络来说，权重参数的个数至少都有数千，甚至上百万，解析法无法进行求解。

2. 随机梯度下降算法是利用梯度的微小变化来优化损失函数的一种方法，下列哪种随机梯度下降算法最适合于面向大数据的神经网络。
A. 真随机梯度下降，每次只迭代一个样本
B. 全样本梯度下降，每次迭代都在所有数据上运行
C. 随机随机梯度下降，每次迭代时随机选取一定数量的样本进行处理
D. 小批量随机梯度下降，每次迭代都在固定量（通常都不大）的样本上进行

答案及解析：D
随机梯度下降有多个变种，除了小批量随机梯度下降mini-batch SGD特别适合于深度学习外，还包括真SGD和全样本SGD。每次迭代只取一个样本，称为真SGD。该方法资源浪费大，且随机性过大，影响更新的准确性。每次迭代都在所有数据上运行，称为全样本SGD。该方法每次更新更加准确，但计算代价高得多，且对于大数据，GPU设备可能无法容纳。

3. 局部最大值不一定是全局最大值，但极大值通常都是全局最大值。（ $\times$ ）

答案及解析：
极值是用来形容一定的领域内的最值，但并一定是全域的最值。因此，极值一般表示的都是局部最优值，并不一定是全局最优值。

4. 关于深度学习的原理，下列描述正确的一项是（）
A. 学习是指找到一种最优的模型，使其能够较好地学到数据的内在知识
B. 一个模型的损失是指输入样本的真实值和基于样本获得的预测值之间的距离，它是在训练过程种需要最大化的量
C. 优化神经网络无法使用解析法，但是可以通过求导的链式法则来获得梯度函数，并利用随机梯度下降等方法来实现模型的优化
D. 随机梯度下降算法能够有效解决局部最优的问题

答案及解析：C

学习是指找到一组模型参数，使得在给定的训练数据样本和对应目标值上的损失函数最小化
学习的过程：随机选取包含数据样本及其目标值的批量，并计算批量相对于网络参数的梯度。随后将网络参数沿着梯度的反方向稍稍移动（距离由学习率指定）
整个学习过程之所以能够实现，是因为神经网络是一系列可微分的张量运算，因此可以利用求导的链式法则来得到梯度函数，这个函数将当前参数和当前数据批量映射为一个梯度值
损失是在训练过程中需要最小化的量，它可以衡量当前任务是否已经成功解决
优化器是使用损失梯度更新参数的具体方式，例如RMSProp、带动量的随机梯度下降（SGD）等

5. 神经网络的训练过程总是能找到全局最优解。（ $\times$ ）

答案及解析：
神经网络的训练过程通常只能找到局部最优解，而非全局最优解。全局最优解的寻找在复杂的神经网络中是一个NP难问题。

【课堂互动1.9】常用工具软件和开发环境@1.5

1. （多选）以下工具包可以用于深度学习应用的是（）。
A. Caffe及Caffe2
B. scikit-learn
C. PaddlePaddle
D. TensorFlow
E. Pytorch
F. OpenCV

答案及解析：ACDE
深度学习如今已经成为机器学习最炙手可热的研究方法，很多工具包被开发出来，CNTK，Caffe，pytorch，Keras，theano，Tensorflow，paddlepaddle，mxnet都是其中的佼佼者。著名的机器学习工具包scikit-learn几乎支持所有的传统机器学习算法，但对于深度学习略显无力，它只支持简单的MLP模型，但其数据预处理功能经常被应用到其他工具包。OpenCV是一个开源的计算机视觉库，它提供了很多函数，这些函数非常高效地实现了计算机视觉算法（最基本的滤波到高级的物体检测皆有涵盖）

2. 以下程序开发语言中，在深度学习中最流行的是（）。
A. Html5+CSS3
B. Javascript语言
C. Python语言
D. C语言
E. Java语言

答案及解析：C
从某种程度上说，应用开放与程序语言并没有太直接的关系，但是由于生态圈和语言的易用性考虑，对于程序设计语言的选择依然具有偏向性。在人工智能领域，底层的开发涉及高性能和并行计算，因此最常见的是基于CUDA库的C++语言；而在面向用户接口部分更多的需要的是简便性，即能实现敏捷开发，因此Python语言是最常见的开发语言。在人工智能领域，诸如Java, Javascript, Matlab等开发语言也有一些开发库，但应用面相对要窄很多。

3. （多选）以下哪些集成开发环境属于常用深度学习应用开发工具的是（）。
A. Visual Studio Code
B. JupyterLab
C. Photoshop
D. PyCharm

答案及解析: ABD
一般来说，使用什么开发环境对于程序设计语言来说并没有绝对的对应关系，甚至于使用文本文档也可以进行程序的开发。不过，一些开发工具会被广泛使用，也证明其对某个领域的易用性和适应性，例如VSCode, PyCharm就是Python程序开发最常用的IDE，此外Jupyter Notebook(JupyterLab)作为数据分析领域最优秀的开发环境，也常常被用来进行人工智能应用的开发和实践。

4. Python在深度学习中被广泛使用，主要因为它的语法简单易懂和拥有丰富的库和框架。（ $\checkmark$ ）

答案及解析：
Python因其简单易用、开放源代码、可扩展的特点，在深度学习中被广泛使用，并拥有丰富的库和框架，如TensorFlow、Keras、PyTorch等。

5. Anaconda是一个功能丰富的Python集成开发环境，特别适用于软件包的管理和安装。（ $\checkmark$ ）

答案及解析：
Anaconda是一个功能丰富的Python集成开发环境，它提供了包和环境管理器conda，对于软件包的管理和安装非常方便。

【拓展练习01】

1. 深度神经网络通过（）来实现输入到目标的映射。
A. 一系列简单的数据变换
B. 单一复杂的数据变换
C. 编程逻辑
D. 线性函数

答案及解析: A
深度神经网络通过一系列简单的数据变换来实现输入到目标的映射。深度神经网络是人工神经网络的一种，它由多层结构组成，通常包括输入层、隐藏层和输出层。在每一层中，数据都会经过权重和激活函数的处理，实现非线性变换。这些简单的数据变换在多层结构中累积，形成了复杂的特征表示，最终实现了从输入到目标的映射，因此选项A正确。显然选项B中的“单一复杂的数据变换”是错误的。选项C“编程逻辑”和选项D“线性函数”则与深度神经网络的实现方式不符。编程逻辑是编写计算机程序时所遵循的规则和流程，而深度神经网络则是通过数据驱动的方式来自动学习输入到目标的映射关系。线性函数虽然是一种简单的数学函数，但它无法有效地处理非线性问题，而深度神经网络则通过引入堆叠非线性激活函数来解决这一问题。

2. 深度学习的“深度”指的是模型有多少个逻辑层，只要能堆叠起来，无论它的功能如何，都可以作为模型的“深度”来计算。（ $\times$ ）

答案及解析：
深度学习的“深度”确实指的是模型中的逻辑层数量，但这并不意味着只要能够堆叠起来，无论其功能如何，都可以算作模型的“深度”。实际上，深度学习的“深度”更多地是强调模型能够学习到不同层次的抽象特征，这些特征从原始数据中逐步提取和转化，最终用于完成特定的任务。也就是说，深度学习的“深度”代表的是对样本的某种表示，每个逻辑层都对应于一种表示，因此模型中包含多少层，其深度（depth）就是多少。例如：在残差网络Resnet101中，我们可以从它的101个层中都获得一组对原始数据的表示。

3. 神经网络这一术语来源于神经生物学，它是目前深度学习最主要的核心算法。它的基本原理与人类大脑的工作原理基本相同，它是对大脑模型的计算机化的产物。（ $\times$ ）

答案及解析：
神经网络这一术语来自于神经生物学。深度学习的一些概念来源于人类对大脑的理解中汲取的部分灵感，但深度学习模型不是大脑模型。至今没有证据表明大脑的学习机制与现代深度学习模型所使用的相同。很多流行的科学文章宣称深度学习的工作原理与大脑类似或者是根据大脑的工作原理进行建模，但事实并非如此。对于这一领域的新人来说，我们无须那种“就像我们的大脑一样”的神秘包装，也最好忘记读过的深度学习与生物学之间的假想联系。就我们的目的而言，深度学习是从数据中学习表示的一种数学框架。

4. 现阶段，OCR文字识别应用的后台，通常使用的算法是（）。
A. 随机森林
B. 逻辑回归
C. 支持向量机
D. 卷积神经网络

答案及解析：D
理论上来说，以上选项均可以用来做OCR文字识别，但是现阶段性能最好的仍然是卷积神经网络，因此D选项是正确答案。

5. 神经网络的产生过程中，以下哪个步骤是用于衡量预测值和真实值之间的差距？（）
A. 抽取训练样本
B. 前向传播
C. 计算损失
D. 更新权重

答案及解析：C
选项A，抽取训练样本是神经网络训练前的准备阶段，它涉及到从整个数据集中选择一部分数据作为训练数据。但这并不涉及衡量预测值和真实值之间的差距。选项B，在前向传播过程中，神经网络会根据当前的权重和输入数据计算出预测值。选项C，损失值的计算是神经网络训练的关键步骤，它用于衡量预测值和真实值之间的差距。通过计算损失，我们可以知道当前的网络参数（即权重和偏置）表现如何，并据此调整这些参数以优化网络性能。选项D是在计算损失之后的操作，通常使用优化算法（如梯度下降）来更新神经网络的权重，以便在下次前向传播时减小损失，但这一步本身并不直接衡量预测值和真实值之间的差距。

6. 要能控制神经网络的输出就需要获得神经网络模型的损失值，这个值一般使用损失函数来进行求取，它是（）之间的距离。
A. 预测值与真实目标值
B. 输入层表示与输出层表示
C. 输入层权重与输出层权重
D. 任意两层权重

答案及解析：A
损失函数的输入是网络的预测值与真实的目标值，然后计算一个距离，用于衡量该网络在这个示例上的效果好坏。

7. 以下哪个函数不是激活函数？（）
A. ReLU
B. Sigmoid
C. Tanh
D. Linear

答案及解析: D
在神经网络中，激活函数是神经元的核心部分，它决定了神经元对于输入信号的反应，这个函数通常是非线性的。这是因为如果网络中的激活函数都是线性的，那么无论网络有多少层，输出都是输入的线性组合，这大大限制了神经网络的能力。选项ABC都是常见的激活函数，选项D错误。

8. 在神经网络中，（）决定了每一层实现的变换。
A. 激活函数
B. 权重
C. 输入数据
D. 损失函数

答案及解析: B
在神经网络中，每一层实现的变换主要由该层的权重决定。权重是神经网络中的参数，它们用于调整输入信号对输出信号的影响程度。具体来说，神经元的输出是其输入与对应权重的加权和，然后再通过一个激活函数产生最终的输出。

9. 在神经网络的上下文中，'权重'是指神经元之间的连接强度。（ $\checkmark$ ）

答案及解析：
在神经网络的上下文中，“权重”确实是指神经元之间的连接强度，这些权重在训练过程中通过反向传播和优化算法进行更新。

10. 前向传播是神经网络训练过程中唯一的步骤。（ $\times$ ）

答案及解析：
神经网络的训练过程通常包括两个主要步骤：前向传播（计算输出和损失）和反向传播（计算梯度并更新权重）。

11. 神经网络的权重初始化对训练结果没有影响。（ $\times$ ）

答案及解析：
神经网络的权重初始化对训练结果有很大影响。不同的初始化方法可能导致不同的训练效果，包括收敛速度、是否陷入局部最优解等。

12. 损失函数用于衡量神经网络的预测值与实际值之间的差异。（ $\checkmark$ ）

答案及解析：
损失函数（或成本函数）用于衡量神经网络的预测值与实际值之间的差异，并在训练过程中指导权重的更新。

13. 迁移学习是一种使用预训练模型来加速新模型训练的方法。（ $\checkmark$ ）

答案及解析：
迁移学习是一种使用预训练模型（在大量数据上训练过的模型）来加速新模型训练的方法。这种方法可以显著减少新模型所需的数据量和训练时间。

14. 神经网络中的每一层都有相同的神经元数量。（ $\times$ ）

答案及解析：
神经网络中不同层的神经元数量通常不同。例如，输入层的神经元数量通常与输入数据的特征数量相同，而隐藏层和输出层的神经元数量则可以根据需要进行设置。

15. 神经网络训练中的批大小（batch size）是一个重要的超参数。（ $\checkmark$ ）

答案及解析：
批大小（batch size）是神经网络训练中的一个重要超参数，它决定了每次更新权重时使用的样本数量。合适的批大小可以加速训练过程并提高模型的性能。

16. 神经网络的输出层通常使用Sigmoid激活函数。（ $\times$ ）

答案及解析：
神经网络的输出层使用的激活函数取决于具体任务。对于二分类问题，输出层通常使用Sigmoid激活函数；对于多分类问题，通常使用Softmax激活函数；对于回归问题，则可能不使用激活函数或使用线性激活函数。

17. 在神经网络的训练过程中，更新权重是一个关键步骤。以下哪种方法通常用于确定权重的更新方向？
A. 仅通过考虑预测值和期望值之间的损失
B. 利用梯度下降法计算损失函数对网络系数的梯度，并沿梯度的反方向更新权重
C. 随机改变权重，直到找到最优解
D. 通过解析法直接求解最优权重

答案及解析：B
A. 仅通过考虑预测值和期望值之间的损失是不够的，因为损失本身并不直接告诉我们如何更新权重。
B. 梯度下降法是一种优化算法，用于最小化损失函数。在神经网络中，我们利用梯度下降法计算损失函数对网络系数的梯度，并沿梯度的反方向更新权重，以期望降低损失。这是神经网络训练中的标准做法。
C. 随机改变权重，直到找到最优解，这是一种错误的描述。在神经网络的训练中，我们不会简单地随机改变权重来寻找最优解。相反，我们使用梯度信息来指导权重的更新，以便有效地降低损失函数。
D. 通过解析法直接求解最优权重在神经网络中通常是不现实的，因为神经网络的损失函数通常是高度非线性和非凸的，难以通过解析法找到全局最优解。相反，我们通常使用迭代优化算法（如梯度下降法）来近似地找到损失函数的最小值。

18. 若存在一个连续的光滑函数 $f(x)=2x^2 + 1$ ，在函数 $f$ 上存在一个点 $M(x=M)$ ，该点的瞬时斜率为 $w$ ，则在点 $M+\epsilon_m$ （假设 $\epsilon_m$ 是一个很小的值）的位置处的函数值为：（）
A. $2 \epsilon_x^2 + 1$
B. $2x^2 + w*\epsilon_x + 1$
C. $2 \epsilon_m^2 + 1$
D. $2M^2 + w*\epsilon_m + 1$

答案及解析：D
根据导数的定义，可以得到： $f(M+\epsilon_m) = 2M^2 + w*\epsilon_m + 1$ 。

19. 下列神经网络的训练过程顺序正确的一组是（）。
Step1：在X上运行网络执行前向传输，得到预测值y_pred；
Step2：反复迭代过程，最终得到的网络(权重)在训练数据上具有非常小的损失argmin(loss), 即预测值y_pred和预期目标y之间的距离非常小。此时训练结束。
Step3：更新网络的所有权重(W 和 b)，使网络在这批数据上的损失loss略微降低；
Step4：计算网络在这批数据上的损失loss，用于衡量y_pred和y之间的距离；
Step5：抽取训练样本X和对应目标y组成的数据批量；

A. 51342
B. 15423
C. 15432
D. 51432

答案及解析：D

20. MNIST手写字体识别数据集是机器学习领域的一个经典数据集，它包含0-9十种数字，其中训练集包含（）个。
A. 10
B. 10000
C. 60000
D. 70000

答案及解析：C
MNIST数据集是机器学习领域的一个经典数据集，它包含70000个样本，其中训练集60000个，测试集10000个。每个样本都分为图片和标签，图片是28*28的像素矩阵，标签是0~9的10个数字。

21. 反向传播算法使用链式法则来计算梯度。（ $\checkmark$ ）

答案及解析：
反向传播算法使用链式法则来计算损失函数关于网络权重的梯度，从而指导权重的更新。

22. 随着深度学习的发展，很多投资被吸引进来，其中最重要的投资来源于（）。
A. 有权势的个人投资
B. 中小企业主
C. 政府、高校和科研机构
D. 大型互联网公司、科技巨头企业

答案及解析：D
2014年，针对深度学习的风投增涨惊人。2011-2014年，成立了数十家创业公司。同时，Google、Facebook、百度、微软、亚马逊等大型科技公司成立内部人工智能研究部门，投资额超过风投现金流。

23. （多选）深度学习的一些重要特性证明它是人工智能的革命，并且能长盛不衰，它们主要包括：（）。
A. 简单
B. 可扩展性
C. 多功能与可复用
D. 大量的资本注入

答案及解析： ABC
深度学习是否只是难以持续的昙花一现？20年后我们是否仍在使用深度神经网络？几个重要的特性证明它确实是人工智能的革命，并且能长盛不衰。20年后我们可能不再使用神经网络，但那时使用的工具都是直接来自现代深度学习及其核心概念，这些重要性质主要分类三类：

简单。深度学习不需要特征工程，它将复杂、不稳定、工程量很大的流程替换为简单的、端到端的可训练的模型，这些模型通常只用到五六种不同的张量运算。
可扩展性。深度学习非常适合在GPU和TPU上并行运算。此外，深度学习模型可以通过对小批量数据迭代进行训练，因此可以在任意大小的数据集上进行训练。唯一的瓶颈在摩尔定律下，限制也会越来越小。
多功能与可复用。与大多数机器学习方法不同，深度学习无须从头开始就可以在附加数据上进行训练并适配附加数据。此外训练好的模型还可以应用于其他用途。泛化能力远优于传统机器学习。

24. 以下哪个软件是深度学习框架，并且由Facebook开发？（）
A. TensorFlow
B. Jupyter Notebook
C. PyTorch
D. Caffe

答案及解析: C
PyTorch是由Facebook开发的深度学习框架，TensorFlow由Google开发，Caffe由UCBerkly读书期间的贾扬清开发，Jupyter Notebook是一个继承开发环境。

25. Keras是一个深度学习框架，它支持哪种后端？（）
A. TensorFlow
B. MATLAB
C. Adobe
D. SQL

答案及解析: A
Keras是一个高级深度学习框架，它支持多种后端，包括TensorFlow。

26. Caffe是一个基于Python的深度学习框架。（ $\times$ ）

答案及解析：
Caffe是一个清晰而高效的深度学习框架，其核心语言是C++，而不是Python。

27. 在深度学习的发展历程中，最常见的编程语言包括（）。
A. C++
B. python
C. HTML
D. Java

答案及解析：AB

28. 深度学习的“深度”是指这种学习方法能从数据中获取更具有意义的信息。（ $\times$ ）

答案及解析：
“深度学习”的“深度”指的并不是利用这种方法所获取的更深层次的理解，而是指一系列连续的表示层。由于每个层都对应于一种表示，因此模型中包含多少层，其深度（depth）就是多少。

（多选）29. 在深度学习发展过程中，三大支柱分别是（）。
A. 算力
B. 算法
C. 数据
D. 框架

答案及解析：ABC
框架是现代深度学习实践中不可或缺的一部分，但在严格的“三大支柱”语境下，更常指算法、算力和数据。首先，深度学习模型通常需要大量的计算资源来训练和推理，包括高性能的CPU、GPU、TPU等硬件支持。其次，深度学习算法，如卷积神经网络（CNN）、循环神经网络（RNN）、变分自编码器（VAE）等，是深度学习模型构建和优化的基础。最后，深度学习模型的效果很大程度上依赖于训练数据的数量和质量，足够多且标注准确的数据是训练出高性能模型的关键。

第01章 深度学习概述 课堂互动 隐藏答案 | 返回首页

【课前自测01】

【课堂互动1.1】 人工智能的基本概念及发展简介@1.1

【课堂互动1.2】 机器学习概述@1.2.1

【课堂互动1.3】 机器学习的历史和辉煌@1.2.2

【课堂互动1.4】 深度学习的概述@1.3

【课堂互动1.5】 深度学习的工作原理@1.4.1

【课堂互动1.6】 神经网络工作原理的关键点@1.4.2

【课堂互动1.7】 神经网络的基本原理：导数及梯度@1.4.3

【课堂互动1.8】 神经网络的基本原理：随机梯度下降@1.4.4

【课堂互动1.9】 常用工具软件和开发环境@1.5