第5章深度前馈神经网络 `课堂互动` 隐藏答案 | 返回首页

作者：欧新宇（Xinyu OU）
当前版本：Release v2.0

最后更新：2024-06-09

【课前自测05】

1. 线性回归模型是单层神经网络。（ $\checkmark$ ）

答案及解析：
线性回归模型可以看作是一个没有激活函数的单层神经网络，它只包含输入层和输出层，没有隐藏层。

2. （多选）线性回归模型可以应用于哪些场景？
A. 房价预测
B. 股票价格预测
C. 图像分类
D. 文本情感分析

答案及解析：AB
线性回归模型主要用于预测连续型变量，因此它可以应用于房价预测（A）和股票价格预测（B）等场景。图像分类（C）和文本情感分析（D）是分类问题，通常使用逻辑回归、支持向量机、神经网络等分类算法来处理。虽然线性回归模型在某些分类问题中也可以用作特征转换或初步筛选，但它们不是线性回归模型的主要应用场景。

3. 2012年，Alex Krizhevsky在ImageNet竞赛中使用的模型（）。
A. 玻尔兹曼机
B. 感知机
C. 卷积神经网络（CNN）
D. 限制玻尔兹曼机（RBM）

答案及解析：C
Alex Krizhevsky在2012年的ImageNet竞赛中使用的模型是卷积神经网络（CNN），该模型在图像识别任务中取得了显著的性能提升。

4. 感知机是第一个模拟人类感知能力的神经网络模型，并且其工作原理基于线性分类。（ $\checkmark$ ）

答案及解析：
感知机是第一个模拟人类感知能力的神经网络模型，它的工作原理基于线性分类，即根据输入数据的线性组合（加权和）和阈值来判断其所属类别。

5. 线性回归和softmax回归的主要区别是（）。
A. 线性回归用于回归问题，softmax回归用于分类问题
B. 线性回归的输出是连续的，softmax回归的输出是离散的
C. 线性回归使用均方误差作为损失函数，softmax回归使用交叉熵作为损失函数
D. 线性回归适用于二分类问题，softmax回归适用于多分类问题

答案及解析：A
线性回归主要用于解决回归问题，即预测一个连续的值；而softmax回归主要用于解决多分类问题，即预测一个离散的类别标签，选项A正确。虽然softmax回归的输出是离散的类别标签（通过选择概率最高的类别），但其内部计算是基于概率分布（连续的），而线性回归的输出本身就是连续的。另一方面，虽然线性回归通常使用均方误差作为损失函数，而softmax回归使用交叉熵作为损失函数，相对于选项A，该选项并不是它们的主要区别。此外，线性回归本身并不直接适用于二分类或多分类问题（尽管可以通过一些技巧如阈值处理将线性回归用于二分类问题），而softmax回归专门用于多分类问题。

6. Softmax回归的损失函数通常使用什么来衡量？
A. 均方误差
B. 交叉熵
C. 平方和
D. 欧氏距离

答案及解析：B
在分类问题中，交叉熵损失是衡量预测概率分布与真实概率分布之间差异的一种常用方法。Softmax回归通常使用交叉熵作为损失函数。

7. 在处理多类别分类问题时，Softmax回归比逻辑回归更有效。（ $\checkmark$ ）

答案及解析：
逻辑回归通常用于二分类问题，而Softmax回归是逻辑回归在多类别分类问题上的扩展。因此，在处理多类别分类问题时，Softmax回归通常比逻辑回归更有效。Softmax回归可以直接输出多个类别的概率分布，而逻辑回归则需要为每个类别训练一个独立的模型。

8. 在Softmax回归中，哪个参数表示预测类别？
A. 输入特征
B. 权重矩阵
C. 偏置项
D. 输出层的最大值索引

答案及解析：D
在Softmax回归中，预测类别是通过找到输出概率分布中最大值对应的索引来确定的。这个索引即表示预测的类别。

9. Softmax函数可以将任意实数映射到[0,1]区间内，并且映射后的值之和为1。（ $\checkmark$ ）

答案及解析：
Softmax函数可以将任意实数值的向量映射到[0,1]区间内的概率分布，并且这些概率之和为1。这使得Softmax函数非常适合于多类别分类问题，因为它可以将模型的输出转换为概率分布，方便进行后续的处理和评估。

10. 以下哪种网络无法解决XOR问题？
A. 单层感知机
B. 多层感知机
C. 循环神经网络
D. 卷积神经网络

答案及解析：A
XOR问题是一个非线性问题，单层感知机无法解决，无法解决非线性问题是人工智能第一次寒冬的关键。多层感知机包含有多个隐藏层，并且在每个隐藏层中都引入了非线性激活函数来改变模型的线性特性，因此多层感知机的出现有效解决了XOR问题。类似地，循环神经网络和卷积神经网络也是多层结构，并且借助于非线性激活函数，它们也能解决XOR问题。

11. 反向传播算法主要用于什么？
A. 计算损失函数
B. 计算梯度
C. 更新网络参数
D. 预测输出

答案及解析：C
反向传播算法的主要用途是计算梯度，并根据这些梯度进行网络参数的更新。其中梯度是损失函数对网络参数的偏导数。选项A的损失函数用于计算损失值。选项D的预测输出不是反向传播算法的主要步骤，该输出由前向传播中的交叉熵计算获得。在这里，更新网络参数是反向传播算法的主要目的，计算梯度只是实现参数更新的一个过程。因此，当题目为单选时，选项C是唯一正确的答案。

【课堂互动5.1】神经网络的发展历程@5.1.1神经网络的发展历史

1. 下列科研人员中，（）最先提出卷积神经网络（CNN），并用它作为邮政手写数字识别的模型。
A. Alex Krizhevsky 和 Geoffrey Hitton 等人
B. Yann Lecun
C. Warren Maculloach和Walter Pitts
D. Alan Turing

答案及解析：B
1989年，Yann Lecun将反向传播算法应用于卷积神经网络(图灵奖)，并用它作为邮政手写数字识别的模型。Yann Lecun也因提出卷积神经网络等工作于2020年获得计算机领域最高奖图灵奖。2012年，Alex Krizhevsky利用图形处理器GPU和卷积神经网络(Convolutional Neural Network, CNN)在ImageNet竞赛中实现10个百分点的飞跃。在随后的几年，卷积神经网络迅速称为最火热的深度学习算法。

2. （多选）下列科研人员中，对反向传播算法(BP)都做出了重要贡献的人包括（）。
A. Paul Werbos
B. Yoshua Bengio
C. John Hopfield
D. Geoffrey Hinton

答案及解析：AD

1975年，Werbos博士在论文中首次提出反向传播算法，但当时并没有在业界引起广泛的重视。
1986年，Geoffrey Hinton等人完善反向传播算法(图灵奖)并应用到训练中。
1989年，Yann Lecun将反向传播算法应用于卷积神经网络，第一次将CNN应用到实际的应用中。

3. 当我们将一个具有7层的深度学习模型用来完成人脸识别任务时，哪一层最有可能学习到人脸的局部器官特征（眼、耳、鼻）？
A. 输入层
B. 第1-2层
C. 第3-5层
D. 第6-7层
E. 输出层

答案及解析：C
对于深度学习模型来说，对样本的学习是一个从局部到整体的过程，越靠近输入层所学到的信息越局部（例如边缘和气泡），越靠近输出层所学到的信息越具有整体性，甚至包含有效的语义信息。整个过程是一个从表象到概念，从局部到整体的过程。对于此题来说，我们要对局部器官进行可视化，最具代表性的应该是中间部分的层次。但值得注意的是，这只是最可能，根据模型的不同，数据的不同，具体的层次不一定总是固定的。

4. 对于一个计算机视觉的分类模型来说，语义信息通常由哪一层提供。
A. 输入层
B. 输出层
C. 任意隐层
D. 所有层都包含

答案及解析：B
深度学习模型的每一层都是对输入数据的一种表示，但仅仅是视觉上的表示，最终的语义结果通常由最终的输出函数（分类器）提供，例如Softmax分类器。

5. 深度学习是神经网络的一个特例，其主要特点是通过多层的网络结构来学习数据的高层次特征。（ $\times$ ）

答案及解析：
深度学习是机器学习的一个子领域，其特点是通过多层的网络结构来学习数据的高层次特征。虽然深度学习通常使用神经网络作为模型，但它并不是神经网络的特例，而是神经网络的一个扩展和发展。

【课堂互动5.2】神经网络的发展历程@5.1.2感知机

1. 感知机是由哪位科学家在1957年提出的？
A. Warren Maculloach
B. Walter Pitts
C. Donald Hebbian
D. Frank Rosenblatt

答案及解析：D
感知机（perceptron）是由美国科学家Frank Rosenblatt在1957年提出的，用于模拟生物神经元的结构和功能，是神经网络和支持向量机的基础。

2. 在感知机中，当神经元被激活时，其输出为（）。
A. 0
B. 0.5
C. 1
D. -1

答案及解析：C
感知机可以被理解成一个使用阶跃函数作为激活函数的神经网络，当输出为1时神经元被激活，当输出为0时神经元被抑制。

3. 感知机网络包含两种权重，一种是连接每个神经元上的权重 $w$ ，另外一种是偏置项 $b$ 。这两种权重都需要手动设置，无法通过算法自动学习获得。（ $\times$ ）

答案及解析：
在感知机中，我们可以设计一种学习算法(learning algorithm)来实现权重的自动选择，这就包括了伸神经元的连接权重 w 和偏置b。

4. （多选）感知机是早期最成功的神经网络，但也存在一些问题，主要包括哪两个？
A. 处理不了线性不可分问题
B. 处理不了线性可分问题
C. 输入特征需要人工选择
D. 权重特征无法自动更新

答案及解析：BC
感知机的自动化令人激动，但是1969年，Minksy等人关于感知机的“能”与“不能”做了细致的分析，并悲观地论断了感知机的普适难题，这个难题致使神经网络的研究陷入了寒冬。感知机的问题主要包括以下两点：
1). 处理不了线性不可分。这基本上是所有浅层模型都面临的问题；
2). 输入特征的人工选择。这是传统机器学习的通病。

5. （多选）下列描述感知机基本原理的表达式，正确的（）。
A. $f(x) = \frac{1-e^{-2x}}{1+e^{-2x}}$

B. $z=\sum^n_{j=1} W^Tx+b$

C. $y = \begin{cases} 0 & ,W^T+b \leq 0 \\ 1 & ,W^T+b > 0 \\ \end{cases}$

D. $f(x) = \frac{1}{1+e^{-x}}$

答案及解析：BC
A为Sigmoid激活函数, D为tanh激活函数; B描述的是一个神经元的总输出，由多个输入汇集而成，C描述的是单个输入的激活值。

6.（多选）下列应用中，可以使用深度学习来实现的包括（）。
A. 无人驾驶汽车
B. 从微信朋友圈的评论中分析情感
C. 从X光照片中发现病变细胞
D. 老照片上色

答案及解析：ABCD
从2012年，卷积神经网络在Imagenet竞赛中获得质的飞跃起，在随后的几年里，深度学习被应用到计算机、自动驾驶、自然语言、语音识别和金融大数据等诸多领域，并大放异彩。

7.（多选）神经网络中，以下哪些参数需要学习？
A. 权重
B. 偏置
C. 激活函数
D. 网络结构

答案及解析：AB
在神经网络中，权重和偏置是网络学习的参数，它们通过训练数据进行调整以优化模型性能。激活函数和网络结构通常是根据任务和数据特性预先选择的，不是通过训练学习的参数。

【课堂互动5.3】线性回归@5.2.1 线性回归简介

1. 线性回归模型中，用于衡量预测值与真实值之间差距的函数是？
A. 平方损失函数
B. 绝对值损失函数
C. 对数损失函数
D. 交叉熵损失函数

答案及解析：A
在线性回归模型中，通常使用平方损失函数（Mean Squared Error, MSE）来衡量预测值与真实值之间的差距。这是因为平方损失函数对较大的误差有更大的惩罚，从而鼓励模型在预测时尽量接近真实值。

2. 在线性回归模型中，哪个参数表示偏差？
A. $w_1, w_2, ..., w_n$
B. $b$
C. $x_1, x_2, ..., x_n$
D. $y$

答案及解析：B
在线性回归模型中，偏差（也称为截距）通常用符号 $b$ 表示，而权重（也称为系数）用 $w_1, w_2, ..., w_n$ 表示。这些权重和偏差是通过最小化损失函数来确定的。

3. 线性回归模型中的训练数据通常包含哪些部分？
A. 输入数据
B. 输出数据
C. 权重
D. 偏差

答案及解析：AB
线性回归模型中的训练数据通常包含输入数据（A）和输出数据（B）。输入数据是模型的自变量，即用于预测的特征；输出数据是模型的因变量，即要预测的目标值。权重（C）和偏差（D）是模型的参数，不是训练数据的组成部分，它们是通过训练数据学习得到的。

4. 线性回归是一种用于预测数值型数据的机器学习算法。（ $\checkmark$ ）

答案及解析：
线性回归是一种经典的监督学习算法，用于预测连续型数值数据，如房价、销量等。

5. 线性回归模型不能处理非线性关系。（ $\checkmark$ ）

答案及解析：
线性回归模型只能描述输入特征和输出之间的线性关系，对于非线性关系，需要使用其他模型或方法进行处理。

【课堂互动5.4】线性回归@5.2.2 线性回归的基本优化算法

1. 在线性回归中，训练数据通常指的是什么？
A. 模型的权重和偏差
B. 模型的输入和输出
C. 用来训练模型的历史数据
D. 模型的损失函数

答案及解析：C
在线性回归中，训练数据通常指的是用来训练模型的历史数据，这些数据包括输入和对应的输出（或称为标签）。这些数据用于调整模型的权重和偏差，以最小化预测值与实际值之间的差距。

2. 线性回归模型的参数（权重和偏差）是通过梯度下降算法进行学习的。（ $\checkmark$ ）

答案及解析：
梯度下降算法是线性回归中常用的参数学习方法之一，它通过迭代地调整权重和偏差来最小化损失函数。

3. 在线性回归模型的训练过程中，权重和偏差总是通过随机初始化获得。（ $\times$ ）

答案及解析：
权重和偏差的初始值可以是随机初始化的，但在训练过程中，它们是通过最小化损失函数来调整的，而非一直保持随机值。

4. 在训练线性回归模型时，我们通常使用哪种方法来最小化损失函数？
A. 梯度下降
B. 反向传播
C. 遗传算法
D. 线性规划

答案及解析：A
在训练线性回归模型时，我们通常使用梯度下降（或其变种如随机梯度下降、批量梯度下降等）来最小化损失函数。梯度下降通过迭代地更新模型的权重和偏差来逐渐减小损失函数的值。反向传播（B）通常用于训练多层神经网络，而遗传算法（C）和线性规划（D）不是训练线性回归模型的常用方法。

5. 假设我们有一个线性回归模型，其中权重为 $[w_1, w_2, w_3]$ ，偏差为 $b$ ，输入为 $[x_1, x_2, x_3]$ ，则模型的输出为？
A. $w_1x_1 + w_2x_2 + w_3x_3$
B. $w_1x_1 + w_2x_2 + w_3x_3 + b$
C. $w_1 + w_2 + w_3 + b$
D. $x_1 + x_2 + x_3 + b$

答案及解析：B
线性回归模型的输出是输入变量的加权和加上偏差。对于给定的权重 $[w_1, w_2, w_3]$ 和偏差 $b$ ，以及输入 $[x_1, x_2, x_3]$ ，模型的输出为 $w_1x_1 + w_2x_2 + w_3x_3 + b$ 。

【课堂互动5.5】Softmax回归@5.3.1 Softmax回归简介

1. Softmax回归主要用于解决什么问题？
A. 回归问题
B. 单类别分类问题
C. 多类别分类问题
D. 聚类问题

答案及解析：C
Softmax回归是一种多类别分类算法，用于处理具有多个可能输出类别的问题。它通过计算每个类别的概率来预测输入数据所属的类别。

2. 下列哪个数据集通常用于展示Softmax回归在图像分类中的应用？
A. Iris数据集
B. MNIST数据集
C. Boston房价数据集
D. Wine数据集

答案及解析：B
MNIST是一个手写数字识别的数据集，包含0-9的手写数字图像。由于它是一个多类别分类问题，因此经常用于展示Softmax回归在图像分类中的应用。

3. （多选）Softmax回归模型通常包括哪些部分？
A. 输入层
B. 隐藏层
C. 输出层
D. 损失函数

答案及解析：ACD

选项A，输入层是模型的起始部分，负责接收输入数据。在Softmax回归中，输入层通常接收特征向量，这些特征向量描述了待分类样本的属性。
选项B，虽然Softmax回归模型在结构上可以包含隐藏层（特别是当它与神经网络结合使用时，例如多层感知机MLP），但基本的Softmax回归模型并没有隐藏层。它只是直接将输入层的输出通过线性变换（即权重矩阵和偏置项的点积）传递到输出层。因此，在描述基本Softmax回归模型时，我们不提及隐藏层。
选项C，输出层是Softmax回归模型的关键部分，它接收来自输入层（或隐藏层，如果存在的话）的线性变换结果，并通过Softmax函数将这些结果转换为概率分布。每个输出节点对应一个类别，节点的输出值表示输入样本属于该类别的概率。
选项D，损失函数用于衡量模型的预测结果与实际结果之间的差异，从而指导模型的训练过程。在Softmax回归中，通常使用交叉熵损失函数作为损失函数，因为它能够很好地衡量预测概率分布与真实概率分布之间的差异。

4. Softmax回归是一种二分类模型。（ $\times$ ）

答案及解析：
Softmax回归是一种多类别分类模型，它可以处理两个或更多类别的分类问题。对于二分类问题，通常使用逻辑回归（Logistic Regression）或Sigmoid函数。

5. Softmax回归的输出层通常使用Sigmoid函数。（ $\times$ ）

答案及解析：
Softmax回归的输出层使用Softmax函数，而不是Sigmoid函数。Sigmoid函数通常用于二分类问题，将输出映射到[0, 1]区间内，表示属于某一类别的概率。而Softmax函数用于多类别分类问题，将输出映射到多个类别的概率分布上，且所有类别的概率之和为1。

【课堂互动5.6】Softmax回归@5.3.2 Softmax回归的基本优化

1. 交叉熵损失函数在Softmax回归中用于衡量预测概率与真实概率之间的差异。（ $\checkmark$ ）

答案及解析：
交叉熵损失函数是Softmax回归中常用的损失函数，用于衡量模型预测的概率分布与真实概率分布之间的差异。通过最小化交叉熵损失函数，可以优化模型的参数，提高分类性能。

2. Softmax回归的输出通常表示（）。
A. 预测值与真实值的距离
B. 对每个类别的预测置信度
C. 类别标签
D. 回归线的斜率

答案及解析：B
Softmax回归的输出是一个概率分布，表示输入数据属于每个类别的概率或置信度。这个概率分布可以用来确定最可能的类别。

3. 在使用交叉熵损失时，如果预测概率与真实概率接近，损失值会如何变化？
A. 增大
B. 减小
C. 保持不变
D. 难以确定

答案及解析：B
交叉熵损失衡量的是预测概率分布与真实概率分布之间的差异。当预测概率接近真实概率时，这种差异减小，从而导致损失值减小。

4.（多选）Softmax回归在处理多类别分类问题时，通常涉及哪些步骤？
A. 数据预处理
B. 类别标签编码
C. 模型训练
D. 预测结果解码

答案及解析：ABC

选项A，在机器学习模型的训练过程中，数据预处理是必不可少的步骤。这通常包括数据的清洗、归一化、标准化等操作，以确保数据的质量和模型的训练效果。
选项B，在Softmax回归中，类别标签通常需要进行编码，如One-hot编码，以便模型可以处理多个类别。
选项C，在数据预处理和类别标签编码完成后，模型可以进行训练，以学习数据中的规律和特征。
选项D，这一步并不是Softmax回归的标准步骤，因为Softmax回归的输出已经是概率分布，可以直接用于分类，无需额外的解码步骤。

5.（多选）下列哪些是关于Softmax函数的正确描述？
A. 它的输出值在[0,1]之间
B. 它的输出值之和为1
C. 它的输入是任意实数
D. 它可以将输出转换为概率分布

答案及解析：ABCD

选项A，Softmax函数的输出值在[0,1]之间，表示每个类别的预测概率。
选项B，Softmax函数的输出值之和为1，表示所有类别的预测概率之和为1，满足概率分布的性质。
选项C，Softmax的输入可以是任意实数，这些实数通常是模型的线性输出。
选项D，Softmax函数的主要作用就是将模型的输出转换为概率分布，方便进行多类别分类。

【课堂互动5.7】多层感知机@5.4.1 多层感知机的引入、神经元和激活函数

1.（）是构成神经网络的基本结构，其主要功能是模拟生物神经元的结构和特性，接收一组输入信号并产生输出。
A. 神经元
B. 激活函数
C. 损失函数
D. 权重

答案及解析：A
神经元（Neuron）是构成神经网络的基本结构，其主要功能是模拟生物神经元的结构和特性，接收一组输入信号并产生输出。将输入信号的总和转换为输出信号的函数称为激活函数（Activation Function）。损失函数（Loss Function）又称为代价函数，用于衡量网络预测结果 $\hat{y}=F(x)$ 与真实值𝑦之间距离的指标。

2. 设某神经元有 $m$ 个输入，可以用向量 $x$ 来表示，每个输入的连接权重用 $w$ 表示，偏置为 $b$ ；同时，该神经元包含 $n$ 个输出，用向量 $y$ 表示，其权重用 $v$ 表示，偏置为 $a$ 。那么，下列哪一项可以表达该神经元的净输入？
A. $x$
B. $wx+b$
C. $yv+a$
D. $wx+b+yv+a$

答案及解析：B
神经元接受这n个输入信号 $x_1,x_2,…,x_n$ 作为输入，可以用向量 $x=[x_1,x_2,…,x_n]$ 来表示，神经元的加权和称为净输入，其输出为： $z=\sum^n_{j=1}=W^Tx+b$

3. （多选）下列表达式用于表示ReLU函数正确的是（）。
A. $max(0, x)$
B. $f(x) = \frac{1}{1+e^{-x}}$
C. $f(x) = \begin{cases} x & ,x \geq 0 \\ 0 & ,x < 0 \\ \end{cases}$
D. $f(x) = \frac{1-e^{-2x}}{1+e^{-2x}}$

答案及解析：AC
AC为ReLU激活函数，B为Sigmoid激活函数，D为tanh激活函数

4. 在神经网络中，为什么需要非线性激活函数？
A. 为了增加计算复杂度
B. 为了保持网络的线性性质
C. 为了使网络能够表达复杂的函数关系
D. 为了使网络更容易训练

答案及解析：C
在神经网络中，使用非线性激活函数是为了使网络能够表达复杂的函数关系。如果网络只包含线性操作，那么无论网络有多少层，其整体功能仍然只能是线性的，这限制了网络的表示能力。

5. ReLU激活函数在处理负输入时，输出为0。（ $\checkmark$ ）

答案及解析：
ReLU（Rectified Linear Unit）激活函数在输入为正时输出该输入值，在输入为负时输出0。这种特性使得ReLU在神经网络中非常受欢迎，因为它有助于缓解梯度消失问题，并促进稀疏性。

【课堂互动5.8】多层感知机@5.4.2多层感知机的网络结构和数学描述

1. （多选）单一神经元的功能是有限的，将很多神经元连接在一起传递信息来协作完成复杂的功能，这就是神经网络。神经元的不同连接方式构成不同的网络结构，按照拓扑结构划分，可以分为（）。
A. 前馈神经网络
B. 后馈神经网络
C. 反馈神经网络
D. 图网络

答案及解析：ACD
单一神经元的功能是有限的，将很多神经元连接在一起传递信息来协作完成复杂的功能，这就是神经网络。神经元的不同连接方式构成不同的网络结构，按照拓扑结构划分，通常可以将神经网络分为三类前馈神经网络，反馈神经网络和图网络。

2. （多选）对于多层感知机来说，通常包含以下几种层（）。
A. 输入层
B. 输出层
C. 卷积层
D. 池化层
E. 隐层（隐藏层）
F. 激活层

答案及解析：ABEF
在传统多层感知机中，一般只包含最基本的功能层，例如输入、输出层、隐藏层和激活函数层，而卷积层、池化层、Dropout层等功能层一般存在于CNN，RNN等现代神经网络中。

3. 多层感知机由如下哪几种特征层结构组成？
A. 卷积层
B. 正则化层
C. 全连接层
D. 感应层

答案及解析：C
前馈神经网络中所有神经元都与下一层的所有神经元连接，该网络称为全连接网络。

4. 试计算如下网络结构图共计有（）个权重(W)参数。
Interaction05001FFNNetwork
A. 3
B. 9
C. 12
D. 13

答案及解析：C
第一层有3个神经元，第二层有3个神经元，第三层有1个神经元，所以共计3×3+1×3=9+3=12条连接，即12个权重参数。

5. 多层感知机只能解决线性可分问题。（ $\times$ ）

答案及解析：
多层感知机（MLP）通过引入隐藏层和非线性激活函数，能够解决非线性可分问题。仅当没有隐藏层或使用线性激活函数时，多层感知机才等同于线性模型，仅能解决线性可分问题。

【课堂互动5.9】多层感知机@5.4.3 损失函数

1. 在神经网络中，梯度更新发生在（）
A. 训练阶段
B. 测试阶段
C. 训练和测试阶段同时发生
D. 训练和测试阶段都不发生

答案及解析：A
与传统机器学习算法一样，神经网络也分为预测和测试，在训练阶段带权重和配置的神经元以更新梯度的方式进行迭代优化，而在测试阶段只完成一次前向传播，模型不会更新。

2. 在多层感知机的训练过程中，模型训练的目的是（）。
A. 更新激活函数，使得模型输出的预测与测试的真实标签尽可能接近。
B. 更新损失函数，使得模型输出的预测与测试的真实标签尽可能接近。
C. 更新权重W和偏置b，使得模型输出的预测与测试的真实标签尽可能接近。
D. 同时更新权重W、偏置b、损失函数和激活函数，使得模型输出的预测与测试的真实标签尽可能接近。

答案及解析：C
深度学习模型的本质运算就是使用输入样本和神经元连接的参数进行矩阵运算，因此模型训练的目的就是更新权重W和偏置b，使得模型输出的预测与测试的真实标签尽可能接近。

3. 给定神经网络F，其初始权重为W，偏置为b，并使用随机初始化进行初始配置。给定样本A(x,y)，将x输入到神经网络F，试问下列哪个表达式表达在使用样本A进行模型优化。
A. $\max \limits_{W,b} (loss(F(x;W,b),y))$
B. $\min \limits_{W,b} (loss(F(x;W,b),y))$
C. $\max \limits_{W,b} F(A;W,b)$
D. $\min \limits_{W,b} F(A;W,b)$

答案及解析：B
要使神经网络的预测结果尽可能接近真实值，就要让损失loss尽可能小，这就是神经网络的优化问题。神经网络的损失loss又称为代价函数，它是用来衡量网络预测结果 $\hat{y}=F(x)$ 与真实值y之间距离的指标。

4. （多选）损失函数一般分为三类，包括（）。
A. 分类损失
B. 回归损失
C. 预测损失
D. 对比验证损失

答案及解析：ABD
损失函数的设计依赖于具体的任务，一般分为分类损失、回归损失和对比损失。例如，分类任务和分割任务使用分类损失，检测同时使用分类损失和回归损失，在人脸验证和行人再识别等任务中经常会使用对比损失。

5. （多选）以下损失函数，属于分类损失函数的包括（）。
A. Logistic损失
B. 三角损失（Triplet loss）
C. 均方误差损失（L2损失）
D. 交叉熵损失（Cross Entropy Error Function）

答案及解析：AD
AD是分类损失函数，B是对比验证损失函数，C是回归损失函数。

【课堂互动5.10】多层感知机@5.4.4 参数更新

1. 使用梯度下降法求解神经网络的权重参数的主要原因是（）。
A. 神经网络模型过于复杂，解析式无线接近NP问题，无法直接获得解析解
B. 神经网络参数数量庞大，无法求精确解
C. 梯度下降算法的计算速度比求解析解更快
D. 梯度下降算法更符合计算机的运行思维

答案及解析：B
深度神经网络又数千甚至上万的神经元相互连接而成，这就意味着可能存在数千万甚至数以亿计的权重参数，这样庞大的参数群根本无法直接求解，它与非确定性多项式问题不同（NP），它的难点是无法计算得到精确解。此外，神经网络的模型也是高度非凸，对于这种函数，基本上也无法获得其精确解。梯度下降是一种逐渐逼近算法，它获取的是近似解，而不是精确解。在使用梯度下降算法时，还要特别防止局部最优的问题。

2. 在使用梯度下降法进行权重更新时，当梯度为（）时，需要对权重w进行增加。
A. 正
B. 负
C. 零
D. 任意值

答案及解析：B
在使用梯度下降法进行权重更新时，当梯度为负时，需要对权重w进行增加操作；当梯度为正时，需要对权重w进行减小操作。

3. 在梯度下降算法中下列哪个符号表示学习率？
A. $\partial w$
B. $\partial L/\partial w$
C. $\eta$
D. $\theta$

答案及解析：C
$\partial L/\partial w$ ：损失函数关于权重的梯度值
$\eta$ ：学习率
$\theta$ ：参数组，包括权重和偏置， $\theta={w,b}$

4. 给出下列学习曲线，请问哪一个点是模型训练时期望收敛的最优点。
Interaction05002TrainingCurve

答案及解析：E
A点为起始点；B点处于平坦区，仍然有上升和下降的可能；C点是鞍点，随后会继续下降（一般在这个位置的下降时因为降低学习率，缩小步长带来的）；D点时局部最优值，如果此时学习率过低，会导致模型的收敛停止；E点是全局最优点，是模型训练期望的最佳点。

5. 给定如下的两层神经网络，假设 $x^1_i$ 和 $y^2_j$ 之间的权重为 $w^2_{ij}$ ，对应于 $y^2_j$ 的偏置项为 $b^2_j$ ，整个神经网络的激活函数为Sigmoid()，试求神经元 $y^2_2$ 的输出结果。
Interaction05003TwoMLP
A. $w^2_{12} x^1_1 + w^2_{22} x^1_2 +...+ w^2_{n2} x^1_n$
B. Sigmoid $(w^2_{12} x^1_1 + w^2_{22} x^1_2 +...+ w^2_{n2} x^1_n) + b^2_2$
C. Sigmoid $(w^2_{12} x^1_1 + w^2_{22} x^1_2 +...+ w^2_{n2} x^1_n + b^2_2)$
D. $w^2_{12} x^1_1 + w^2_{22} x^1_2 +...+ w^2_{n2} x^1_n + b^2_2$

答案及解析：C
神经网络的某个神经元的输出等于其净输入经过激活函数后的输出，净输入等于前一层与之相连的所有神经元的加权和。

6. 梯度下降法总是能找到损失函数的全局最小值。（ $\times$ ）

答案及解析：
梯度下降法是一种优化算法，它试图通过迭代地沿着损失函数的负梯度方向更新参数来找到最小值。然而，由于损失函数可能是非凸的，梯度下降法可能只能找到局部最小值，而不是全局最小值。

【课堂互动5.11】多层感知机@5.4.5 推理与误差回传

1. 在求解梯度并对梯度进行更新的过程中，哪一个步骤的主要任务是用来更新权重。
A. 模型初始化
B. 前向传播
C. 反向传播
D. 模型测试阶段

答案及解析：C
模型的训练一般包括模型初始化（配置和建立模型），前向传播，反向传播三个步骤。在初始化中会将所有的权重初始化为一个随机的很小的值；在前向传播中，会计算当前参数的损失值；在反向传播中利用损失值关于权重的梯度进行权重更新。

2. 在多层感知机模型最后的输出部分，用来衡量输出的预测结果 $\hat{y}$ 和真实的标签 $y$ 之间距离的是（）。
A. Softmax函数
B. 交叉熵函数
C. 全连接层
D. 池化层

答案及解析：B
在基于卷积神经网络的分类模型的最后的输出部分一般包含三个结构：全连接层、Softmax概率归一化函数、交叉熵函数。

全连接层：用于匹配分类任务的类别，从而针对每个类别都输出一个评分
Softmax概率归一化函数：为了更好地计算和对比，通常需要对输出的分数进行归一化。换句话说，需要将所有类别的概率和统一成1，每个类别的概率值就变成了其所占1的比例。
Cross-entropy交叉熵：用于衡量两个概率分布之间的相似度。在数学上，衡量概率分布的相似性的常用方法叫做KL散度，而KL散度基本上等同的。对于两个概率分布来说，其交叉熵的值越小意味着两个分布越接近；当两个概率分布差异越大时，其交叉熵的值也越大。在分类任务中，我们通过增加负号“-”来改变这个方向，也即交叉熵越大其相似性越强。

3. 在包括卷神经网络在内的所有前馈神经网络中，对参数的优化主要发生在以下哪个步骤中？
A. 前向传输
B. 反向传输
C. 同时发生于前向传输和反向传输
D. 前向传输和反向传输均不对参数进行优化

答案及解析：B
神经网络的优化主要来源于反向传播算法，即BP算法，该算法主要发生在反向传输的过程中。而前向传输主要用来计算预测值，并提供给损失函数用于计算真实值和预测值之间的距离。

4. （多选）常见的提高神经网络性能的技巧包括（）。
A. 增加正则化结构
B. 更好的参数初始化方法
C. 对原始数据进行预处理
D. 设计更好的参数更新算法

答案及解析：ABCD

5. 在一个基于深度学习的图像分类应用中，当使用随机梯度下降法进行梯度更新的时候，每次用于计算损失的样本个数为（）。
A. 整个数据集
B. 随机抽取一个样本
C. 任意数量的样本
D. 一个小批量的样本子集，一批内的样本数量一般是固定的

答案及解析：D
在基于深度学习的图像分类中，通常有较多的样本，而当前的设备无法一次性为所有的样本提供运算支持，因此需要将样本拆分成若干的组（批），根据样本数量，这个批的数量常常会很多。为了方便计算，每一批的样本数量通常是固定的。在分割任务（Segmentation）中，因为需要进行像素级的识别，为了满足GPU设备的支持，每批样本的数量经常会缩减到只有一个样本。

6. 神经网络中的参数可以通过正向传播算法来更新。（ $\times$ ）

答案及解析：
正向传播算法用于计算神经网络的输出和损失函数。而参数更新则是通过反向传播算法计算梯度，并使用优化算法（如梯度下降法）来完成的。

7. 反向传播算法用于计算损失函数的梯度。（ $\checkmark$ ）

答案及解析：
反向传播算法是训练神经网络时用于计算损失函数关于模型参数的梯度的算法。通过反向传播中的梯度下降算法，我们可以有效地更新模型的参数以最小化损失函数。

8. 梯度下降法的主要目的是什么？
A. 最小化损失函数
B. 最大化损失函数
C. 计算梯度
D. 预测输出

答案及解析：A
梯度下降法的主要目的是最小化损失函数。通过计算损失函数对网络参数的梯度，并沿着梯度的反方向更新参数，可以逐步降低损失函数的值，从而优化网络的性能。

【拓展练习05】

1. 线性回归模型可以看作是哪种类型的神经网络？
A. 多层感知机
B. 循环神经网络
C. 单层神经网络
D. 卷积神经网络

答案及解析：C
线性回归模型可以看作是一个单层的神经网络，其中输入层直接连接到输出层，没有隐藏层。多层感知机（A）包含多个隐藏层，循环神经网络（B）用于处理序列数据，卷积神经网络（D）主要用于图像处理。

2. 线性回归模型中的权重通常是通过什么方式确定的？
A. 手动设定
B. 随机生成
C. 数据训练
D. 经验公式

答案及解析：C
线性回归模型中的权重和偏差是通过数据训练来确定的，而不是手动设定（A）、随机生成（B）或使用经验公式（D）。在训练过程中，模型会尝试找到使损失函数最小化的权重和偏差值。

3.下列哪一项不是线性回归模型的假设？
A. 输入变量和输出变量之间呈线性关系
B. 输入变量之间相互独立
C. 输出变量是离散的
D. 模型的输出是输入变量的加权和

答案及解析：C
线性回归模型的基本假设包括：输入变量和输出变量之间呈线性关系（A），模型的输出是输入变量的加权和（D）。虽然输入变量之间相互独立（B）在某些情况下是线性回归的一个假设，但它不是核心假设。输出变量是离散的（C）不是线性回归模型的假设，因为线性回归主要用于预测连续型变量。

4. 在购买房屋的过程中，以下哪些步骤可能与线性回归有关？（）
A. 选中一个房子
B. 参观了解
C. 估计房价
D. 讨价还价

答案及解析：C
在购买房屋的过程中，选中一个房子（A）和参观了解（B）主要是基于个人喜好和房屋条件的主观判断，与线性回归没有直接关系。而估计房价（C）是一个典型的线性回归问题，可以通过收集类似房屋的成交价格及其相关特征（如面积、位置、装修程度等）来训练一个线性回归模型，从而预测目标房屋的价格。讨价还价（D）虽然涉及价格，但主要是基于买卖双方的谈判技巧和市场行情，与线性回归模型预测的价格不是直接相关。

5. （多选）线性回归模型的训练过程中，哪些因素会影响模型的性能？
A. 训练数据的数量
B. 训练数据的质量
C. 模型的复杂度
D. 损失函数的选择

答案及解析：ABCD
训练数据的数量（A）和质量（B）直接影响模型的泛化能力和预测精度。模型的复杂度（C）也是一个重要因素，过于复杂的模型可能会导致过拟合，而过于简单的模型可能无法充分捕捉数据中的模式。损失函数的选择（D）决定了模型优化的目标，不同的损失函数适用于不同的问题和数据分布，因此也会影响模型的性能。

6. 线性回归模型只能处理一个输入特征。（ $\times$ ）

答案及解析：
线性回归模型可以处理多个输入特征，通过为每个特征分配一个权重，并计算它们的加权和来预测输出。

7. 在线性回归中，训练数据的数量对模型性能没有影响。（ $\times$ ）

答案及解析：
训练数据的数量对模型性能有重要影响。通常，更多的训练数据能够带来更好的模型性能，因为它能更准确地描述数据的内在规律。

8. 平方损失函数是线性回归中常用的损失函数。（ $\checkmark$ ）

答案及解析：
平方损失函数（也称为均方误差）是线性回归中常用的损失函数，用于衡量预测值与真实值之间的差距。

9. 在线性回归中，模型的性能只取决于权重和偏差的值。（ $\times$ ）

答案及解析：
虽然权重和偏差是影响线性回归模型性能的重要因素，但模型的性能还受到其他因素的影响，如数据的分布、噪声等。

10. 在线性回归中，模型的目标是最小化预测值和真实值之间的绝对误差。（ $\times$ ）

答案及解析：
在线性回归中，模型的目标是最小化预测值和真实值之间的平方误差（即平方损失函数），而不是绝对误差。

11. 下列关于深度学习的描述，哪个是不正确的？
A. 深度学习是机器学习的一个子领域。
B. 深度学习主要通过堆叠特征层来学习数据的内在规律。
C. 深度学习不等同于深度神经网络。
D. 深度学习在多个领域都有广泛应用。

答案及解析：C
深度学习是机器学习的一个子领域，它主要通过堆叠多层神经网络（深度神经网络）来学习数据的内在规律，并在多个领域都有广泛应用。深度学习通常等同于深度神经网络，因为它们都涉及多层网络结构。

12. 反向传播算法首次在哪位博士的论文中被提出？
A. Warren Maculloach
B. Paul Werbos
C. John Hopfield
D. Geoffrey Hinton

答案及解析：B
反向传播算法（Backpropagation）首次在Paul Werbos的博士论文中被提出，用于训练神经网络。该算法通过计算损失函数关于网络参数的梯度来更新网络参数，从而优化网络性能。

13. 神经网络发展的哪个阶段，深度学习开始大放异彩？
A. 20世纪40年代
B. 1980年代
C. 2000年代初
D. 2010年代至今

答案及解析：D
深度学习在2010年代至今开始大放异彩，这主要得益于计算能力的提升、大数据的积累以及深度学习算法和模型的发展。在此之前，神经网络的发展经历了多个阶段，但深度学习直到近十年才真正受到广泛关注和应用。

14. 反向传播算法在1986年由Geoffrey Hinton等人完善，并成功应用到神经网络的训练中。（ $\checkmark$ ）

答案及解析：
反向传播算法在1986年由Geoffrey Hinton等人完善，并成功应用到神经网络的训练中。该算法通过计算损失函数关于网络参数的梯度来更新网络参数，从而优化网络性能。

15. 在神经网络的发展历程中，Yann Lecun首次将反向传播算法应用于卷积神经网络。（ $\checkmark$ ）

答案及解析：
在神经网络的发展历程中，Yann Lecun首次将反向传播算法应用于卷积神经网络（CNN），这一工作为后续的深度学习研究和应用奠定了基础。

16. 深度学习的发展，特别是在计算机视觉领域的成功，推动了自动驾驶、自然语言处理等领域的发展。（ $\checkmark$ ）

答案及解析：
深度学习的发展，特别是在计算机视觉领域的成功，确实推动了自动驾驶、自然语言处理等领域的发展。深度学习模型能够处理复杂的图像和文本数据，并提取出有用的特征和信息，为这些领域的应用提供了强大的技术支持。

17. （多选）以下关于深度学习和神经网络描述正确的是（）
A. 深度学习是机器学习的一个研究方向
B. 人工神经网络来源于生物神经网络，两者的机理完全一致
C. 和传统机器学习一样，神经网络也利用神经元来学习样本特征
D. 神经网络是一类机器学习的总称，目前我们说的深度学习一般都特指深度神经网络

答案及解析：AD

A选项，深度学习是机器学习领域的一个研究方向，它通过堆叠特征层来实现对样本数据内在规律的学习，并实现更好的表达和信息获取。
B选项，神经网络只是借鉴了生物神经元的一些特征，例如激活机制，感知域等，但是它和生物神经元是不同，它是基于概率的数学模型。
C选项，神经网络也是一类机器学习方法的通称，它借鉴了生物神经元的一些基本特征，并利用神经元单元实现样本特征的学习。本项中，传统机器学习并非使用神经元进行学习。
D选项，借助于深度学习的优势，神经网络展现了其强大的学习能力和表达能力。今天我们所说的深度学习，基本上都是指深度神经网络。

18. （多选）在以下哪种情况下，使用线性回归模型是合适的？（）
A. 预测房价（给定房屋面积、位置等特征）
B. 判断邮件是否为垃圾邮件（给定邮件内容、发件人等特征）
C. 预测股票价格走势（给定历史价格、交易量等特征）
D. 对手写数字图像进行分类（0-9）

答案及解析：AC

选项A，预测房价是一个典型的回归问题，因为房价是一个连续的值，可以根据房屋面积、位置等特征进行预测。
选项B，判断邮件是否为垃圾邮件是一个二分类问题，应该使用分类模型如逻辑回归或softmax回归。
选项C，预测股票价格走势也是回归问题，因为股票价格是一个连续的值，可以根据历史价格、交易量等特征进行预测。
选项D，对手写数字图像进行分类是一个多分类问题，应该使用softmax回归或其他分类模型。

19.（多选）下列哪些场景可以使用Softmax回归？
A. 股票预测
B. 手写数字识别
C. 文本分类
D. 图像分割

答案及解析：BC

选项A，股票预测通常涉及连续值的预测，如股价的涨跌幅度，因此更适合使用回归模型，如线性回归或时间序列分析等，而Softmax回归是一个分类模型。
选项B，手写数字识别是一个典型的多类别分类问题，每个数字都可以看作是一个类别，因此可以使用Softmax回归。
选项C，文本分类也是多类别分类问题的一个应用，如将新闻文章分类为不同的主题或类别，Softmax回归同样适用。
选项D，图像分割是将图像划分为多个区域或对象的过程，这通常是一个像素级的分类问题，需要更复杂的模型，如卷积神经网络（CNN）等。

20. Softmax回归只能用于图像分类任务。（ $\times$ ）

答案及解析：
Softmax回归可以用于任何多类别分类问题，不仅仅是图像分类。例如，它也可以用于文本分类、音频分类等任务。

21. 在Softmax回归中，哪个函数用于将输出转换为概率分布？
A. Sigmoid函数
B. ReLU函数
C. Softmax函数
D. Tanh函数

答案及解析：C
Softmax函数用于将模型的原始输出（也称为logits）转换为概率分布。这个函数确保输出的所有概率之和为1，且每个概率都在0和1之间。

22. Softmax回归的预测结果是一个什么类型的数据？
A. 概率分布
B. 单一数值
C. 向量
D. 矩阵

答案及解析：A
Softmax回归的预测结果是一个概率分布，表示输入数据属于各个类别的概率。

23. 在多类别分类问题中，使用Softmax回归的优势是什么？
A. 可以处理连续值
B. 可以输出类别的置信度
C. 计算速度快
D. 不需要标签编码

答案及解析：B
Softmax回归不仅能够预测最可能的类别，还能提供关于每个类别的预测置信度。这有助于了解模型对于不同类别的判断有多确定。

24.（多选）在Softmax回归中，影响模型性能的因素有哪些？
A. 特征选择
B. 学习率
C. 迭代次数
D. 激活函数

答案及解析：ABC

选项A，选择合适的特征对于机器学习模型的性能至关重要。好的特征可以捕获数据的关键信息，从而提高模型的分类准确率。
选项B，学习率是模型训练中的一个重要超参数，它决定了模型在每次迭代中更新参数的步长。选择合适的学习率可以帮助模型更好地收敛，提高训练效果。
选项C，迭代次数决定了模型训练的轮数。足够的迭代次数可以确保模型充分学习数据中的规律，但过多的迭代次数可能导致过拟合。
选项D，在Softmax回归中，并没有显式的激活函数（如Sigmoid或ReLU）用于隐藏层。Softmax函数是在输出层使用的，用于将模型的输出转换为概率分布。因此，激活函数不是影响Softmax回归性能的因素。

25.（多选）使用交叉熵损失的好处有哪些？
A. 可以更好地衡量预测概率与真实概率之间的差异
B. 梯度计算简单
C. 对噪声数据鲁棒性强
D. 收敛速度快

答案及解析：AB

选项A，交叉熵损失函数是基于概率分布的度量方式，它可以更好地衡量预测概率与真实概率之间的差异，从而指导模型的训练。
选项B，交叉熵损失函数的梯度计算相对简单，这有助于在训练过程中高效地更新模型的参数。
选项C，虽然交叉熵损失函数在一定程度上对噪声数据具有鲁棒性，但这并不是其主要的优点或特性。
选项D，交叉熵损失函数并不直接决定模型的收敛速度，收敛速度更多地取决于模型的复杂性、数据的分布以及优化算法的选择等因素。

26. 在训练Softmax回归模型时，我们通常使用均方误差作为损失函数。（ $\times$ ）

答案及解析：
在训练Softmax回归模型时，我们通常使用交叉熵损失函数，而不是均方误差。均方误差通常用于回归问题，衡量预测值与真实值之间的平方误差。而交叉熵损失函数更适合于分类问题，特别是多类别分类问题。

27. 类别标签的One-hot编码是Softmax回归模型训练的必要步骤。（ $\checkmark$ ）

答案及解析：
在Softmax回归中，类别标签通常需要进行One-hot编码，以便模型可以处理多个类别。One-hot编码将每个类别标签转换为一个二进制向量，其中只有一个元素为1（表示该类别），其余元素为0。这样，模型就可以将每个类别的输出与对应的One-hot向量进行比较，并计算损失函数。

28. Softmax回归模型的性能可以通过调整学习率和迭代次数来改善。（ $\checkmark$ ）

答案及解析：
学习率和迭代次数是训练神经网络时常用的超参数，它们可以影响模型的性能。通过调整学习率，可以控制模型在每次迭代中更新参数的步长；通过调整迭代次数，可以控制模型训练的轮数。通过合理地调整这些超参数，可以优化模型的性能，提高分类准确率。

29. 对于Softmax损失函数来说，在进行预测时，它将类别概率最小的一类定义为预测目标，并将其作为预测结果进行输出。（ $\times$ ）

答案及解析：
一般来说，Softamax损失函数的输出节点和类别数量是一致的，每一个节点对应一个类别，在进行预测时，它会输出针对每个类别的预测概率，其中概率最大的一个类别为预测的最终类别。

30.（多选）下列多层感知机的参数，哪些对于网络训练的结果都具有较大的影响?
A. 初始值
B. 激活函数
C. 模型框架
D. 损失函数

答案及解析：ABCD
所有项对于模型的性能都有较大影响，任何一个环节的问题都可能会导致模型不收敛。

31.（多选）多层感知机在解决XOR问题时，需要考虑哪些因素？
A. 网络层数
B. 每层神经元数量
C. 激活函数
D. 输入数据的预处理

答案及解析：ABCD
选项A，由于XOR问题是一个线性不可分问题，单层感知机无法直接解决。因此，多层感知机通过引入隐藏层（至少一层）来增强模型的非线性表示能力，使得模型能够拟合XOR函数。所以，网络层数是解决XOR问题时的关键考虑因素。
选项B，每层神经元数量的选择也会影响多层感知机解决XOR问题的性能。过少的神经元可能无法捕捉到数据的复杂性，而过多的神经元则可能导致过拟合。通常，隐藏层的神经元数量需要根据具体问题和实验进行调整。
选项C，激活函数是神经网络中的非线性变换，它决定了神经元的输出。对于XOR问题，选择合适的激活函数（如Sigmoid、ReLU等）对于模型的训练效果至关重要。激活函数能够引入非线性因素，使得多层感知机能够拟合XOR这样的非线性函数。
选项D，输入数据的预处理通常包括数据标准化、归一化等操作，这些操作可以加速神经网络的训练过程并提高模型的性能。然而，在解决XOR问题时，由于输入数据本身是布尔值（0或1），通常不需要复杂的预处理步骤。但确保输入数据的正确性和格式的一致性仍然是必要的。

32.（多选）常见的激活函数有哪些？
A. Sigmoid
B. ReLU
C. Linear
D. Tanh

答案及解析：ABD
常见的激活函数包括Sigmoid、ReLU和Tanh。Linear函数实际上是线性变换，不属于激活函数范畴，因为它不引入非线性。

33.（多选）在设计神经网络时，以下哪些因素需要考虑？
A. 数据规模
B. 计算资源
C. 网络复杂度
D. 问题性质

答案及解析：ABCD
在设计神经网络时，需要综合考虑数据规模（决定网络大小和复杂度）、计算资源（限制网络训练和推理的速度和规模）、网络复杂度（包括层数和每层神经元数量）以及问题性质（如线性或非线性、分类或回归等）。

34.（多选）以下哪些技术或方法可以帮助减少神经网络的过拟合？
A. 正则化
B. 批量归一化
C. 增加网络层数
D. 使用ReLU激活函数

答案及解析：AB
正则化和批量归一化是常见的减少过拟合的技术或方法。增加网络层数并不直接减少过拟合，反而可能增加过拟合的风险。使用ReLU激活函数虽然可以引入非线性，但本身并不直接减少过拟合。

34.（多选）反向传播算法中，以下哪些信息需要传递？
A. 损失函数的梯度
B. 激活函数的梯度
C. 输入数据
D. 网络结构

答案及解析：AB
在反向传播算法中，需要传递的信息包括损失函数对网络参数的梯度（用于指导参数更新）以及激活函数的梯度（用于计算上一层参数的梯度）。输入数据和网络结构本身并不直接参与梯度的传递。

35. 神经网络中的激活函数必须是可导的。（ $\checkmark$ ）

答案及解析：
在神经网络中，我们使用反向传播算法来计算损失函数关于模型参数的梯度。为了计算这些梯度，我们需要对激活函数进行求导。因此，激活函数必须是可导的。

36.（多选）梯度下降法的主要步骤包括哪些？
A. 计算损失函数
B. 计算梯度
C. 更新参数
D. 预测输出

答案及解析：ABCD
梯度下降法的主要步骤包括计算损失函数（衡量模型预测与实际结果之间的差异）、计算损失函数对网络参数的梯度、以及根据梯度更新网络参数。预测输出不是梯度下降法的主要步骤。

37.（多选）在神经网络中，以下哪些步骤是必须的？
A. 正向传播
B. 反向传播
C. 梯度下降
D. 损失函数设计

答案及解析：ABCD
在神经网络训练中，正向传播用于计算预测值，反向传播用于计算损失函数对网络参数的梯度，梯度下降用于根据梯度更新网络参数，而损失函数设计则是衡量模型性能的关键。

38.（多选）以下哪些是多层感知机（MLP）的关键因素？
A. 网络结构
B. 损失函数
C. 正向传播
D. 梯度下降法

答案及解析：ABCD
多层感知机（MLP）作为深度神经网络（DNN）的基础算法，其关键因素包括网络结构（输入层、隐藏层和输出层）、损失函数（衡量预测与实际结果之间的差异）、正向传播（信号从输入层到输出层的传递过程）以及梯度下降法（用于求解各层的系数关系矩阵W和偏倚向量b）。

39.（多选）激活函数的作用包括哪些？
A. 引入非线性
B. 控制输出范围
C. 加快训练速度
D. 减少过拟合

答案及解析：AB
激活函数的主要作用是引入非线性，使得神经网络可以更好地逼近各种复杂的非线性函数关系，以及控制输出范围（如Sigmoid和Tanh将输出限制在特定范围内）。激活函数并不直接加快训练速度或减少过拟合。

40. 下列哪个函数不是常见的激活函数？
A. Sigmoid
B. ReLU
C. Tanh
D. Linear

答案及解析：D
Linear函数（即f(x) = x）是线性的，不是常见的激活函数，因为它不会引入非线性。而Sigmoid、ReLU和Tanh都是常见的非线性激活函数。

41. 在神经网络中，通常选择多少层的MLP？
A. 固定为两层
B. 固定为三层
C. 根据具体问题决定
D. 越多层越好

答案及解析：C
在神经网络中，MLP的层数选择通常取决于具体的问题。不同的问题可能需要不同复杂度的网络来解决。因此，根据具体问题决定是通常的做法。

42. Sigmoid激活函数的输出范围是什么？
A. $(0, 1)$
B. $(-1, 1)$
C. $(0, \infin)$
D. $(-\infin, \infin)$

答案及解析：A
Sigmoid函数的输出范围是 $(0, 1)$ ，它可以将任意输入映射到0到1之间的输出。

43. 激活函数的主要作用是什么？
A. 将输入信号放大
B. 将线性函数转换为非线性函数
C. 标准化输出值
D. 减少计算复杂度

答案及解析：B
激活函数的主要作用是将神经元的线性输入转换为非线性输出，从而增强神经网络的表示能力。因此，将线性函数转换为非线性函数是激活函数的主要作用。

44. 多层感知机（MLP）中，（）元素是构成神经网络的基本结构。
A. 神经元
B. 激活函数
C. 损失函数
D. 梯度下降法

答案及解析：A
多层感知机（MLP）是由多个神经元组成的，每个神经元都有输入、输出和激活函数。因此，神经元是构成MLP的基本结构。

45.（多选）下列函数中，属于感知机所使用的激活函数是（）。
A. 修正线性单元
B. 分段函数
C. 阶跃函数
D. Sigmoid函数

答案及解析：BC
以神经元形式表示感知机时，可以理解其激活函数为阶跃函数，阶跃函数也是一个以0为分割阈值的分段函数，如下所示：
$y = \begin{cases} 0 & ,W^T+b \leq 0 \\ 1 & ,W^T+b > 0 \\ \end{cases}$ 。
将其表示为神经网络形式时，可以将其写为：
$y = f(z), z = w^T+b, f(x) = \begin{cases} 0 & ,x \leq 0 \\ 1 & ,x > 0 \\ \end{cases}$

46. Sigmoid激活函数的输出范围在(-1, 1)之间。（ $\times$ ）

答案及解析：
Sigmoid激活函数的输出范围在(0, 1)之间，而不是(-1, 1)。它将任意输入映射到0和1之间的值，这使得它特别适合于需要概率输出的任务，如二分类问题。

47. 激活函数的作用是将线性函数转换为非线性函数。（ $\checkmark$ ）

答案及解析：
激活函数在神经网络中扮演着关键角色，它们将神经元的加权输入转换为输出，并引入非线性。这使得神经网络能够学习和表示复杂的非线性关系。

48. 在多层感知机中，隐藏层的层数和每层的神经元数量可以随意选择。（ $\times$ ）

答案及解析：
虽然多层感知机允许我们选择隐藏层的层数和每层的神经元数量，但这些选择通常需要根据具体问题和数据进行调整。过多的层或神经元可能导致过拟合，而过少的层或神经元可能导致欠拟合。

49. 损失函数用于衡量模型的预测结果与真实结果之间的差距。（ $\checkmark$ ）

答案及解析：
损失函数是机器学习中的一个核心概念，它衡量了模型对训练数据的预测结果与真实结果之间的差距。通过最小化损失函数，我们可以训练模型以改进其性能。

50. 在多层感知机中，哪个步骤用于计算网络的输出？
A. 前向传播
B. 反向传播
C. 梯度下降
D. 损失函数优化

答案及解析：A
在多层感知机中，前向传播是用于计算网络输出的步骤。输入数据通过每一层神经元，经过激活函数的非线性转换，最终得到输出层的输出。

第5章 深度前馈神经网络 课堂互动 隐藏答案 | 返回首页