【人工智能基础06】人工神经网络（练习题）：神经网络的计算、激活函数的选择与神经网络的退化

文章目录

- 1. 基于神经网络计算心理健康程度
- 2. 添加激活函数的神经网络计算
- 3. 使用神经网络预测小胖是否会变胖
- 4. 激活函数选择的讨论
- 5. 神经网络的设计
- 6. 深度线性模型的表达能力=线性模型
- 7. 神经网络退化

主要讨论的内容

什么是人工神经网络，相关计算
反向传播算法的原理，并会计算
常用的优化器有哪些，了解几个典型的优化器（4种）
权值初始化的方法有哪些以及适应场景？（Xavier、Kaiming）
权值共享的基本原理是什么？

1. 基于神经网络计算心理健康程度

在这里插入图片描述

其实就是计算矩阵相乘？
注意是线性层的转置

2. 添加激活函数的神经网络计算

在这里插入图片描述

ReLU函数数学表达式：

$ReLU(x)=\max(0,x)$
当(x > 0)时， $R e LU (x) = x$ ；当 $x\leqslant0$ 时， $R e LU (x) = 0$ 。

注意：是矩阵计算之后再叠加ReLU函数。

3. 使用神经网络预测小胖是否会变胖

在这里插入图片描述

4. 激活函数选择的讨论

在这里插入图片描述

在神经网络中，优化主要通过反向传播算法来实现。反向传播算法依赖于计算损失函数对网络中各参数的梯度，然后根据梯度来更新参数，以最小化损失函数。

Sigmoid函数的问题

Sigmoid函数的表达式为 $\frac{1}{1 + e^{-x}}$ ，其导数为 $y^{'} = y (1 - y)$ 。当 $x$ 的值远离0时（即 $x$ 很大或很小），Sigmoid函数的输出会趋近于0或1。此时，Sigmoid函数的导数 $y^{'}$ 会趋近于0。
在反向传播过程中，梯度是通过链式法则逐层传递的。如果某一层的激活函数的导数非常小，那么在反向传播时，梯度会变得更小，导致梯度消失问题。这会使得网络的训练变得非常缓慢，甚至无法收敛。

ReLU函数的优势

ReLU函数的表达式为 $y=\max(0,x)$ 。当(x > 0)时，ReLU函数的导数为1；当 $\leq 0$ 时，导数为0。
ReLU函数的梯度在(x>0)的区域非常容易计算（恒为1），这使得在反向传播过程中，梯度能够较为稳定地传递，不会出现梯度消失的问题。这对于优化算法来说是非常方便的，能够加快网络的训练速度。

综上所述，从优化的角度来看，由于Sigmoid函数在远离0点时导数非常小，会影响优化过程，而ReLU函数的梯度容易计算，对优化过程非常方便，所以在实际应用中人们会优先选择ReLU作为激活函数，而不是Sigmoid。

5. 神经网络的设计

在这里插入图片描述

分析：这个问题描述了一种针对已经训练好的神经网络 $f$ 的攻击场景。给定一个类别为 $y$ 的图像 $x$ ，通过优化一个小的扰动 $\delta$ ，使得 $x+\delta$ 在视觉上与 $x$ 几乎相同，但神经网络 $f$ 却错误地将 $x^{'}$ 分类为非 $y$ 类别。问题询问这种精心构造的 $x^{'}$ 是否会对神经网络的准确性产生负面影响。

肯定是弊端
对神经网络准确性的破坏：在实际应用中，神经网络的准确性至关重要。例如在图像分类中，如果攻击者能够找到这样的 $\delta$ ，那么他们可以轻易地误导神经网络做出错误的分类。
实际应用中的危害
自动驾驶场景：在自动驾驶应用中，如果攻击者对交通标志进行微小的、人眼难以察觉的修改（相当于找到合适的 $\delta$ ），可能会导致自动驾驶汽车误判交通标志，从而做出错误的驾驶决策，甚至引发交通事故。
安防监控场景：在安防监控领域，如果攻击者能够对监控图像进行类似的修改，可能会使监控系统无法正确识别人员或物体，导致安防漏洞。

可能不是弊端（在某些特定场景下）从研究和防御的角度
如果从研究和防御的角度来看，这种现象也可以促使研究人员深入研究对抗攻击和防御机制。例如，研究人员可以通过研究这种攻击方式，开发出更强大的防御算法来提高神经网络的鲁棒性。
这种攻击方式可以被看作是对神经网络的一种压力测试，通过发现这些潜在的漏洞，可以促使技术不断进步，使神经网络在面对各种攻击时更加稳健。

6. 深度线性模型的表达能力=线性模型

在这里插入图片描述

7. 神经网络退化

在这里插入图片描述

神经网络的基本结构：一般的神经网络由输入层、若干隐藏层和输出层组成。每一层都有若干神经元，神经元之间通过权重连接。输入数据经过多层的加权计算和激活函数的变换，最终得到输出。

Logistic回归是一种用于二分类问题的线性模型。它的数学表达式为 $\frac{1}{1 + e^{-(w^T x + b)}}$ ，其中 $w$ 是权重向量， $x$ 是输入向量， $b$ 是偏置项。这个表达式中的 $\frac{1}{1 + e^{-z}}$ 部分就是Sigmoid函数。

当神经网络只有一层且激活函数为Sigmoid函数时：设输入为 $x$ ，权重为 $w$ ，偏置为 $b$ ，那么这一层的输出就是 $y=\sigma(w^T x + b)$ ，其中 $\sigma$ 是Sigmoid函数。这与Logistic回归的表达式完全相同。也就是说，这种情况下的神经网络实际上就是在做Logistic回归。