机器学习常见激活函数

2025/3/14 22:38:43 来源：https://blog.csdn.net/m0_63925226/article/details/146209104 浏览: 次关键词：机器学习常见激活函数

激活函数的作用

引入非线性因素

若神经网络仅由线性层构成，那么无论网络的层数有多少，其整体的输出依然是输入的线性组合。这样的网络只能拟合线性函数，在处理复杂的非线性问题（如语音识别、图像分类）时能力十分有限。激活函数的加入可以打破这种线性限制，使神经网络能够学习并表示任意复杂的非线性函数。例如，在一个简单的两层神经网络中，如果没有激活函数，那么输出只是输入的线性变换。但加入了 Sigmoid 激活函数后，网络就能学习到复杂的非线性模式。

特征映射与数据变换

激活函数可以将输入数据映射到一个新的特征空间，使得数据在这个新空间中更易于被神经网络处理。不同的激活函数具有不同的映射特性。例如，ReLU（Rectified Linear Unit）激活函数可以将负数输入置为 0，正数输入保持不变，这样可以突出数据中的正向特征，减少数据的稀疏性，同时加快神经网络的训练速度。

控制神经元的激活状态

激活函数可以控制神经元的激活状态，决定神经元是否要对输入进行响应。以 Sigmoid 函数为例，它的输出范围在 0 到 1 之间，可以看作是神经元的激活概率。当输入信号较弱时，Sigmoid 函数的输出接近 0，意味着神经元处于未激活状态；当输入信号较强时，输出接近 1，神经元被激活。这种机制可以帮助神经网络筛选出重要的输入信息，忽略不重要的信息。

梯度传递与模型训练

在神经网络的反向传播过程中，激活函数的导数决定了梯度的传递情况。合适的激活函数能够保证梯度在网络中有效地传播，避免出现梯度消失或梯度爆炸的问题。例如，ReLU 激活函数的导数在正数区域恒为 1，这使得梯度在传播过程中不会出现衰减，从而有助于缓解梯度消失问题，提高模型的训练效率。