【NLP 10、优化器 ① SGD 随机梯度下降优化器】

2025/2/21 3:29:41 来源：https://blog.csdn.net/m0_73983707/article/details/144298710 浏览: 次关键词：【NLP 10、优化器 ① SGD 随机梯度下降优化器】

目录

一、定义

二、什么是梯度下降

三、SGD的工作原理

四、SGD的优化公式（更新规则）

五、SGD的优缺点

优点

缺点

六、如何选择学习率

七、使用SGD优化器训练一个简单的线性回归模型

祝你

随时攥紧偶然

永远拥有瞬间

—— 24.12.6

一、定义

随机梯度下降(Stochastic Gradient Descent，SGD)是一种常用的优化算法，用于训练机器学习模型特别是神经网络。它通过迭代地更新模型参数来最小化损失函数

二、什么是梯度下降

梯度下降是一种优化算法，通过计算损失函数对模型参数的梯度(导数)，然后沿着梯度的反方向更新参数，以使损失函数逐渐减小

SGD随机梯度下降优化器：在每一步更新参数时，仅使用一个样本的梯度

三、SGD的工作原理

1.随机选择一个样本(或一个小批量样本)

2.计算该样本(或小批量样本)的梯度

3.按照梯度的反方向更新模型参数

4.重复上述步骤，直到满足停止条件(如达到最大迭代次数或损失函数收敛)

四、SGD的优化公式（更新规则）

假设我们有一个损失函数 L(θ)，其中 θ 是模型参数。SGD的更新规则为：

其中：

θt 是第 t 次迭代时的参数
η 是学习率，控制每次更新的步长
∇L(θt) 是损失函数在 θt 处的梯度

五、SGD的优缺点

优点

计算效率高，因为每次只使用一个样本或小批量样本，减少了计算量
可以快速收敛到损失函数的最小值，尤其是在损失函数不平整时
有助于逃避免局部最小值

缺点

由于噪声较大，损失函数的下降过程可能不稳定
需要仔细选择学习率，否则可能发散或收敛过慢

六、如何选择学习率

固定学习率：在整个训练过程中使用一个固定的学习率
学习率衰减：随着训练的进行，逐渐降低学习率
自适应学习率：如Adam、RMSprop等优化器，可以自动调整学习率

七、使用SGD优化器训练一个简单的线性回归模型

Learned parameters：优化后的参数

import numpy as np# 使用SGD训练一个简单的线性回归模型# 生成一些伪数据
np.random.seed(0)
X = np.random.rand(100, 1)
y = 2 + 3 * X + np.random.rand(100, 1)# 初始化参数
theta = np.random.randn(2, 1)
learning_rate = 0.01
iterations = 1000# 添加偏置项
X_b = np.c_[np.ones((100, 1)), X]for i in range(iterations):# 随机选择一个样本idx = np.random.randint(0, 100)xi = X_b[idx:idx + 1]yi = y[idx:idx + 1]# 计算预测值predictions = np.dot(xi, theta)# 计算梯度gradient = 2 * xi.T.dot(predictions - yi)# 更新参数theta -= learning_rate * gradientprint("Learned parameters:")
print(theta)