nn.LayerNorm()：对输入张量的最后一个维度（特征维度）进行归一化

2025/4/22 9:56:07 来源：https://blog.csdn.net/asdfg1258963/article/details/147396407 浏览: 次关键词：nn.LayerNorm()：对输入张量的最后一个维度（特征维度）进行归一化

nn.LayerNorm 是 PyTorch 中的一个归一化层，用于对输入数据进行归一化处理。通常用于处理序列数据或任何需要在特征维度上进行归一化的场景。

1. 张量的维度

在深度学习中，张量（Tensor）是一个多维数组，用于表示数据。张量的维度通常有不同的含义，具体取决于应用场景。例如：

二维张量：形状为 (batch_size, feature_size)，通常用于表示一批样本的特征。
三维张量：形状为 (batch_size, sequence_length, feature_size)，通常用于表示一批序列数据（如自然语言处理中的句子）。
四维张量：形状为 (batch_size, channels, height, width)，通常用于表示一批图像数据。

2. 特征维度

在上述张量中，“特征维度”通常是指最后一个维度，它表示每个样本或序列元素的特征向量。例如：

对于二维张量 (batch_size, feature_size)，特征维度是 feature_size。
对于三维张量 (batch_size, sequence_length, feature_size)，特征维度是 feature_size。
对于四维张量 (batch_size, channels, height, width)，特征维度是 channels。

3. 归一化

归一化是一种数据预处理方法，目的是将数据转换为具有零均值和单位方差的分布。归一化的公式如下：

$\text{Norm}(x) = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$

其中：

$x$ 是输入数据。
$\mu$ 是输入数据的均值。
$\sigma^2$ 是输入数据的方差。
$\epsilon$ 是一个小的常数，用于防止除以零。

4. 对最后一个维度（特征维度）进行归一化

当我们说“对输入张量的最后一个维度（特征维度）进行归一化”时，意味着我们对每个样本或序列元素的特征向量进行归一化。具体来说：

二维张量：对每个样本的特征向量进行归一化。
三维张量：对每个序列元素的特征向量进行归一化。
四维张量：对每个像素的通道值进行归一化。

eg:

假设有一个三维张量，形状为 (2, 3, 4)，表示 2 个样本，每个样本有 3 个序列元素，每个序列元素有 4 个特征。我们使用 nn.LayerNorm 对最后一个维度（特征维度）进行归一化：

import torch
import torch.nn as nn# 输入张量
input_tensor = torch.randn(2, 3, 4)  # (batch_size, sequence_length, feature_size)# 创建 LayerNorm 层
layer_norm = nn.LayerNorm(normalized_shape=4)  # 对最后一个维度进行归一化# 应用 LayerNorm
normalized_tensor = layer_norm(input_tensor)
print(normalized_tensor)

在这个例子中：

输入张量的形状是 (2, 3, 4)。
normalized_shape=4 表示我们对最后一个维度（特征维度）进行归一化。
LayerNorm 会分别对每个序列元素的特征向量进行归一化，计算每个特征向量的均值和方差，并进行归一化处理。

具体步骤

计算均值和方差：对每个序列元素的特征向量计算均值和方差。
- 对于第一个样本的第一个序列元素，计算其 4 个特征的均值和方差。
- 对于第一个样本的第二个序列元素，计算其 4 个特征的均值和方差。
- 依此类推。
归一化：使用上述公式对每个特征向量进行归一化。
- 归一化后的特征向量具有零均值和单位方差。
应用缩放和偏移（可选）：如果 elementwise_affine=True，还会对归一化后的特征向量进行缩放和偏移。