深度学习——AE、VAE

🌺历史文章列表🌺

机器学习——损失函数、代价函数、KL散度
机器学习——特征工程、正则化、强化学习
机器学习——常见算法汇总
机器学习——感知机、MLP、SVM
机器学习——KNN
机器学习——贝叶斯
机器学习——决策树
机器学习——随机森林、Bagging、Boosting、集成学习
机器学习——Boosting中常用算法（GBDT、XGBoost、LightGBM）迭代路径
机器学习——聚类算法（Kmeans、GMM-使用EM优化）
机器学习——降维

提前预读：图像生成发展起源：从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer

文章目录

自编码器（Autoencoder, AE）
变分自编码器（Variational Autoencoder, VAE）详解
VAE 的结构组成
VAE 相比 AE 的优化和改进
概率分布引入
重参数化技巧
KL 散度正则化

AE 与 VAE 的主要区别
补充
为什么需要重参数化技巧？

自编码器（Autoencoder, AE）

自编码器是一种无监督学习模型，主要用于数据的降维、特征提取或数据去噪。它由两个主要部分组成：

编码器（Encoder）：将输入数据压缩成低维的隐藏表示（即编码），这一部分负责从原始数据中提取特征。假设输入是 $X$ ，编码器的目标是找到一种映射 $f (X) = Z$ ，其中 $Z$ 是低维空间的表示。
解码器（Decoder）：将低维的隐藏表示还原回原始数据的近似值，解码器试图从编码 Z 中重建输入 X。这一部分的映射是 $\hat{X}$ ，其中 $\hat{X}$ 是还原后的数据。

AE 的目标是让重构的 $\hat{X}$ 尽量接近输入 $X$ ，即最小化 重构误差（通常采用均方误差 MSE 或其他损失函数）。AE 的训练过程是基于无标签数据，通过反向传播和梯度下降来更新编码器和解码器的权重。

优点：

可以用于数据降维，类似于 PCA，但更适合处理非线性数据。
用于图像去噪、异常检测等任务。

缺点：

学到的低维表示可能对生成新样本的能力有限，只是压缩信息，而不具备对输入数据的生成建模能力。
通常不适合处理概率问题，无法给出潜在变量的分布信息。

变分自编码器（Variational Autoencoder, VAE）详解

VAE（Variational Autoencoder） 是一种概率生成模型，它结合了自编码器（Autoencoder，AE）的结构和概率分布，不仅能对输入数据进行重构，还能够生成与训练数据相似的全新样本。它的主要特点是在潜在空间中引入概率分布，使得它可以通过对潜在空间的采样来生成新数据。相比于AE，VAE 引入了概率分布和生成建模，使其具备更强的生成能力。

VAE 的结构组成

VAE 与 AE 类似，也由 编码器 和 解码器 组成，但它对编码部分做了关键的改进：

编码器（Encoder）

在 AE 中，编码器直接输出一个固定的低维表示 $Z$ ，即输入数据通过一系列神经网络变换得到一个低维特征向量。
在 VAE 中，编码器输出的是输入 $X$ 对应的潜在变量的均值 $\mu$ 和方差 $\sigma^2$ ，即输入数据被映射为一个潜在空间的分布（通常假设是正态分布）。

数学表达式为：

$\sim \mathcal{N}(\mu(X), \sigma^2(X))$
- 其中 Z 是从该正态分布中采样的潜在变量。

重参数化技巧（Reparameterization Trick）：VAE 需要在潜在空间中进行采样，以便生成不同的样本。然而，采样操作本身是非确定性的，这导致无法对整个网络进行梯度传递。为了让梯度能够通过随机采样传播，VAE 引入了重参数化技巧。

重参数化技巧通过将随机变量分解为可导的确定性部分和独立的随机噪声来解决这个问题，以便在训练过程中通过反向传播来优化网络参数。具体来说，它将 𝑧 表示为：

$\mu + \sigma \cdot \epsilon$

其中：
- $\mu$ 和 $\sigma$ 是编码器输出的均值和标准差（它们是可导的）。
- $\epsilon \sim \mathcal{N}(0,1)$ 是一个服从标准正态分布的随机噪声。
𝑧 的生成过程可以视为一个确定性计算过程（均值和标准差）加上一个独立的随机部分，重参数化技巧确保了模型的可导性。

重参数化，使得采样过程变成了以下步骤：
- 从标准正态分布中采样噪声 ϵ。
- 使用编码器输出的均值 𝜇和标准差 𝜎 对采样值进行线性变换，生成 $Z$

重参数化技巧 将采样过程改写为可微分的部分（编码器输出的均值和标准差）和不可微的标准正态噪声之和，使得梯度能够通过随机采样传播。这使得 VAE 可以在训练过程中通过反向传播对编码器和解码器进行优化。

在VAE 中，采样是必不可少，用于在潜在空间中生成新的样本，这个过程是不确定的。
在AE中，编码器将输入数据压缩到潜在空间，生成一个固定的潜在表示（通常是一个固定维度的向量）。解码器随后利用这个潜在表示重构出原始数据。这一过程是确定性的，不需要在潜在空间中进行采样。

解码器（Decoder）：解码器部分与 AE 相似，接收潜在变量 $Z$ ，然后将其映射回原始数据空间，生成与输入数据相似的重构数据 $\hat{X}$ 。
损失函数
VAE 的损失函数不仅包含重构误差，还引入了 KL 散度，用于衡量潜在分布与先验分布（通常是标准正态分布之间的差异）。
- 重构损失（Reconstruction Loss）：度量解码器重构输入的能力。与 AE 类似，VAE 也通过最小化输入数据与重构数据之间的误差来训练模型。常用的重构损失是均方误差（MSE）或交叉熵损失（CE），根据具体数据类型选择。
- KL 散度（Kullback-Leibler Divergence, KL Divergence）：衡量编码器输出的潜在分布 $q (Z ∣ X)$ 与指定的先验分布（通常假设是标准正态分布）之间的差异，鼓励潜在空间分布接近于先验分布，从而使得模型能够从该潜在空间进行采样生成新数据。
- 总损失函数
  $\mathcal{L}_{\text{VAE}} = \mathbb{E}_{q(z|x)}\left[\log p(x|z)\right] - D_{KL}\left(q(z|x) \parallel p(z)\right)$
  其中：
  - $\mathbb{E}_{q(z|x)}\left[\log p(x|z)\right]$ ：重构误差项。鼓励解码器生成尽可能与输入数据相似的样本。
  - $D_{KL}\left(q(z|x) \parallel p(z)\right)$ ：KL 散度项。确保潜在空间结构化和生成的多样性。

VAE 相比 AE 的优化和改进

VAE 在 AE 的基础上进行了几个重要的优化和改进，其目的在于增强模型的生成能力，并为潜在空间提供更好的结构：

概率分布引入

AE 直接将输入映射到一个固定的低维表示，不能很好地表达数据之间的变异性。VAE 改进了这一点，编码器输出的是潜在空间的均值和方差，潜在空间中的每一个点都代表了数据的一个可能变体，使得该模型具有生成多样性。

优化目的：引入概率分布后，模型能够通过在潜在空间中进行随机采样生成多样化的样本，而不仅仅是对输入数据的压缩和重构。

重参数化技巧

由于潜在变量是通过从分布中采样得到的，普通的 AE 无法通过采样过程来传递梯度，导致无法直接训练生成模型。VAE 通过引入重参数化技巧，使得采样过程可以通过梯度下降优化模型。

优化目的：通过重参数化，VAE 可以对潜在分布进行更好的学习和优化，进而提高生成数据的质量。

KL 散度正则化

AE 只关注数据重构，容易导致潜在空间缺乏结构，导致生成新数据时效果较差。VAE 通过最小化编码分布与先验分布的 KL 散度，使得潜在空间有更好的组织结构。这样的正则化项迫使潜在空间接近标准正态分布，从而确保从潜在空间中采样能够生成合理的新样本。

优化目的：通过 KL 散度的引入，VAE 不仅可以对训练数据进行重构，还可以生成与训练数据分布一致的新样本，潜在空间更具结构化，生成效果更好。

AE 与 VAE 的主要区别

AE 和 VAE 在结构、目的和优化方式上存在多个重要区别：

特性	AE	VAE
编码器输出	固定的低维向量（确定性的表示）	隐藏变量的均值 (\mu) 和方差 (\sigma^2)（表示潜在空间的分布）
潜在空间	没有明确的分布假设	假设潜在空间遵循某种概率分布（通常为正态分布）
解码器	从固定低维向量生成输入数据的近似	从潜在变量的分布中采样，再通过解码器生成输入数据的近似
损失函数	仅有重构损失，最小化输入数据与重构数据的差异	重构损失 + KL 散度，既保证数据重构效果，又保证潜在空间的分布合理
目的	数据降维、特征提取或数据去噪	生成新数据（如图像生成、文本生成等），同时保留对输入数据的重构能力
生成新数据的能力	无法直接生成新数据	可以通过在潜在空间中采样生成与训练数据相似的全新数据