从扩散模型开始的生成模型范式演变--DDPM

文章目录

引言
前置知识
DDPM是在学什么？
加噪过程的慢与快
无中生有的目标分布
看似巧合的损失函数

引言

在讨论DDPM之前，我们要先对生成模型有一个认识，何为生成模型？从“生成”二字出发，生成模型肯定要能生成样本，并且要有多样性、创新性。模型只有从训练数据中学习到数据分布，生成时才能采样出样本。所以，生成模型是对训练数据分布建模的模型。既然说到分布，必然和概率挂钩，故DDPM全称是去噪扩散概率模型。

往往谈到深度学习，都会将其视为一个黑盒子，缺乏可解释性；但有时也确实不用深究其到底是如何学习到知识的，一种很淳朴的思想就是：哪个环节确实，就通过深度学习把它学习出来，最终实现目的。比如，缺一个分类器，就搜集数据训练一个；想要有一个模型生成图片，还是搜集数据训练一个；当然，这是一种极简的抽象，但至少在生成模型训练过程中很适用。当然，损失函数设计则是保证训练过程有效的重点。

前置知识

本系列文档是对生成模型范式演变进行分析，必然会涉及到大量的公式推导和演算，很多知识我们基本都已遗忘，主要是关于概率论，在此进行一个简单的汇总阐述：

马尔可夫过程：只用记住当前状态只依赖于前一状态，只与前一状态有关
高斯分布/正太分布：一种连续概率分布，记为 $\sim N(\mu, \sigma^2I)$
- 均值 $\mu$ :：分布的中心点，决定了分布的对称中心
- 标准差 $\sigma$ ：决定了分布的宽度，标准差越大，数据的分散程度越高，曲线越平缓
- 概率密度函数： $f(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})$
标准正太分布：均值 $\mu$ 为0，标准差 $\sigma$ 为1的正太分布
概率密度函数/PDF：描述连续随机变量的概率分布，表征随机变量在不同值上出现的相对可能性；积分可以计算出随机变量落在某个区间内的概率
- $\int f(x)dx = 1$
- $\le X \le b) = \int^b_a f(x)dx$ ：表示随机变量 $X$ 落在 $[a, b]$ 之间的概率
联合概率：描述两个或多个随机变量同时发生的概率；对于两个随机变量 $X$ 和 $Y$ ,它们的联合概率分布被记作 $P (X, Y)$
- $P (X, Y) = P (X ∣ Y) P (Y) = P (Y ∣ X) P (X)$
- $P (X, Y, Z) = P (X ∣ Y, Z) P (Y, Z) = P (X ∣ Y, Z) P (Y ∣ Z) P (Z)$
边缘概率：当一个概率分布涉及两个或多个随机变量时,对某一个(或几个)随机变量进行"边缘化"处理,得到该(些)随机变量本身的概率分布
- 假设有两个随机变量 $X$ 和 $Y$ ,它们的联合概率分布为 $P (X, Y)$ ，那么 $X$ 的边缘概率分布就是 $P (X) = Σ P (X, Y)$ ，也就是将 $Y$ 从联合概率分布中"边缘化"或"积出"而得到的 $X$ 自身的概率分布
期望：表示随机变量的加权平均值：连续随机变量 $\int x f(x) dx$ ， $E (X, Y) = E (X) * E (Y)$
KL散度：表征两个概率分布差异的一种方式，描述一个概率分布相对于另一个概率分布的“信息损失”或“距离”，也可以简单理解为相似性
- 对于两个连续概率分布 $P (x)$ 和 $Q (x)$ （在相同的定义域上）, 从分布 $Q$ 到分布 $Q$ 的KL散度 D_KL(P||Q) 定义为: $D_{KL}(P||Q) = ∫ p(x) \log(p(x) / q(x)) dx$
  - 积分是在 $P (x)$ 的定义域上进行的
  - $P (x)$ 是真实的概率分布
  - $Q (x)$ 是近似或模型概率分布
- KL散度是非负的,且当且仅当 $P (x) = Q (x)$ 时等于0
- KL散度是非对称的,即 $D_{KL}(P||Q) ≠ D_{KL}(Q||P)$
- KL散度在机器学习中用于判断模型的拟合程度,如最大似然估计；最小化KL散度等同于最大化似然函数
- 对于两个单一变量的高斯分布 $P$ 和 $Q$ ， $D_{KL}(P||Q) = \log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac{1}{2}$
重参数化：若需要从 $N(\mu, \sigma^2I)$ 中采样，可以先从标注正太分布 $N (0, 1)$ 中采样一个值，记为 $z$ ，在通过 $\sigma * z + \mu$ 得到 $N(\mu, \sigma^2I)$ 分布中的样本。这样做，可以使得模型训练过程在遇到分布时是连续的，通过对 $\sigma$ 和 $\mu$ 预测，实现对分布的学习。

DDPM是在学什么？

在这里插入图片描述

看过DDPM论文或了解过扩散模型的读者应该对上图都不陌生，该图是DDPM论文中对扩散模型过程的直观描述。在DDPM中， $X_0$ 为目标分布， $X_T$ 是通过对 $X_0$ 中数据进行T步加噪后的分布，可成为先验分布。从右到左，是加噪过程，或称为前向过程/正向过程，每一步对上一步随机增加一点噪声，经过T步后，原始图片完全变成一个噪声分布，一般假设是一个标准正太分布，这一过程可由条件概率 $q(x_t|x_{t-1})$ 表征，是一个马尔可夫过程， $x_t$ 只与 $x_{t-1}$ 有关。

生成过程，是去噪过程，或称为逆向过程，是从随机噪声出发，一步步减少噪声，即从 $X_T$ 到 $X_0$ 的过程，即上图中从左至右。如果我们现在只有一批图片数据，从认知上来讲，从随机噪声生成图片是不可能的，此时就用到了引言中提到的，缺什么，就用深度学习去训练。生成模型的建模目标就是“如何基于 $x_t$ 预测出 $x_{t-1}$ ”，即一个条件概率分布，记为 $p_{\theta}(x_{t-1}|x_t)$ ，在深度学习公式推导中 $\theta$ 一般表征与训练模型相关的项。

现在我们知道了，DDPM的学习目标就是通过模型训练过程对分布 $p_{\theta}(x_{t-1}|x_t)$ 进行建模。

加噪过程的慢与快

从真实数据分布采样的数据点 $x_0 \sim q(x_0)$ ，以T步向样本中逐步添加少量噪声，产生一系列的噪声样本 $x_1,x_2,...,x_T$ 。每一步加噪过程其实就是随机从一个高斯分布中采样噪声，然后与上一步数据相加，每一步噪声添加的分布方差由 $\beta_1,\beta_2,...,\beta_T$ 控制，在DDPM中 $\beta_i$ 是超参数。前面提到，加噪过程符合马尔可夫过程，且因为每一步实在上一步数据中增加少量噪声，故任务每一步数据都符合高斯分布，即有以下公式：
$q(x_t|x_{t-1}) = N(x_t|\sqrt{1-\beta_t},\beta_t I) \tag1$
其中 $\{\beta_i \in (0,1)\}_1^T$ ，且 $\beta_1<\beta_2<,...,<\beta_T$

上述公式其实可以直接理解，即如果每步只是增加少量噪声，就相当于当前步 $x_t$ 是由前一步 $x_{t-1}$ 和少量噪声组成，即 $x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{\beta_t} \epsilon$ ，其中 $\epsilon \sim N(0,I)$ 。随着步数t增加，数据 $x_t$ 逐渐丢失其可区分的特征，最终当T足够大时， $x_T$ 等价于各项同性的高斯分布。DDPM中T为1000，一步一步计算是慢的，但基于马尔可夫过程，使用重参数化技巧，能实现一步到位，即给定 $x_0$ 和步数 $t$ ，能直接计算出 $x_t$ 。

基于公式(1)，记 $\alpha_t = 1 - \beta_t, \bar{\alpha}_t=\prod_1^t \alpha_i$ ,有：
$\begin{align*} x_t & = \sqrt{1-\beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1} \\ & = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \epsilon_{t-1} \\ & = \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}} \epsilon_{t-2})+ \sqrt{1-\alpha_t} \epsilon_{t-1} \\ & = \sqrt{\alpha_t \alpha_{t-1}}x_{t-2} + \sqrt{\alpha_t (1-\alpha_{t-1})}\epsilon_{t-2}+\sqrt{1-\alpha_t} \epsilon_{t-1} \tag2 \end{align*}$

有两个高斯分布， $\sim N(\mu_1, \sigma_1^2I)$ ， $\sim N(\mu_2, \sigma_2^2I)$ ，则
$\sim N(a\mu_1+b\mu_2, (a^2\sigma_1^2+b^2\sigma_2^2)I)$
即，两个高斯分布之和也符合一个高斯分布。

上述公式(2)中后面两项是两个噪声项之和，再结合上段阐述的两个高斯分布之和也符合一个高斯分布，自然而然就可以会联想到将两个噪声项合并。即，有两个高斯分布， $\epsilon_{t-1} \sim N(0,I)$ ， $\epsilon_{t-2} \sim N(0,I)$ ，则
$\begin{align*} \sqrt{\alpha_t (1-\alpha_{t-1})}\epsilon_{t-2}+\sqrt{1-\alpha_t} \epsilon_{t-1} & \sim N(0,(\alpha_t (1-\alpha_{t-1})+1-\alpha_t)I) \\ & \sim N(0,(\alpha_t-\alpha_t\alpha_{t-1}+1-\alpha_t)I) \\ & \sim N(0,(1-\alpha_t\alpha_{t-1})I) \end{align*}$
故公式(2)中后面两项可以用一个噪声项表示，即
$\sqrt{\alpha_t (1-\alpha_{t-1})}\epsilon_{t-2}+\sqrt{1-\alpha_t} \epsilon_{t-1} = \sqrt{1-\alpha_t\alpha_{t-1}} \bar{\epsilon}_{t-2}$
将上式带入公式(2)有
$x_t = \sqrt{\alpha_t \alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \bar{\epsilon}_{t-2} \tag3$
通过上述公式推导， $x_t$ 从基于 $x_{t-1}$ 和噪声计算转换为可基于 $x_{t-2}$ 和噪声计算，继续按照上述推导步骤，将公式(3)中的 $x_{t-2}$ 由 $x_{t-3}$ 和噪声表示，会将公式(3)转换为以下形式
$x_t = \sqrt{\alpha_t \alpha_{t-1} \alpha_{t-2}}x_{t-3} + \sqrt{1-\alpha_t\alpha_{t-1}\alpha_{t-2}} \bar{\epsilon}_{t-3}$
最终会得到
$\begin{align*} x_t & = \sqrt{\alpha_t \alpha_{t-1}... \alpha_1}x_0 + \sqrt{1-\alpha_t\alpha_{t-1}...\alpha_1} \bar{\epsilon}_0 \\ & = \sqrt{ \bar{\alpha}_t} x_0 + \sqrt{1- \bar{\alpha}_t} \bar{\epsilon}_0 \tag4 \end{align*}$
经过一系列推导，我们得到了公式(4)，可以基于 $x_0$ 和噪声，直接一步到位生成 $x_t$ ，因为 $\bar{\epsilon}_0 \sim N(0,I)$ ，公式(4)与以下概率分布等价，
$q(x_t|x_0) \sim N(x_t;\sqrt{ \bar{\alpha}_t} x_0, (1- \bar{\alpha}_t)I)$

如果直接使用公式(1)从 $x_0$ 开始一步一步计算 $x_t$ ，这个过程又慢又麻烦；当通过一系列推导，我们得到了公式(4)，可以基于步数 $x_0$ 和 $t$ 直接计算出 $x_t$ ，使得计算过程又快又简洁。

无中生有的目标分布

如果我们有过模型训练的经验，那就一定知道，需要有一个目标值或GT值与模型的预测值计算损失才能实现训练闭环。在前文中我们说到，DDMP就是对“能基于 $x_t$ 计算出 $x_{t-1}$ ”的逆向分布过程建模，模型训练预测出的分布用 $p_{\theta}(x_{t-1}|x_t)$ 表示，那与预测分布进行比较的目标分布应该如何表示呢？

假设目标分布用 $q(x_{t-1}|x_t)$ 表示，请问想要计算出 $q(x_{t-1}|x_t)$ 这个分布可能吗？理论上，是可能的，需要遍历整个数据集，然后通过大量计算，才能实现。如果我们真的大费周章计算出了 $q(x_{t-1}|x_t)$ ，那也没必要训练模型了，反正已经知道了目标分布，直接采样就可以了。现在就遇到了一个进退两难的地步，模型训练需要一个目标分布，但目标分布难以获得，并且获得之后就没有训练的必要了。那么到底应该如何训练呢？