欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > CMU 10423 Generative AI:lec7、8、9(Diffusion Models、VAEs)

CMU 10423 Generative AI:lec7、8、9(Diffusion Models、VAEs)

2024/11/30 14:44:07 来源:https://blog.csdn.net/weixin_42118657/article/details/142333122  浏览:    关键词:CMU 10423 Generative AI:lec7、8、9(Diffusion Models、VAEs)

文章目录

  • 1 概述
    • lec 7 Diffusion Models (Part I)
    • lec 8 Diffusion Models (Part II)
    • lec 9 Variational Autoencoders (VAEs)
      • 1. **变分推断与KL散度**
      • 2. **变分推断(Variational Inference, VI)**
      • 3. **VAE的结构**
      • 4. **重参数化技巧**
      • 5. **VAE的优化目标**
      • 6. **VAE的应用**
      • 7. **VQ-VAE 和其他变体**
      • 总结:
  • 2 阅读材料概述
    • (1)lec7、8:Deep Unsupervised Learning using Nonequilibrium Thermodynamics(2015)
      • 主要内容介绍:
      • 该论文与扩散模型的关系
        • 1. **正向扩散过程**:
        • 2. **反向扩散过程**:
        • 3. **模型的灵活性和可计算性**:
        • 4. **实验验证**:
        • 总结:
    • (2)lec7、8:Denoising Diffusion Probabilistic Models(2020)
      • 1. **背景与动机**
      • 2. **扩散模型的核心机制**
      • 3. **训练目标与损失函数**
      • 4. **实验结果**
      • 5. **进展与未来工作**
      • 总结:
    • (3)lec9:High-Level Explanation of Variational Inference (2011)
      • 1. **背景与动机**
      • 2. **变分推断的基本思想**
      • 3. **ELBO(证据下界,Evidence Lower Bound)**
      • 4. **优化方法**
      • 5. **应用**
      • 6. **示例与推导**
    • (4)lec9:Tutorial on Variational Autoencoders(2016)
      • 1. **引言**
      • 2. **潜变量模型**
      • 3. **变分自编码器 (VAE)**
      • 4. **VAE 的解释**
      • 5. **条件变分自编码器(CVAE)**
      • 6. **实验与结果**
      • 总结:
    • (5)lec9:Variational Inference: A Review for Statisticians(2018)
      • 1. **背景与动机**
      • 2. **变分推断的核心思想**
      • 3. **ELBO(证据下界)**
      • 4. **优化方法**
      • 5. **变分推断与MCMC的比较**
      • 6. **现代研究与应用**
      • 总结:

Diffusion Models、VAEs这两个模型很重要又很晦涩,其实为了方便理解过度,VAEs应该在Diffusion Models之前介绍(CMU 11785课程中就是先介绍VAE,再介绍Diffusion Models,最后是GANs)。

PPT内容大概扫了一遍,目的是看课程提到哪些知识点。算法的具体原理在下2篇文章中有整理。

1 概述

lec 7 Diffusion Models (Part I)

本讲主要是为后续讲扩散模型(Diffusion Models)做铺垫。介绍了U-Net语义分割网络,以及无监督学习的基本假设、目标和一些经典的生成模型:自回归语言模型(GPT)、生成式对抗网络、扩散模型。最后初步介绍了扩散模型。

lec 8 Diffusion Models (Part II)

首先回顾了语义分割(FCN)、实例分割(Mask RCNN)、U-net、无监督学习等。然后开始大篇幅介绍扩散模型原理。

lec 9 Variational Autoencoders (VAEs)

主要介绍KL散度、变分推断、以及VAE的原理、应用、变种(VQ-VAE)。

以下是该讲义的主要内容:

1. 变分推断与KL散度

  • 讲义首先回顾了KL散度(Kullback-Leibler Divergence)的概念,KL散度用于衡量两个概率分布之间的差异。
  • KL散度在VAE中作为优化目标,用来最小化近似后验分布 (q(z|x)) 和真实后验分布 (p(z|x)) 之间的差异。

2. 变分推断(Variational Inference, VI)

  • 变分推断是VAE背后的核心技术,目的是通过近似推断复杂的后验分布。
  • 讲义提到在面对复杂的模型时,直接计算后验分布是不可行的,因此VI通过使用简化的分布 (q(z)) 来近似目标后验 (p(z|x))。
  • 最大化证据下界(ELBO)是VI的关键步骤,它提供了一个可以优化的下界,用于间接优化后验分布。

3. VAE的结构

  • VAE模型结合了两个神经网络:编码器和解码器。

    • 编码器:将输入数据 (x) 映射到潜在变量 (z) 的分布,表示为 (q(z|x))。
    • 解码器:从潜在变量 (z) 生成输入数据 (x),表示为 (p(x|z))。
  • 讲义从图形模型的角度解释了VAE的结构,VAE可以生成新数据,因为它学到了一个连续的潜在空间,易于采样。

4. 重参数化技巧

  • 为了使VAE可以通过反向传播进行训练,讲义介绍了重参数化技巧。通过将随机变量 (z) 的采样过程与模型参数分离,网络能够有效地计算梯度,从而进行优化。

5. VAE的优化目标

  • VAE的优化目标是最大化证据下界(ELBO),这相当于同时最小化重构误差(保证生成的样本与真实样本接近)和KL散度(确保潜在空间的合理性)。
  • 讲义进一步讨论了ELBO的两部分:一部分是数据重构的对数似然,另一部分是编码分布和先验分布之间的KL散度。

6. VAE的应用

  • 讲义展示了VAE在图像生成和文本生成中的实际应用。
    • 在图像生成方面,VAE可以从潜在空间中生成新的图像,经典的例子包括MNIST手写数字和CelebA人脸数据集。
    • 在文本生成方面,VAE可以用于自然语言处理任务,生成句子或进行语义表达。

7. VQ-VAE 和其他变体

  • 讲义还介绍了Vector Quantized VAE (VQ-VAE),这是VAE的一个离散版本,编码器输出离散的代码,而不是连续的潜在变量。这种方法在图像和音频生成领域取得了成功。

总结:

这份讲义详细阐述了变分自编码器(VAE)的基础概念、结构和实际应用。通过变分推断和重参数化技巧,VAE能够有效地进行无监督学习,并生成高质量的图像或文本。

2 阅读材料概述

(1)lec7、8:Deep Unsupervised Learning using Nonequilibrium Thermodynamics(2015)

https://arxiv.org/pdf/1503.03585

该PDF文件的标题是**“Deep Unsupervised Learning using Nonequilibrium Thermodynamics”**,由Jascha Sohl-Dickstein等人撰写,讨论了一种基于非平衡热力学的新型深度无监督学习方法。

主要内容介绍:

  1. 背景与动机
  • 机器学习中的主要问题之一是如何在模型的灵活性和计算的可行性之间进行平衡。灵活的模型可以很好地拟合复杂数据,但往往难以计算或采样。本文提出了一种新的生成模型,它结合了灵活性和可计算性。
  1. 模型核心思想
  • 该方法的核心思想源自于非平衡统计物理。通过一个正向扩散过程,逐步破坏数据分布中的结构,最终将其转化为一个简单的已知分布(如高斯分布)。
  • 接下来,学习一个反向扩散过程,用于恢复数据的结构,从而生成一个高度灵活且可计算的模型。
  1. 正向和反向扩散过程
  • 正向扩散逐步将数据分布转变为高斯分布,反向扩散则通过学习的均值和协方差函数恢复数据结构。
  • 通过训练,模型可以通过马尔科夫链生成高质量的样本,同时可以有效地计算生成模型的对数似然。
  1. 实验与结果
  • 该模型在多个数据集上进行了测试,包括二维Swiss Roll、MNIST手写数字、CIFAR-10自然图像等。
  • 实验结果表明,模型在这些数据集上的表现优异,生成的样本与原始数据非常接近,且能够进行复杂任务如图像去噪和填补缺失数据(inpainting)。
  1. 与其他工作比较
  • 该模型与对抗生成网络(GAN)、变分自编码器(VAE)等技术进行了比较,展示了其在生成样本和计算后验分布上的优势。
  • 作者强调了该模型在灵活性和可计算性方面的独特性,并且该模型可以通过简单的马尔科夫链逆转来生成样本。

总的来说,本文提出了一种基于非平衡热力学的生成模型,能够灵活地学习和生成复杂数据,并且在无监督学习和概率建模领域展示了非常好的应用潜力。

该论文与扩散模型的关系

这篇文章与扩散模型有非常密切的关系,实际上,它提出的生成模型正是基于扩散过程的。扩散模型是一种生成模型,通过正向扩散(向数据中逐渐引入噪声)和反向扩散(通过学习的反向过程去除噪声)来生成数据。以下是该文章与扩散模型的具体关联:

1. 正向扩散过程
  • 文章中提出了一种逐步将数据分布转换为高斯分布的正向扩散过程。这是扩散模型的核心部分,即通过逐渐添加噪声,破坏数据的原始结构,最终使得数据变成一个已知的简单分布(如高斯分布)。
  • 在该模型中,每一步都是一个马尔科夫链,逐步扩散数据,类似于现代扩散模型中的噪声注入过程。
2. 反向扩散过程
  • 学习一个反向扩散过程来恢复数据结构也是文章的核心思想。与扩散模型类似,反向扩散是通过学习的方式从噪声数据中逐步恢复原始数据分布。
  • 文章中提到的反向扩散过程可以从高斯分布开始,通过一系列马尔科夫步骤逐渐还原为目标数据分布,这与现代扩散模型中从噪声到数据的反向采样过程非常相似。
3. 模型的灵活性和可计算性
  • 文章提出的模型在生成过程中既保持了极大的灵活性,又能进行精确采样。这与扩散模型的目标一致:通过扩散过程,扩散模型可以灵活地生成逼真的数据,同时保持采样和推断的可行性。
  • 该模型可以用于图像生成、数据去噪(denoising)等任务,这些都是扩散模型的重要应用场景。
4. 实验验证
  • 文章中的实验展示了该扩散模型在二维数据(如Swiss Roll)和复杂图像数据(如MNIST、CIFAR-10)上的成功应用。这与扩散模型在图像生成和去噪等任务中的应用非常类似。
总结:

这篇文章可以看作是现代扩散概率模型的一个早期实现,或者说是扩散模型理论的一部分。文章中的正向扩散和反向扩散过程是扩散模型的核心机制,而文章所提出的生成方法在本质上与现在的扩散模型具有极大的相似性。

(2)lec7、8:Denoising Diffusion Probabilistic Models(2020)

https://proceedings.neurips.cc/paper_files/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf

该文章**《Denoising Diffusion Probabilistic Models》主要介绍了一种基于扩散模型**的深度生成模型,并展示了其在图像生成方面的优异表现。以下是该文章的主要内容介绍:

1. 背景与动机

  • 文章旨在提出一种新的生成模型,通过扩散过程变分推断来生成高质量的图像。传统的生成模型如GAN和VAE虽然取得了很大成功,但也面临一些挑战,如稳定性问题和难以估计的似然值。
  • 扩散模型结合了非平衡热力学的原理,逐步通过马尔科夫链的反向采样生成逼真的图像。

2. 扩散模型的核心机制

  • 正向扩散过程:该过程通过给数据逐步添加噪声,逐渐破坏其结构,最终将其转换为高斯分布。这是一个固定的马尔科夫链。
  • 反向扩散过程:该过程通过学习模型参数,逐步去除噪声,还原数据的结构,从高斯分布采样出高质量的图像。
  • 模型训练是通过优化变分推断中的ELBO(证据下界)进行的,并且与去噪自编码器中的得分匹配(score matching)方法密切相关。

3. 训练目标与损失函数

  • 文章提出了一个简化的训练目标,基于预测在不同噪声水平下的去噪误差。这使得模型训练更简单,同时提升了生成样本的质量。
  • 模型在噪声水平较高的情况下更注重去噪任务,这种重新加权的损失函数提升了生成结果的质量。

4. 实验结果

  • 在CIFAR-10和CelebA-HQ数据集上进行了大量实验,实验结果表明扩散模型生成的图像质量优于很多现有的生成模型,尤其是在无条件图像生成任务中。
  • 模型在无监督的CIFAR-10上获得了9.46的Inception得分和3.17的FID(Fréchet Inception Distance)分数,表现优异。

5. 进展与未来工作

  • 文章展示了扩散模型与其他生成模型(如自回归模型、能量模型和VAE)的联系,并指出扩散模型在处理图像数据方面具有优秀的归纳偏置。
  • 未来的工作可能会涉及扩散模型在其他数据模态(如音频、文本)中的应用,并探索其在其他类型的生成模型中的作用。

总结:

该文章提出了一种基于扩散过程的生成模型,通过训练马尔科夫链的反向过程生成高质量样本。扩散模型的独特之处在于,它能够通过逐步去噪来生成图像,并且与去噪自编码器和Langevin动态过程密切相关。文章的实验结果表明该模型在图像生成任务中具有强大的竞争力。

(3)lec9:High-Level Explanation of Variational Inference (2011)

https://www.cs.jhu.edu/~jason/tutorials/variational.html

这个页面是约翰·霍普金斯大学的Jason Eisner教授撰写的**变分推断(Variational Inference)**教程,主要讲解了变分推断技术的基础理论和应用。该教程通过详细的解释和推导,帮助读者理解变分推断背后的概念和数学基础。

主要内容可以总结如下:

1. 背景与动机

  • 变分推断是一种用于近似复杂概率分布的方法,尤其是在贝叶斯推断中计算后验分布较为困难时。
  • 传统的马尔科夫链蒙特卡洛(MCMC)方法虽然强大,但往往计算量很大。变分推断提供了更高效的近似推断方法。

2. 变分推断的基本思想

  • 目标是通过一个简单的、可处理的分布 ( q(z) ) 来近似复杂的后验分布 ( p(z|x) )。
  • 通过优化 ( q(z) ) 的参数,使得它尽可能接近真实的后验分布。具体而言,变分推断通过最小化 KL 散度(Kullback-Leibler divergence)来度量 ( q(z) ) 和 ( p(z|x) ) 之间的差异。

3. ELBO(证据下界,Evidence Lower Bound)

  • 由于直接计算后验概率很困难,变分推断通过最大化证据下界(ELBO)来间接地优化目标。
  • ELBO 是对数边际似然的一个下界,通过最大化 ELBO,可以逼近真实的后验分布。
  • ELBO 公式:

ELBO ( q ) = E q ( z ) [ log ⁡ p ( x , z ) ] − E q ( z ) [ log ⁡ q ( z ) ] \text{ELBO}(q) = \mathbb{E}_{q(z)}[\log p(x, z)] - \mathbb{E}_{q(z)}[\log q(z)] ELBO(q)=Eq(z)[logp(x,z)]Eq(z)[logq(z)]

  • 这个公式的核心是计算关于 ( q(z) ) 的期望,进而逼近后验分布。

4. 优化方法

  • 在变分推断中,优化问题可以通过梯度下降或其他优化技术来求解。
  • 常用的优化方法有随机梯度变分推断(SGVB),这种方法有效地处理了大规模数据的问题。

5. 应用

  • 变分推断广泛应用于概率图模型中,如隐马尔科夫模型(HMM)、潜在狄利克雷分配(LDA)等。
  • 现代深度学习中的变分自编码器(VAE)也是基于变分推断的一个重要应用。

6. 示例与推导

  • 教程中还包括了具体的示例和数学推导,帮助读者更好地理解如何在实际问题中使用变分推断。

这个教程的目标是为没有太多变分推断背景的读者提供一个清晰的入门介绍,包含了详细的理论推导以及在实际应用中的操作步骤。

(4)lec9:Tutorial on Variational Autoencoders(2016)

https://arxiv.org/pdf/1606.05908

这篇文章是由Carl Doersch撰写的《Tutorial on Variational Autoencoders》,介绍了变分自编码器(VAE)的基本概念、原理和实际应用。以下是文章的主要内容介绍:

1. 引言

  • 文章首先介绍了生成模型的概念,其目的是从数据分布中生成类似的样本,如生成新的手写数字或自然图像。传统的生成模型方法,如马尔科夫链蒙特卡洛方法,存在计算复杂度高等问题。VAE 提供了一种基于神经网络的更高效的生成模型。

2. 潜变量模型

  • 潜变量模型假设数据是通过一些隐藏的潜在因素生成的。VAE 引入潜变量 ( z ),用于捕捉数据中的结构信息,如生成手写数字时的字体类型、角度和粗细等。

3. 变分自编码器 (VAE)

  • 目标设置:VAE 的目标是通过最大化似然函数 ( P(X) ) 来逼近数据分布。由于直接计算该分布较为困难,VAE 引入了变分推断,通过引入一个辅助分布 ( Q(z|X) ) 来近似后验分布 ( P(z|X) )。
  • 优化目标:VAE 优化的是证据下界(ELBO),通过最大化下界来近似最大化对数似然。公式为:

log ⁡ P ( X ) ≥ E Q ( z ∣ X ) [ log ⁡ P ( X ∣ z ) ] − D K L ( Q ( z ∣ X ) ∣ ∣ P ( z ) ) \log P(X) \geq E_{Q(z|X)}[\log P(X|z)] - D_{KL}(Q(z|X)||P(z)) logP(X)EQ(zX)[logP(Xz)]DKL(Q(zX)∣∣P(z))

其中,第一项表示重构误差,第二项是 KL 散度,表示潜变量分布与真实后验分布之间的差异。

  • 重参数化技巧:为了使得模型能够通过反向传播进行优化,VAE 引入了重参数化技巧,将随机噪声从潜在空间中提取出来。

4. VAE 的解释

  • 信息论角度:VAE 的目标可以解释为最小描述长度原理,左侧的对数似然表示生成数据所需的最少信息量,右侧的 KL 散度则表示潜变量的编码效率。
  • 正则化:VAE 的 KL 散度项可以视为一种正则化项,防止潜变量空间过拟合。

5. 条件变分自编码器(CVAE)

  • CVAE 扩展了 VAE,允许生成带条件信息的数据。例如,给定部分图像信息,CVAE 可以生成相应的图像补全。这在图像修复等任务中非常有用。

6. 实验与结果

  • MNIST 手写数字生成:文章展示了在 MNIST 数据集上训练的 VAE 和 CVAE 的实验结果。VAE 可以生成逼真的手写数字,而 CVAE 可以在给定部分信息的情况下补全图像。

总结:

该文章为初学者提供了 VAE 的详细教程,涵盖了从基础理论到实际应用的内容。VAE 是一种强大的生成模型,能够通过潜变量模型高效地生成复杂的数据,并在无监督学习和生成建模中有广泛的应用。

(5)lec9:Variational Inference: A Review for Statisticians(2018)

https://arxiv.org/pdf/1601.00670

这篇文章**《Variational Inference: A Review for Statisticians》**主要综述了变分推断(Variational Inference, VI)的基本思想、方法和应用。以下是文章的主要内容:

1. 背景与动机

  • 现代统计学的核心问题之一是如何近似难以计算的概率密度,特别是在贝叶斯统计中,需要对后验分布进行计算。传统的MCMC方法虽然有效,但在面对大规模数据时往往计算量大且效率低。变分推断通过优化的方式快速近似这些复杂的概率密度,因此逐渐成为一种常用的方法。

2. 变分推断的核心思想

  • VI 的核心思想是首先假设一族概率分布,并找到其中与目标后验分布最接近的一个。通常使用KL散度(Kullback-Leibler Divergence)来度量近似分布和目标分布之间的差异。
  • 具体来说,通过最小化变分分布 (q(z)) 和目标后验分布 (p(z|x)) 之间的KL散度,得到最优近似分布 (q^*(z))。

3. ELBO(证据下界)

  • 由于直接计算后验分布的KL散度非常困难,VI 通过最大化证据下界(ELBO)来间接地优化目标。ELBO 表达式为:

ELBO ( q ) = E q ( z ) [ log ⁡ p ( x , z ) ] − E q ( z ) [ log ⁡ q ( z ) ] \text{ELBO}(q) = E_{q(z)}[\log p(x, z)] - E_{q(z)}[\log q(z)] ELBO(q)=Eq(z)[logp(x,z)]Eq(z)[logq(z)]

  • 最大化ELBO相当于最小化KL散度,从而使得 (q(z)) 逼近后验分布 (p(z|x))。

4. 优化方法

  • 文章讨论了如何通过坐标上升(coordinate ascent)来优化ELBO,这种方法逐步优化每个潜变量的分布,直到收敛到局部最优值。
  • 还介绍了如何利用自然梯度和随机优化(stochastic optimization)来扩展变分推断,从而在大规模数据上进行有效推断。

5. 变分推断与MCMC的比较

  • 与MCMC不同,VI 是通过优化问题来进行推断,而不是通过采样。VI 在大数据场景下更快且更容易扩展,但可能无法提供MCMC的精确性保证。
  • VI 常用于需要快速探索多种模型或处理大规模数据的场景,而MCMC更适用于需要高精度的小规模数据分析。

6. 现代研究与应用

  • 文章列举了变分推断在现代贝叶斯统计中的多种应用,如大规模文档分析、计算神经科学和计算机视觉。
  • VI 尽管功能强大,但仍有许多统计性质尚不完全清楚,因此未来在统计领域还有很多研究机会。

总结:

该文章提供了对变分推断的全面综述,特别针对统计学家。它解释了VI的基本原理、与其他方法的比较、优化算法的细节,以及在大规模数据上的应用。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com