imagen: 具有深度语言理解的逼真的文本到图像扩散模型

2025/2/24 20:52:29 来源：https://blog.csdn.net/fyf2007/article/details/142290206 浏览: 次关键词：imagen: 具有深度语言理解的逼真的文本到图像扩散模型

1. 项目主页

Imagen: Text-to-Image Diffusion Models

我们推出了 Imagen，这是一种文本到图像的扩散模型，具有前所未有的照片级真实感和深层次的语言理解能力。Imagen 建立在大型 Transformer 语言模型在文本理解方面的强大功能之上，并依赖于扩散模型在高保真图像生成方面的强大功能。我们的主要发现是，在纯文本语料库上进行预训练的通用大型语言模型（例如 T5）在对文本进行图像合成编码方面出奇地有效：增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上获得了 7.27 的全新最佳 FID 分数，而无需在 COCO 上进行训练，并且人类评分者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型，我们引入了 DrawBench，这是一个全面且具有挑战性的文本到图像模型基准。使用 DrawBench，我们将 Imagen 与最近的方法（包括 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2）进行比较，并发现在并排比较中，人类评估者更喜欢 Imagen 而不是其他模型，无论是在样本质量还是图像文本对齐方面。

论文: https://arxiv.org/abs/2205.11487