初探Stable Diffusion(SD)
Stable Diffusion
是由CompVis(慕尼黑大学)与Runway ML合作开发,并由Stability AI开源发布与维护的创新图像生成技术。
- 首次发布:2022年8月,Stability AI发布了Stable Diffusion 1.4版本。
- 持续更新:后续版本如1.5、2.x以及SDXL也在其主导下推出。
Stable Diffusion基于**潜在扩散模型(Latent Diffusion Models, LDMs)**实现,是一种支持文本到图像生成(Txt2Img)的模型。
相关学术研究包括:
- 《High-Resolution Image Synthesis with Latent Diffusion Models》(LDMs - CVPR2022)
#1. SD网络结构组成
Stable Diffusion的网络结构由以下三部分组成:
组件 | 作用 | 是否可微调 |
---|---|---|
Text Encoder | 将文本提示词(Prompt)编码为语义向量 | 通常冻结(CLIP 固定) |
VAE(变分自编码器) | 图像与潜空间(Latent Space)的相互转换 | 可微调(如优化色彩) |
U-Net | 在潜空间中迭代去噪,生成高质量潜变量 | 主要训练部分 |
调度器(Scheduler) | 控制去噪过程的步数和噪声策略(如 DDPM、DPM++) | 可替换,无需训练 |
#2. 图像尺寸对SD模型的影响
SD1.5在512×512尺寸的图像上进行预训练,因此建议微调训练时也使用该尺寸。不同尺寸的输入可能导致以下问题:
- 细节丢失:使用较小尺寸(如256×256)训练时。
- 结构畸形:使用较大尺寸(如1024×1024)训练时,因为模型未系统学习过更高分辨率的特征。
#3. 预训练数据集
1️⃣核心数据集:LAION-5B
属性 | 描述 |
---|---|
数据规模 | 58.5 亿条图文对(图像+文本描述) |
数据来源 | 从公开网页爬取(Common Crawl),经过滤后保留高质量样本 |
内容覆盖 | 多语言、多领域(艺术、照片、插画、图表等) |
分辨率 | 大部分图像≥512x512,部分≥1024x1024 |
过滤条件 | 使用CLIP模型筛选图文相关性(相似度≥0.28)和NSFW内容 |
2️⃣关键数据子集
(1) LAION-2B-en
- 语言:英语文本描述
- 用途:SD1.5 主要训练集,覆盖广泛视觉概念
(2) LAION-Aesthetics
- 筛选标准:人工标注美学评分≥6.0(满分10)
- 作用:提升生成图像的视觉质量
(3) LAION-NSFW
- 内容:明确标记的成人内容
- 处理:SD1.5 训练时已移除,但可能残留部分隐式特征