麦克雷 Mavom.cn

标题: 十分钟读懂Stable Diffusion [打印本页]

作者: Stevendilm 时间: 2024-10-1 19:52
标题: 十分钟读懂Stable Diffusion
十分钟读懂Stable Diffusion

作者: 谢谢你的爱52 时间: 2024-10-1 19:53
在上一篇文章中，我们介绍了Diffusion扩散模型的原理及其将输入文本转换为图像的过程。然而，由于Diffusion在反向扩散过程中需要处理完整尺寸的图片，导致速度较慢，因此目前应用最广泛的是其改进版——Stable Diffusion。以下是关于Stable Diffusion的详细介绍。

首先，让我们了解Stable Diffusion是如何根据文字生成图像的，以及相比Diffusion它做了哪些优化。Stable Diffusion是StabilityAI公司于2022年提出的，论文和代码都已开源。StabilityAI在10月28日完成了1.01亿美元的融资，目前估值超过10亿美元。

我们可以在Stable Diffusion Online网站体验Stable Diffusion。例如，输入文本“A sunset over a mountain range, vector image”（山脉上的日落）并查看效果。

Stable Diffusion是Diffusion的改进版本，主要目的是解决Diffusion的速度问题。以下是Stable Diffusion生成图片的具体过程：对于输入的文字，会经过一个CLIP模型转化为text embedding，然后与初始图像（初始化使用随机高斯噪声）一起输入去噪模块（即Text conditioned latent U-Net），最后输出[公式]大小的图片。

Stable Diffusion的改进之一是图像压缩。Stable Diffusion原来的名字叫“Latent Diffusion Model”（LDM），在隐空间中进行扩散过程，即对图片进行了压缩，这也是Stable Diffusion比Diffusion速度快的原因。Stable Diffusion会先训练一个自编码器，学习将图像压缩成低维表示，然后在latent space中完成扩散过程。

Stable Diffusion的改进之二在于反向扩散过程。在反向扩散过程中，Stable Diffusion支持文本输入，并对U-Net的结构进行了修改，使得每一轮去噪过程中文本和图像相关联。

以下是Stable Diffusion的完整结构，包括文本向量表示、初始图像（随机高斯噪声）和时间embedding。Stable Diffusion的前向扩散和反向扩散过程都进行了详细展示。

此外，Midjourney也是一款非常出圈的AI绘图工具，其创始人是David Holz。Midjourney每月的收入大概超过200万美元，用户可以通过Discord平台的newbie频道使用。Discord平台是一款游戏聊天平台，月活超过1.5亿，其中使用Midjourney的用户数已突破380万。

总结起来，随着AIGC的爆火，AI绘画成为了一个典型案例。Stable Diffusion是目前最火的AI绘画模型之一，本文旨在详细介绍其原理和应用，让更多人了解这一技术。

欢迎光临麦克雷 Mavom.cn (https://mavom.cn/)