第七期,浅谈 stable diffusion 与其它微调模型的关系

wenchiaochiao · 2023-10-27 12:05:15

如题，这期的内容主要围绕 model（模型）来展开讲讲
不会非常深入，新手可看，老少皆宜
近期，花了很多心思在运营公众号上，突然发现，自己好像很少这么用心去经营一件事情，还是蛮开心的

目光所及，皆是星辰，给自己打打气
第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

gzh名称与贴吧同名，AI绘语，还没关注的话赶紧关注哦，内容包括教程、美图分享以及最新的一些AI资讯
因为只有我自己在弄，因此没办法每天更新，更新频率大概2-3天一更吧
期待你的关注，一起探索AI世界
第七期,浅谈 stable diffusion 与其它微调模型的关系-2.jpg

第七期,浅谈 stable diffusion 与其它微调模型的关系-2.jpg

第七期,浅谈 stable diffusion 与其它微调模型的关系-5.jpg

（教程配图之一）

Philiptub · 2023-10-27 12:05:47

更多教程，请看往期内容
我会持续更新更好的教程，欢迎关注哦

輕風無影 · 2023-10-27 12:06:20

一、引入
可能有很多刚刚接触AI绘画的小伙伴会对 "Stable Diffusion" 感到一些困惑，它究竟是什么？是一款软件吗？这里我来统一解答一下。实际上，Stable Diffusion是一种名为 "latent diffusion model"（潜在扩散模型）的AI模型，也就是说，它是一个机器学习模型，而不是一款我们通常理解的可以直接运行的软件。
要运行 Stable Diffusion 模型，你需要一个适合的平台或者环境。现在最主流的方式是使用一个名为 Stable Diffusion Webui 的平台，这是一位在 GitHub 上的开发者 Automatic1111 编写的项目，能够有效地运行和使用 Stable Diffusion 模型，同时它的兼容性也非常好，因此被广泛应用。
至于你经常听到的 Waifu Diffusion、Anything V3以及 ChilloutMix 等模型，他们其实都是基于 Stable Diffusion 模型进行微调（Fine-tuning）得到的衍生模型。这些微调模型继承了 Stable Diffusion 的基础特性，同时针对特定的任务或数据进行了优化，从而具有更强的特定领域性能。
在AI绘图领域，尤其是在有关 stable diffusion 的讨论中，你会频繁遇到 “Model（模型）”这个词。在这里，Model，也被称为 “checkpoint file（检查点文件）” ，指的是经过预训练的 stable diffusion 模型，它可以被应用于广泛的目的或用于生成特定领域的图片。
模型能够生成的图片类型主要取决于训练该模型时所使用的数据。以 cat（猫）的图片为例，如果你的训练数据集中没有包含猫的数据，那么这个模型就无法生成猫的图片。相反，如果你的训练数据集仅包含猫的图片，那么该模型就只能生成猫的图片。因此，可以说一个模型的能力，或者说其生成图片的类型和质量，在很大程度上都取决于用于训练该模型的数据。
在接下来的部分，我将对SD模型进行更深入的介绍，包括一些常见的模型类型以及如何安装和使用这些模型。
无论你是对AI绘图技术有深厚的兴趣，还是想在实践中掌握更多的应用技巧，这里都有你需要的内容。

Silviaka · 2023-10-27 12:06:42

二、微调模型
1、什么是fine-tuning（微调）？
在机器学习领域，Fine-tuning（微调）是一种普遍的策略。这个策略的主要目的是为了使模型适应新的特定任务，或者在某个专门领域中提升模型的表现。以 waifu diffusion 模型为例，该模型就是为了更好地生成二次元风格的图片，在一些二次元图片数据集上专门进行了进一步的训练和优化，使得其在生成二次元领域的图片时，能够输出更优质的结果。
通过 fine-tuning（微调）得到的模型，我们称之为 fine-tuned model（微调模型）。
在AI绘图领域，预训练模型通常是指基于大规模数据集进行预训练的模型，如 stable diffusion（SD）模型。SD模型在大量丰富多样的数据上进行了训练，从而学习到了识别和生成各种对象的基础特征。训练SD模型到底使用了多么庞大数据，你可以在我第五期的内容中找到答案。
练微调后的模型，一方面保留了原始模型的通用性，另一方面在特定任务上表现出更优的性能。这是因为在微调过程中，模型在特定任务或数据上得到了更深入的训，从而对这类任务具有更高的精准度和表现力。然而，微调并不总是带来积极的结果，有些微调可能因为参数设置过于激进，导致模型过度拟合训练数据，反而失去了预训练模型的泛化能力和灵活性。因此，在使用微调模型时，我们需要警惕这种过度拟合的风险。

daizhe10 · 2023-10-27 12:07:28

你看有人理你吗？现在全在猫鼠大战呢，让我零点二度来帮你暖贴吧
第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

Raymondpi · 2023-10-27 12:08:27

这个图是怎么做的呀

艾的民 · 2023-10-27 12:09:27

2、为什么需要微调模型？
如果你使用过SD模型，那么你就会发现这个模型几乎能生成所有东西，只是都不太精。比如，你让SD模型生成动漫风格的图片，当你使用 “anime” 这个tag，它能够生成动漫风格图片，但如果你想要更加二次元的图片，可能需要繁琐的提示词操作，而且效果可能还不理想。而这就是微调模型能解决的问题。
你可以从下图中对比一下不同模型生成效果的差异：
Prompt: 1 girl, anime, crystal eyes, smooth skin, long hair, upper body, highly detailed, sharp focus, cinematic lighting, colorful, vibrant color（1个女孩，动漫，水晶般的眼睛，光滑的皮肤，长头发，上半身，高度细节，锐焦，电影灯光，多彩，鲜艳颜色）

第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

Stable diffusion V1.5的结果很有意思，在提示词中，我只对眼睛、皮肤和头发进行了强调，与之相对应，生成的图片中恰恰只有这三者被刻画的最好，因此如果想要使用SD生成符合预期的图片，还需要更细致的刻画才行。而 RevAnimated V1.2 和 Deliberate V2 都没有这个问题，简单的提示词就可以生成五官正常的人物。这是由于训练数据包含更多人物图片的原因。
总体来看，微调模型 RevAnimated V1.2 和 Deliberate V2 的人物绘画上都比 Stable diffusion V1.5 强上不少，因此微调模型是非常必要的。

n08473927 · 2023-10-27 12:09:57

已关，还有类似的图吗？

keehtjib · 2023-10-27 12:10:02

好帖子，可惜我已经取关这个吧了，发猫鼠真无聊

d00000000 · 2023-10-27 12:10:36

3、微调模型的训练方法
有两种主要的微调方法，一种是 Additional training（额外的训练），另一种是 Dreambooth。两种方法的 base model（底模）都是 stable diffusion V1.4或V1.5。V2出来以后，也有一些模型的训练底模是V2了，但目前还没有完全普及。
Additional training: 使用额外的数据集对底模进行训练，比如，如果我使用许多非常炫酷的跑车图片进行训练，那么模型也能够很容易生成非常美观的跑车图片。Waifu diffusion 和 Dreamshaper 等模型都是使用此种方法。
Dreambooth：最初由Google开发，是一种特殊的技术，可以将自定义主题融入到文生图AI模型中。这种技术特别灵活，只需使用3-5张定制的图像即可生效。例如，你可以拍摄几张自己的照片，然后利用Dreambooth将你的形象引入模型，从而让模型能生成包含你自己的图像。使用经过Dreambooth训练的模型，需要一个特定的关键词（比如你的名字）来触发模型，以便更精确地生成你想要的图片内容。这个关键词要足够特殊，使之不与模型的其它 tag 重叠。
当然还有一些其它的微调方法，包括textual inversion（嵌入）、Hypernetwork（超网络）、LoRA、lyCORIS等等。
下面做一简单介绍。
Textual inversion: 也叫embedding（嵌入），这种文件很小，通常只有10-100KB。通过在 prompt 或 negative prompt 中插入embedding 可以改变图像的风格。
Hypernetwork: 超网络。一种从外部调整模型权重的文件，通常只有5-300M。在AI绘画中，超网络可以帮助模型更好地生成具有特定属性（例如风格，纹理等）的图像，提升生成图像的质量和多样性。
LoRA: 这是更为常见模型类型。通常不会超过300MB，占用空较小。不能单独使用，只能搭配相应的 checkpoint 使用。通过插入LoRA，可以显著改变图像的质量，并且能够向模型引入全新的物品或风格。
LyCORIS: 一种 LoRA 变体，具有比 LoRA 更大范围且更精准调整模型权重的能力。对于手、脚和脸等容易扭曲的地方，LyCORIS 将大有作为，是解决AI无法很好绘制手的问题的解决方法之一。预计之后应该会有更多基于 LyCORIS 的模型诞生。

荧光粉620 · 2023-10-27 12:11:24

4、分享一些自用的模型
以下是我自己收集整理的自用模型，包括 Checkpoint、Lora、embedding等，会保持更新。
链接：https://kdocs.cn/l/cpw8cylzqPiC

karynxh11 · 2023-10-27 12:11:58

三、常见模型
1、stable diffusion V1.5

第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

模型简介：https://huggingface.co/runwayml/stable-diffusion-v1-5
下载链接：https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned.safetensors
Stable Diffusion V1.5 是由Runway ML于2022年10月份发布的AI绘图模型。 Runway ML是Stability AI的合作伙伴。
V1.5是在V1.2的基础上进行了微调和优化，成为许多其他模型的基础，并且具有广泛的通用性。
然而，操作这个模型对于许多新手来说可能存在一定困难。这是因为它依赖于用户的提示词撰写能力，来生成符合用户期望的图片。换句话说，你需要有一定的创造力和语言能力，才能让模型按照你的设想来绘制图像。因此，如果你是初次尝试V1.5模型，可能需要花费一些时间和精力来熟悉和掌握这个过程。

艾的民 · 2023-10-27 12:12:29

2、ChilloutMix

第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

模型简介：在C站，链接放不上
下载链接：https://huggingface.co/swl-models/chilloutmix/resolve/main/Chilloutmix-non-ema-fp16.safetensors
C站下载量最高的模型。
Chilloutmix 是一个很不错的AI绘图模型，特别适合生成逼真的图片，尤其是人像。它的生成效果十分接近真实的照片。然而，你需要知道，这款模型被标记为18+。这意味着，它有可能生成一些包含成人内容的图像。
如果你不希望出现这类图片，可以在 negative prompt（反向提示词）中输入一些关键词，如 "nsfw, nude, naked"，以避免生成可能含有裸露内容的图片。在正向提示词加入该关键词则起相反的作用。

r31265156 · 2023-10-27 12:12:37

3、DreamlikeDiffusion V1.0

第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

模型简介：https://huggingface.co/dreamlike-art/dreamlike-diffusion-1.0
下载链接：https://huggingface.co/dreamlike-art/dreamlike-diffusion-1.0/resolve/main/dreamlike-diffusion-1.0.safetensors
这是我最喜欢的模型之一，能够生成色彩非常艳丽且美观度极佳的图片。强烈推荐！

RobertEa · 2023-10-27 12:13:02

4、Deliberate v2

第七期,浅谈 stable diffusion 与其它微调模型的关系-1.jpg

模型简介：https://huggingface.co/XpucT/Deliberate
下载链接：https://huggingface.co/XpucT/Deliberate/resolve/main/Deliberate_v2.safetensors
这是一个通用目的的AI绘图模型，生成的图片质量都很不错，同时也能够生成类型多样的图片。也是我最喜欢得到模型之一。

		自动登录	找回密码
密码			立即注册

第七期,浅谈 stable diffusion 与其它微调模型的关系

大神点评（14）

说点什么

浏览过的版块

神回复