Stable Diffusion 模型(models)入门教程

https://stable-diffusion-art.com/models/

模型(models),有时被称为检查点文件(checkpoint),是预先训练好的 Stable Diffusion 权重,用于生成通用或特定类型的图像。

一个模型能够生成什么样的图像取决于其训练所使用的数据。如果在训练数据中从未出现过猫,那么模型便无法生成猫的图像。同样地,如果只用猫的图像来训练模型,那么它就只会生成猫。

我们将介绍什么是模型,一些常见的模型(如 v1.4、v1.5、F222、Anything V3、Open Journey v4),以及如何安装、使用和合并它们。

Fine-tuned Models(微调模型)

什么是微调模型?

微调是机器学习中常用的技术之一。其基本思路是在广泛的数据集(简称为大模型)上训练得到的模型基础上,在相对狭窄的数据集上进行更多的训练。

微调的模型生成的图像,与你投喂的素材高度相似,素材之外的部分,则由大模型来补充。

为什么人们需要制作微调模型?

尽管稳定扩散(Stable Diffusion)效果出色,但并不能胜任所有方面。例如,它可以并且会生成带有“动漫”这个关键词的动漫风格图像,但可能难以生成某个特定类型的动漫图像。因此,制作者可以使用该类型的图像来微调模型,而不必去修改输入。

微调模型的制作方式是什么?

主要有两种微调方法:(1)额外训练和(2)Dreambooth。它们都以稳定扩散 v1.4 或 v1.5 这样的基模型为起点。

额外训练是指使用你感兴趣的额外数据集来训练基模型。例如,你可以使用一个古董车的额外数据集来以该车型的美学为主题来训练稳定扩散v1.5模型。

Dreambooth最初由谷歌开发,它是一种将自定义主题注入到文本-图像模型中的技术。它只需3-5个自定义图像即可运作。你可以拍几张自己的照片,并使用Dreambooth将自己放入模型中。使用Dreambooth训练的模型需要一个特殊的关键词来调节模型。

还有另外一种不太常见的微调技术叫做文本反转(textual inversion,有时也称为嵌入)。其目标与Dreambooth相似:只需几个例子就起到将自定义对象注入模型中的作用。专为新对象创建一个新的关键词。只有文本嵌入网络会进行微调,而其余部分保持不变。以通俗易懂的语言来说,这就像使用现有的词汇来描述一个全新的概念。

模型(Models)


这里有两组模型:v1和v2。我将在本部分介绍v1模型,下一部分介绍v2模型。

有成千上万个经过优化的稳定扩散模型,数量每天都在增加。下面是一些可用于一般目的的模型列表。

稳定扩散(Stable diffusion) v1.4

模型主页

下载链接

由 Stability AI 于2022年8月发布的v1.4模型被认为是首个公开可用的稳定扩散模型。

你可以把v1.4视为通用模型。大部分情况下,直接使用它就足够了,除非你对某些风格很挑剔。

稳定扩散(Stable diffusion) v1.5

模型页面

下载链接

v1.5 是由 Stability AI 的合作伙伴 Runway ML 在2022年10月发布的。该模型基于v1.2进行了进一步训练。

模型页面并未提及改进的具体内容。与v1.4相比,它产生了略微不同的结果,但尚不清楚是否更好。

与v1.4一样,你可以将v1.5视为通用模型。

根据我的经验,作为初始模型,v1.5是一个不错的选择,并且可以与v1.4互换使用。

F222

下载链接

F222最初是为生成裸体图像而经过训练的,但人们发现它在生成具有正确身体部位关系的美丽女性肖像方面也非常有用。有趣的是,与你可能认为的相反,它在生成审美上令人愉悦的服装方面也非常出色。

F222对于肖像画非常擅长。它非常容易生成裸体图像。但你可以在提示中加入“连衣裙”和“牛仔裤”这样的服装术语。

在这篇文章中可以找到更多逼真的照片风格模型。

Anything V3

模型页面

下载链接

Anything V3 是一个专门训练用来生成高质量动漫风格图像的特殊用途模型。您可以在文本提示中使用 danbooru 的标签(如1girl、白色头发)。

它对于将名人形象化为动漫风格非常有用,这样可以与插图元素无缝地融合。

一个缺点(至少对我而言)是它生成的女性角色身体比例不协调。我喜欢用 F222 来调整这个问题。

Open Journey

模型页面

下载链接

Open Journey是一个通过Mid Journey v4生成的图像来微调的模型。它具有不同的审美特点,是一个很好的通用模型。

触发关键字:mdjrny-v4风格

模型比较

下面是这些模型使用相同的提示和种子进行生成的比较。除了Anything v3模型,其它模型都能生成逼真的图像,但风格各异。

最佳模型

有数千种可供选择的稳定扩散模型。其中许多是专为生成特定风格而设计的特定用途模型。您应该从哪里开始呢?

以下是我经常回头使用的一些最佳模型:

DreamShaper

Dreamshaper模型是针对一种位于真实照片和电脑图形之间的肖像插画风格进行了精细调整。它简单易用,如果你喜欢这种风格,你会喜欢它的。

Deliberate v2

Deliberate v2是另一个必备模型,它能呈现出逼真的插图。而且,它的效果常常令人惊喜。当你有一个好的提示时,切换到这个模型,看看你会得到什么结果吧!

Realistic Vision v2

Realistic Vision v2是用于生成任何真实场景的。

ChilloutMix

ChilloutMix是一个特殊的模型,用于生成具有照片级别质量的亚洲女性图像。它就像F222的亚洲版本。搭配韩国ulzzang-6500-v1嵌入式,可以生成像韩流女团一样的少女图像。

和F222一样,有时候会生成裸体图像。可以通过在提示中使用穿着相关术语如“裙子”和“牛仔裤”,以及在负面提示中避免使用“裸体”一词,来抑制这种情况的发生。

Protogen v2.2 (Anime)

Protogen v2.2非常优雅。它能够生成精致而富有艺术感的插画和动漫风格的图片。

GhostMix

GhostMix以《攻壳机动队》的风格进行了训练,这是90年代的一部经典动漫。对于生成半机械人和机器人,您会发现它非常实用。

Waifu-diffusion

“Waifu Diffusion”是一种日本动漫风格。

Inkpunk Diffusion

Inkpunk Diffusion是一位在Dreambooth接受过培训的模特,以其独特的插画风格著称。

使用关键词:nvinkpunk

寻找更多模型

您可以在Huggingface上找到更多模型。

Civitai是另一个寻找模型的绝佳资源。

v2 models

稳定人工智能发布了新一系列的2.0版本模型。目前已经发布了2.0和2.1版本。v2模型的主要改变有:

  • 除了512×512像素的分辨率外,现在还提供了分辨率更高的768×768像素版本。
  • 由于训练模型中移除了色情材料,现在无法生成露骨的内容。

你可以假设每个人都已经开始使用v2模型。然而,稳定扩散社区发现2.0模型的图像质量变差了。人们在使用名人和艺术家的关键词时也遇到了困难。

2.1模型在一定程度上解决了这些问题。图像的效果更好。生成艺术风格也更容易了。

目前大多数人还没有完全转向使用2.1模型。许多人偶尔使用它们,但大部分时间还是在使用v1模型。

如何安装和使用模型

这些说明仅适用于v1模型。

要在AUTOMATIC1111 GUI中安装模型,请下载并将检查点(.ckpt)文件放置在以下文件夹中:

stable-diffusion-webui/models/Stable-diffusion/

在检查点下拉框旁边按下重新加载按钮:

您应该会看到您刚刚放置的检查点文件可供选择。选择新的检查点文件以使用该模型。

或者,您可以按 “生成” 下的“iPod”按钮。

模型面板将出现。选择“检查点”选项卡并选择一个模型。

如果您是AUTOMATIC1111 GUI的新手,则在快速入门指南中提供的Colab笔记本中预装了一些模型。

合并两个模型

合并两个模型的设置


要使用AUTOMATIC1111 GUI合并两个模型,请转到”检查点合并”选项卡,并在”主要模型(A)”和”次要模型(B)”中选择要合并的两个模型。

通过调整乘数(M)来调整两个模型的相对权重。将其设为0.5将以相等的权重合并两个模型。

按下运行按钮后,新合并的模型将可供使用。

合并模型的示例

以下是使用相等权重(0.5)合并F222和Anything V3的示例图像:

这个合并模型处于逼真的F222和动漫风格的Anything V3之间。它是一个非常适合生成具有人物形象的插画艺术的模型。

其他模型类型

有四种主要类型的文件可以被称为“模型”。让我们澄清一下它们,这样你就会知道人们在谈论什么。

  • 检查点模型(Checkpoint models):这些是真正的稳定扩散模型。它们包含生成图像所需的所有内容,不需要额外的文件。它们通常很大,约为2到7 GB。本文的重点是这种模型。
  • 文本反转(Textual inversions):也称为嵌入式。它们是定义生成新对象或样式的新关键词的小型文件。它们很小,通常为10到100 KB。你必须与检查点模型一起使用它们。
  • LoRA模型:它们是用于修改样式的检查点模型的小型补丁文件。通常为10到200 MB。你必须与检查点模型一起使用它们。
  • 超网络(Hypernetworks):它们是添加到检查点模型的额外网络模块。通常为5到300 MB。你必须与检查点模型一起使用它们。

总结

在本文中,我介绍了稳定扩散模型是什么,它们是如何制作的,一些常见的模型以及如何合并它们。使用模型可以在你有特定的风格想法时让你的生活更轻松。


已发布

分类

作者:

标签