用文字绘画:文本到图像AI的历史回顾
用文字绘画:文本到图像AI的历史回顾

用文字绘画:文本到图像AI的历史回顾

prompt:sketch of internet is a series of tubes by Leonardo Da Vinci, 同一prompt在VQGAN+CLIP, SD1.5, SD2.1, SDXL四种工具下的生成效果

随着近日在Replicate上发布的Stable Diffusion XL微调版本,以及正值Stable Diffusion推出一周年纪念日,现在似乎是一个绝佳的机会,让我们退后一步,反思过去几年文本至图像的AI是如何取得进步的。

我们见证了AI生成的图像从一堆难以理解的眼球和噪音,逐渐发展为高质量的艺术图像,有时几乎难以与画家的笔触或详细的插图渲染区分开来。

在这里,我们将迅速回顾文本至图像AI的演进,以了解过去几年取得的进步,从早期的 GAN experiments到最新的扩散模型。

前言

为了庆祝Stable Diffusion推出一周年,已经将免费的文本至图像AI创作工具更新至最新的Stable Diffusion XL 1.0模型。

Zoo是一个开源网络应用,用于比较文本至图像生成模型。Zoo允许您将各种图像生成模型并排比较,因此,您可以通过同时比较多个模型中的相同prompt,将Stable Diffusion和其他文本至图像AI模型如何随着时间而改进进行可视化。Zoo包括Stable Diffusion 1.5, Stable Diffusion 2.1, Stable Diffusion XL 1.0, Kandinski 2.2, DALL·E 2, Deepfloyd IF, 以及 Material Diffusion。

Zoo:文本到图像游乐场,在那里你可以并排比较文本到图像的AI模型。

目录

以下是本文将展示的模型列表。点击下面的任一标题,跳转到相应的部分。

  1. CLIP + DALL·E
  2. Advadnoun的DeepDaze
  3. Advadnoun的The BigSleep
  4. DALL·E 2
  5. DALL·E Mini
  6. Pixray
  7. VQGAN+CLIP
  8. Stable Diffusion 1
  9. Stable Diffusion 2
  10. Stable Diffusion XL (SDXL)
  11. Fine-tuning

CLIP + DALL·E

图文生成AI领域的发展在2021年1月开始迅速崛起,正是在那时,OpenAI发布了他们的CLIP模型。

CLIP是OpenAI推出的一个开源模型,它基于从网络收集的带字幕图像进行训练,能够将图像和文本都投影到同一个嵌入空间中进行分类。这意味着它对于给定图像中发生的事情有着语义理解。例如,如果您向CLIP提供一张香蕉的照片,它在嵌入空间中会与“黄色的香蕉”文本紧密相关。

图像和文本的这种多模态理解是文本至图像AI的重要基础要素,因为它可以用来引导文本至图像AI生成的结果,使其看起来与给定的文本提示相符。

OpenAI还发布了一篇详细介绍他们如何利用CLIP构建文本至图像模型DALL·E的论文。

虽然DALL·E从未完全开源,但该论文和方法激发了一些开源实现,这些实现最终塑造了我们所知的图文生成AI领域。

Advadnoun的DeepDaze

在DALL·E论文发布几天后的2021年1月,advadnoun发布了第一个开源的文本至图像AI实验。

网友@advadnoun分享了一个名为“深度黎明(Deep Daze)”的Colab笔记本。它结合了OpenAI的CLIP模型和SIREN模型,以创建几乎可辨识的图像。可在下面的图像中看到,这些图像初步呈现出与prompt的相似之处,但所有图像都非常抽象,从未趋于现实主义或可辨认的主题。

以下是使用DeepDaze生成的一些初始图像。比较有趣的是日落中的杨树(poplars at sunset),它几乎看起来像是一幅抽象的印象派绘画作品。

poplars at sunset - January 10, 2021 - @advadnoun
poplars at sunset – 2021年1月10日 – @advadnoun
unnamed anime person - January 10, 2021 - @advadnoun
unnamed anime person – 2021年1月10日 – @advadnoun
Birdhouse that looks like a chair - January 20, 2021 - @JasonCobill
Birdhouse that looks like a chair – 2021年1月20日 – @JasonCobill
a woman in a green dress dancing in a medieval castle - January 10, 2021 - @MasterScrat
a woman in a green dress dancing in a medieval castle – 2021年1月10日 – @MasterScrat

Advadnoun的 The BigSleep

大约一周后,网友@advadnoun分享了另一个名为“The BigSleep”的Colab笔记本。这个新的笔记本展示了CLIP模型与BigGAN模型的结合。

The BigSleep代表了朝着创建可辨识场景的明显改进,但图像仍然经常难以理解,充满了奇怪的伪影和错误。

最喜欢这些图像中的一幅是色彩鲜艳的场景(A scene with vibrant colors)——云朵是逼真的,而且这些充满活力的颜色看起来就像秋季的叶子。

The Great Pyramids were turned into prisms by a wizard - January 17, 2021 - Wiskkey
The Great Pyramids were turned into prisms by a wizard – 2021年1月17日 – Wiskkey
A scene with vibrant colors - January 17, 2021 - Wiskkey
A scene with vibrant colors – 2021年1月17日 – Wiskkey
image from The Big Sleep notebook - January 17, 2021 - @advadnoun
image from The Big Sleep notebook – 2021年1月17日– @advadnoun
a black cat sleeping on top of a red clock - January 17, 2021 - Wiskkey
a black cat sleeping on top of a red clock – 2021年1月17日 – Wiskkey

DALL·E 2

到了2021年4月,整个领域开始转向扩散模型。

OpenAI宣布推出了DALL·E 2,并发表了一篇新论文详细介绍了他们的改进,演示了扩散模型如何提高了整体图像质量和一致性。DALL·E 2作为一个闭源产品发布,最初只向少数一些测试用户开放。

终于,梦想成真了!您可以输入类似“一幅猫戴着红帽子的画作(a painting of a cat wearing a red hat)”的prompt,它会为您生成一幅一只戴着红帽子的猫的图像。🤯

cat wearing a suit and tie, at the 24th st. bart station, DALL·E 2
cat wearing a suit and tie, at the 24th st. bart station, DALL·E 2
cat wearing a red hat, DALL·E 2
cat wearing a red hat, DALL·E 2

DALL·E Mini

接下来于2021年7月发布的另一个受欢迎的文本至图像AI模型是DALL·E Mini,这是由Boris Dayma等人开发的一个开源的文本至图像模型。

Boris发表了一篇精彩的深度解析,详细介绍了他们是如何将各种模型(包括VQGAN、CLIP和Bert)结合起来,从文本提示中创建出可辨识的图像。

👉🏼 在Replicate上运行DALL·E Mini生成的图像:

white snow covered mountain under blue sky during daytime, DALL·E Mini
white snow covered mountain under blue sky during daytime, DALL·E Mini
cartoon carrot with big eyes, DALL·E Mini
cartoon carrot with big eyes, DALL·E Mini
illustration of a baby shark swimming through corals, DALL·E Mini
illustration of a baby shark swimming through corals, DALL·E Mini
an armchair in the shape of an avocado, DALL·E Mini
an armchair in the shape of an avocado, DALL·E Mini

Pixray

Pixray是Replicate历史上重要的图像生成模型。在2022年初,Pixray是首个在Replicate上达到数万次运行的文本至图像模型。如今,它已经累计运行了130万次。

Dribnet是第一个正式要求大家构建API作为网络预测表单替代方案的Replicate用户。剩下的就成了历史! 😅

👉🏼 在Replicate上运行Pixray生成的图像:

Watercolor painting of a beautiful old library
Watercolor painting of a beautiful old library, Pixray
Using artists as an example, when anyone can create amazing art, there will be incredible upside for humanity, but downside for most individual artists..., Pixray
Using artists as an example, when anyone can create amazing art, there will be incredible upside for humanity, but downside for most individual artists…, Pixray
Super Mario Bros #Splafluted Level, Pixray
uper Mario Bros #Splafluted Level, Pixray
a cozy japanese ramen stall #pixelart
a cozy japanese ramen stall #pixelart, Pixray

VQGAN+CLIP

在2022年4月,用户@RiversHaveWings分享了一系列结合了VQGAN和CLIP的Colab笔记本。还有一篇论文,其中包含了一些有趣的示例,以及他们如何将VQGAN与CLIP相结合的详细描述。

VQGAN+CLIP在重新创造艺术的外观和感觉方面似乎是一个重大的进步。会注意到下面的图像开始与它们的prompt相似,艺术纹理,如刷笔的笔触和铅笔的痕迹,开始出现。VQGAN+CLIP被用来创建了第一批让人们惊讶的AI生成图像。

👉🏼 在Replicate上运行VQGAN+CLIP生成的图像:

Robots are s*** at art, VQGAN+CLIP, July 2021 - Sylvie
Robots are s*** at art, VQGAN+CLIP, 2021年1月 – Sylvie
the Tower of Babel by J.M.W. Turner, VQGAN+CLIP, April 2021 - K Crowson, S Biderman et al.
the Tower of Babel by J.M.W. Turner, VQGAN+CLIP, 2021年4月 – K Crowson, S Biderman et al.
A colored pencil drawing of a waterfall, VQGAN+CLIP, April 2021 - K Crowson, S Biderman et al.
A colored pencil drawing of a waterfall, VQGAN+CLIP, 2021年4月 – K Crowson, S Biderman et al.
sketch of internet is a series of tubes by Leonardo Da Vinci, VQGAN+CLIP, December 2021 - @anotherjesse
sketch of internet is a series of tubes by Leonardo Da Vinci, VQGAN+CLIP, 2021年12月 – @anotherjesse
spaceship pencil, VQGAN+CLIP, December 2021 - @anotherjesse
spaceship pencil, VQGAN+CLIP,2021年12月 – @anotherjesse

Stable Diffusion 1

在2022年8月22日,Stable Diffusion 1.4首次亮相。模型权重以及所有的代码都被公开发布为开源。

在Hackernews上看到了一些示例,对一些人在评论中分享的结果感到印象深刻。当决定尝试一下时,感到非常怀疑。模型的权重在磁盘上只有4GB,能有多好呢?

不知何故设法在游戏电脑上启动了一切,电脑配备了一块带有8GB VRAM的NVIDIA RTX 2080 GPU。能够在本地电脑上生成任何想到的东西,简直难以置信。生成一张图片大约需要50秒,但无法相信这一切。那个晚上可能花了4个小时生成愚蠢的图片。

这是在2022年8月30日第一次使用Stable Diffusion生成。想想这甚至还不到一年,真是不可思议。

cat with a hat, playing poker, watercolor painting, seed: 3315381862, Stable Diffusion 1.4
cat with a hat, playing poker, watercolor painting, seed: 3315381862, Stable Diffusion 1.4

以下是使用Stable Diffusion1.4和1.5生成的一些其他图像。从VQGAN和DALL·E Mini到现在,回顾这些作品,仍然对其质量的提升感到惊讶,

a photograph of an astronaut riding a horse on mars
a photograph of an astronaut riding a horse on mars, Stable Diffusion v1.4
A high tech solarpunk utopia in the Amazon rainforest
A high tech solarpunk utopia in the Amazon rainforest, Stable Diffusion 1.4
an astronaut riding a horse on mars, hd, dramatic lighting
an astronaut riding a horse on mars, hd, dramatic lighting, Stable Diffusion 1.5
colorful bird posing with extreme glowing rainbow colors
colorful bird posing with extreme glowing rainbow colors, Stable Diffusion 1.5
A golden retriever dog sitting in the middle of sunny meadow, oil painting
A golden retriever dog sitting in the middle of sunny meadow, oil painting, Stable Diffusion 1.5
ancient space ship, ice fish shape, desert planet, cinematic, highly detailed, scifi, intricate digital painting, sunset, red glow, illustration, artstation
ancient space ship, ice fish shape, desert planet, cinematic, highly detailed, scifi, intricate digital painting, sunset, red glow, illustration, artstation, Stable Diffusion 1.5

Stable Diffusion 2

Stable Diffusion2于2022年10月首次发布,有点像是第二张尴尬的专辑。还不错,只是… 有些不同。

第2版有几个变化和改进,如negative prompt、使用OpenCLIP作为文本编码器、更大的图像输出等。

迁移到OpenClip导致与Stable Diffusion之前版本相比,图像输出和构图发生了显著的变化。对许多人来说,这感觉像是“破坏性的变更”。最显著的是,这次迁移导致许多艺术家的名称从文本编码器中被移除,直到今天,这使得一部分用户仍然更愿意使用1.5版本而不是2.1版本。

不能再像在Stable Diffusion v1.x中那样使用类似ARTIST_NAME_HERE的风格提示,从而获得特定风格化的结果。

新的OpenCLIP变化鼓励用户使用更具描述性的prompt,描述想要生成的图像细节,而不是复制整个风格。

以下是使用Stable Diffusion2.1生成的一些图像:

flatirons, Chautauqua park, flatirons vista, green, boulder colorado, plein air oil painting, Stable Diffusion 2.1
flatirons, Chautauqua park, flatirons vista, green, boulder colorado, plein air oil painting, Stable Diffusion 2.1
Act as if you are the artist Picasso and you are emulating Vincent Van Gogh and his painting style, painting a portrait of a woman in blue, photorealistic, hyper detailed, Octane Render, 3D, UHD, High Quality, Cinematic Character Render. Insanely Detailed, Stable Diffusion 2.1
Act as if you are the artist Picasso and you are emulating Vincent Van Gogh and his painting style, painting a portrait of a woman in blue…, Stable Diffusion 2.1
retro sci-fi 1950’s astronaut in-front of a futuristic glass city, reflection of a female shadow silhouette on glass helmet, under stars and moon, art deco, 1950’s, glowing highlights, teal palette, modern, Stable Diffusion 2.1
retro sci-fi 1950’s astronaut in-front of a futuristic glass city, reflection of a female shadow silhouette on glass helmet, under stars and moon, art deco, 1950’s, glowing highlights, teal palette, modern, Stable Diffusion 2.1
A mysterious dark wood, 4k, a lot of fern, a lot of fog, Stable Diffusion 2.1
A mysterious dark wood, 4k, a lot of fern, a lot of fog, Stable Diffusion 2.1

Stable Diffusion XL (SDXL)

这将我们带到了最新和最伟大的文本至图像AI模型,Stable Diffusion XL,在2023年7月26日发布。

SDXL提供了更高质量的图像,更少的伪影以及更一致的结果。SDXL支持修复、图像生成、细化、专家集成生成、微调等功能。

在使用了几个星期后,基础模型的结果惊人地好。可以亲自尝试一下。

以下是一些SDXL图像的示例:

a stunning watercolor painting on canvas of california poppy flowers, Stable Diffusion XL 1.0
Ocean Swells, by moebius, Stable Diffusion XL 1.0
An astronaut riding a rainbow unicorn, cinematic, dramatic
An astronaut riding a rainbow unicorn, cinematic, dramatic, SDXL 1.0

这些图像令人惊叹,但似乎只是刚刚开始。在当前的开发速度下,开源社区在未来的几个月和几年内肯定会提供更好的模型、工具和工作流程。现在是一个令人兴奋的时刻,因为已经拥有了基本的工具和坚实的基础来构建。

展望未来,我们将在微调、构图控制和创意增强方面看到更多进展。这些东西在Stable Diffusion中已经存在,但只能想象它们会变得更好、更快、更易于使用。

Fine-tuning

Fine-tuning是将预训练的基础模型(如Stable Diffusion)进一步训练在特定数据集上的过程。在文本至图AI模型的背景下,这意味着可以训练Stable Diffusion生成您的狗的图像、您最喜欢的动漫角色,或者您最喜欢的艺术家的风格。当今一些流行的Fine-tuning包括DreamBooth、LoRA和Textual Inversion。

这就是开源模型在Midjourney或DALL·E 2等私有模型面前的优势所在;通过允许您对日常生活中的主题/对象进行训练和生成。

Replicate最近为SDXL发布了Fine-tuning。下面是狗狗Queso的微调模型的并排比较。每个图像都使用相同的prompt。左边是Stable Diffusion 2.1的Dreambooth,而右边是通过遵循上面提到的来微调的SDXL模型。

Photo of my dog Queso, generated with a Dreambooth fine-tuned Stable Diffusion 2.1
Photo of my dog Queso, generated with a Dreambooth fine-tuned Stable Diffusion 2.1
Photo of my dog Queso, generated with a Dreambooth fine-tuned SDXL 1.0
Photo of my dog Queso, generated with a Dreambooth fine-tuned SDXL 1.0

以下是一些精彩的作品:

70s Sci-Fi, SDXL Fine-Tune
70s Sci-Fi, SDXL Fine-Tune
SDXL Vision Pro
SDXL Vision Pro, add Vision Pro to any image.
SDXL Barbie - add Barbie flare to any image.
SDXL Barbie – add Barbie flare to any image.
Loteria - generate stylistic images in the style of Loteria cards
Loteria – generate stylistic images in the style of Loteria cards

展望未来

随着SDXL的发布,以及开源微调和ControlNet模型的持续发展,正逐渐接近创意自由和控制的乐土,您可以生成您想象得到的任何东西。

Zoo - A playground to experiment with text-to-image AI models.
Zoo – 一个实现文本到图像AI模型的游乐场。
SDXL Parameter Guide - Including animated visualizations for parameters.
SDXL Parameter Guide – 包括参数的动画可视化。
Paint by Text - InstructPix2Pix iterative text-based image editing.
Paint by Text – InstructionPix2Pix基于文本的迭代图像编辑。
Scribble Diffusion - ControlNet Scribble, bring your scribbles to life.
Scribble Diffusion – ControlNet Scribble, 让涂鸦栩栩如生。
Quirky - Create QR codes with Stable diffusion.
Quirky – 使用Stable diffusion创建二维码
Outpainter - Expand the contents of an image using generative fill.
Outpainter -使用生成填充展开图像的内容