AI艺术对决:顶级工具MidJourney、Stable Diffusionv1.5和SDXL的比拼
AI艺术对决:顶级工具MidJourney、Stable Diffusionv1.5和SDXL的比拼

AI艺术对决:顶级工具MidJourney、Stable Diffusionv1.5和SDXL的比拼

AI技术的巅峰对决加速了生成图像创作的竞争。哪个工具获得了最高荣誉呢?

使用SDXL v1.0制作的图片

AI生成艺术的时代已经到来,三大巨头成为数字创作者的首选工具:Stability AI的新SDXL,它的老牌产品Stable Diffusion v1.5,以及它们的主要竞争对手:MidJourney。

OpenAI的Dall-E开创了这场革命,但由于缺乏更新和闭源的缘故,Dall-E 2在与竞争对手相比的任何领域都没有脱颖而出。然而,在未来可能发生改变,因为OpenAI正在测试一款据说非常出色、产生出色作品的新版本Dall-E。

有了各自独特的优势和局限性,从领先平台中选择合适的工具至关重要。深入探讨这些生成艺术技术在功能、要求、风格和美感方面的比较。

MidJourney:AI艺术的入门之选

《太空歌剧剧场》是MidJourney在数字艺术比赛中获得一等奖的作品

作为三款工具中最用户友好的选择,MidJourney使非技术用户也能轻松接触AI艺术,只要他们熟悉Discord。该平台在MidJourney的服务器上运行,用户通过Discord聊天进行交互。这种封闭的方式既有利有弊。好的一面是,您不需要任何专门的硬件或AI技能。但是,MidJourney的模型和训练数据缺乏开源透明度,使得您在使用上受到相当多的限制,也使得爱好者无法改进它。 MidJourney是其中最富魅力的选择,初学者喜欢它用户友好的Discord界面。只需给机器人发送文本提示,在几分钟内就能拥有一件美学杰作。问题在于,每年96美元的价格对于无法定制或在本地运行的AI来说有点昂贵。但至少看起来很有艺术气息!

在功能上,MidJourney根据文本提示快速生成图像,并具有令人印象深刻的美学统一性。但是,如果深入研究特定主题,输出结果可能会变得更加怪异。MidJourney喜欢在每个创作中加入自己的风格,即使这不是提示者所想象的。因此,大多数图像可能会被饱和度提高、对比度增强,倾向于更加逼真而非真实,以至于一段时间后人们会根据其美学特征识别出由MidJourney创建的图片。

在MidJourney上,您的创作自由也受到平台严格的内容规则的限制。它在社交(描绘裸露或暴力内容方面)和政治(有关有争议的话题和特定领导人的内容)方面都受到严格审查。总体而言,MidJourney为AI艺术提供了令人向往的入门体验,但高级用户会渴望更多的控制和可定制性。这时,Stable Diffusion就登场了。

Stable Diffusion v1.5:AI艺术中的“可靠工作马”

使用SD v.15模型创建的图片

如果说MidJourney是小马车游乐设施,那么Stable Diffusion v1.5就是可靠的劳动力。作为一种开源模型,Stable Diffusion v1.5已经持续开发了一年多时间,它驱动了许多当今最受欢迎的AI艺术工具,如Leonardo AI、Lexica、Mage Space以及所有那些现在可以在Google Play商店上找到的AI waifu生成器。

活跃的MidJourney社区对基础模型进行了迭代,创建了专门的检查点、嵌入式和LoRAs,专注于从动漫风格到复杂的风景、超逼真的照片等各种各样的风格。缺点呢?相比较年轻的AI新秀,它开始显得有些老态龙钟。

通过在内部进行一些调整,Stable Diffusion v1.5可以生成与您的创意愿景相适应的清晰、详细的图像。目前的输出分辨率最高为512×512或有时768×768,超过此分辨率后图像质量会下降,但通过快速缩放技术可以帮助改善。平铺升样的普及也提高了该模型的受欢迎程度,使其能够生成超分辨率图片,远远超出了MidJourney的能力范围。

目前,Stable Diffusion v1.5是唯一支持图像修复(改变图像内部内容)的技术。它还支持图像扩展,让模型将图像扩展到其边框之外。它是多方向的,这意味着用户可以在垂直和水平轴上扩展他们的图像。此外,它还支持第三方插件,如roop(用于创建Deepfake)、After Detailer(用于改进脸部和手部)、Open Pose(用于模仿特定姿势)和区域提示。

对于运行该模型,创作者建议使用Nvidia RTX 2000系列或更高性能的GPU,但Stable Diffusion v1.5的轻量级占用在4GB VRAM显卡上也可以流畅运行。尽管它有些老了,但强大的社区支持使得这款AI艺术的“老前辈”牢固地稳居榜首。

SDXL:AI艺术的下一个前沿

使用SDXL制作的图片

如果Stable Diffusion v1.5是可靠的劳动力,那么SDXL就是年轻的纯种赛马在赛道上奔驰。这款强大的模型也来自Stable AI,利用双文本编码器更好地解释提示,其两阶段生成过程在高分辨率下实现了更优秀的图像连贯性。

这些功能听起来很令人兴奋,但同时也使得SDXL略显难以驾驭。一个文本编码器喜欢短小的自然语言,另一个则使用SD v1.5的风格,使用截断的、具体的关键词来描述组合。

两阶段的生成意味着它需要一个细化模型来为主要图像添加细节。这需要时间、内存和计算能力,但结果令人惊叹。

SDXL已经准备好引人注目。它支持Stable Diffusion v1.5近3倍的参数,展示了相当强大的性能——生成的图像分辨率比其前身大近50%,而不费吹灰之力。但这种前沿性能是有代价的:SDXL需要至少6GB的VRAM的GPU,需要更大的模型文件,并且缺少预训练的专业化模型。

开箱即用的输出还不如经过精细调整的稳定扩散模型。然而,随着社区进行优化工作,SDXL的潜力将远远超越当今模型所能达到的。

输出比较

一幅图片胜过千言万语,试图使用相似的提示来比较不同的输出,让您选择您最喜欢的那个。请注意,每个模型需要不同的提示技巧,因此即使它们并非一对一的比较,也是一个很好的起点。

更具体地说,我们对稳定扩散使用了一个相当一般化的负面提示,而MidJourney实际上不需要这样的提示。除此之外,提示都是相同的,结果也不是手工挑选的。

  • Prompt: Portrait of a corgi riding a bike crossing the sea(一只柯基骑着自行车穿越大海)

评论:这里只涉及SDXL和MidJourney之间的风格问题。尽管看起来Stable Diffusion v1.5似乎是唯一能够正确“骑”自行车或至少正确使用自行车的,但其余两者都优于Stable Diffusion v1.5。

  • Prompt: The Red Square at Night(夜晚的红场)

评论:MidJourney试图在红场上创造一个红色的场景。SDXL v1.0更清晰,但SD v.15(模型:Juggernaut v5)的颜色对比更好。

  • Prompt: A busty teacher in a futuristic classroom(未来教室里胸部丰满的教师)

评论:由于MidJourney的审查规则,它拒绝生成图像。SDXL更丰富地展现了细节,创造了胸部丰满的教师和未来教室。SD v1.5则更专注于胸部丰满的教师(主体。模型:Photon v1),而环境细节较少。

  • Prompt: a brain powering a machine, jeffrey smith and h.r. giger, highly detailed in 4k, by Nishida Shun’ei, poster, tool, highly detailed epic, epic cyberpunk, studio muti, bitmap, by Sugimura Jihei(尼什田顺栄的4K高度详细描绘的脑,杰弗里·史密斯和H·R·吉格尔,海报,工具,高度详细的史诗,史诗赛博朋克,Studio Muti,位图,杉村治平作品)

评论:MidJourney和SDXL都按照提示生成了结果。SDXL更好地再现了艺术风格,而MidJourney则更专注于生成美观的图像而不是重现艺术风格,它还丢失了许多提示的细节(例如:图像中没有显示脑部驱动机器,而是头骨驱动机器)。

生成艺术的未来

那么,您想选择哪个“莫奈学徒”呢?坦率地说,无论选择哪个选项,都不会错。MidJourney在易用性和美学统一方面表现出色。Stable Diffusion v1.5提供了可定制性和社区支持。而SDXL则将超逼真图像生成的边界推向了更远。与此同时,敬请期待Dall-E接下来将推出的新功能。

现在画笔在您手中,空白的画布等待着您。选择喜爱的生成工具,开始创作吧!