认识Auraflow:一款真正的开源AI图像生成器,旨在击败SD3
认识Auraflow:一款真正的开源AI图像生成器,旨在击败SD3

认识Auraflow:一款真正的开源AI图像生成器,旨在击败SD3

开源AI图像生成领域迎来了新的竞争者:Auraflow。由生成媒体公司Fal AI于上周发布的Auraflow,以其标准的Apache 2.0许可证迅速获得关注,相比于Stability AI发布Stable Diffusion 3(SD3)时使用的限制性许可,这种开放许可如同一阵清风。

支持者认为,开源项目可以在竞争激烈的行业中加速开发周期,因为它解放了开发者免于许可和其他法律约束。在没有许可费用的情况下,社区常常会围绕着高效的开源项目形成,开发者可以对其工作进行调整、修改、训练,甚至从中获利。

“我们很高兴向您展示我们Auraflow模型系列的首个版本,这是迄今为止完全开源的基于流的生成模型,能够进行文本到图像的生成。”Fal AI在一篇博客文章中说道。这家总部位于旧金山的公司由Burkay Gur和Gorkem Yurtseven于2021年共同创立,他们分别曾在Coinbase和Amazon工作。公司警告说,开源AI正面临危险。“有人甚至大胆宣称开源AI已经死了。”他们说,“但还为时尚早!”

在超过四周的密集计算时间中,Auraflow经历了严格的训练,包括对不同大小、分辨率(256×256、512×512和1024×1024)和纵横比(方形图像、风景、肖像等)的图像进行预训练。结果如何?GenEval评分为0.64,通过类似DALL-E 3的提示增强管道提升至0.703。

使用 Auraflow 制作的几代产品

换句话说,Auraflow在使用合成基准测试时提供了高质量的结果。然而,尽管表现出色,Auraflow仍处于测试阶段,Fal AI将其视为0.1版本,而非稳定发布版。

Auraflow对显存的需求很高。运行其fp16版本需要一张配备约12GB显存的强大GPU,而作为对比,Stable Diffusion 3仅需6GB显存就能正常运行。然而,公司表示正在开发一个更易于管理的模型。“较小的模型或MoE可能对消费者级GPU卡更高效,因为它们的计算能力有限,因此请密切关注这个迷你版模型,它在保持强大性能的同时运行速度更快。”Fal AI表示。

Auraflow现已在Huggingface上提供下载,并可以在ComfyUI中运行,ComfyUI管理器中也有自定义节点可用。

Auraflow是SD3的强有力替代品,但是否足够强大以超越SD3呢?我们比较了这两个基础模型,并测试了它们在各种艺术风格和提示下的表现。

艺术风格和创造力

提示: “一幅详细的日落画作,描绘宁静湖面上的日落,天空中充满橙色、粉色和紫色的色调,一座木栈道伸向水面,栈道尽头坐着一个人,手持钓竿,周围被高草和野花环绕,整体风格为印象派,具有大胆的笔触和鲜艳的颜色。”

Auraflow:

  • 优点: 有效地捕捉了印象派风格,笔触大胆、颜色鲜艳。天空的色调表现得很好,营造了宁静的氛围。
  • 缺点: 人物和周围自然环境的细节可能需要更加精确。木栈道和钓鱼的人可能缺乏清晰的定义。钓竿的呈现位置不自然。

SD3 Medium:

  • 优点: 细节表现突出,尤其是在人物和栈道的描绘上。整体场景更为结构化,元素清晰,轮廓细致。
  • 缺点: 印象派风格不够突出,笔触较为平滑,更趋向于照片现实主义,而非预期的风格。

结果: 平局。Auraflow 更贴近印象派风格,但 SD3 的细节和结构更为清晰。

现实主义

提示: “一张高分辨率的夜晚繁忙城市街道照片,霓虹灯照亮了整个场景,人们在人行道上行走,汽车驶过,街头小贩在卖热狗,湿漉漉的人行道上反射出灯光,整体风格为超现实主义,注重细节和灯光,一块霓虹灯招牌写着‘Decrypt’。”

Auraflow:

  • 优点: 成功捕捉了充满活力的夜生活场景,霓虹灯和湿漉漉的人行道上的反射效果表现出色。场景充满了活动,灯光效果处理得很不错。
  • 缺点: 一些细节,如街头小贩和行人,显得不够清晰且有些卡通化,影响了超现实主义的质量。霓虹灯招牌的清晰度不足。虽然它能识别一些文本,但不够可靠。(招牌上的“Decrypt”位于热狗招牌旁边,但几乎无法辨认。)

SD3 Medium:

  • 优点: 提供了高水平的细节和清晰度,特别是在人物和物体的描绘上。超现实主义风格表现得很出色,灯光和反射处理精准。霓虹灯招牌清晰可见,文字可读性强。
  • 缺点: 场景可能显得过于整洁,缺乏繁忙城市街道的自然混乱。没有街头小贩,只有热狗摊。

结果: SD3 Medium 胜出。尽管 Auraflow 在某些方面表现良好,但 SD3 在细节和超现实主义风格上的表现更为出色,因此更适合这个提示。

插图

提示: “手绘插图,描绘一只巨大的蜘蛛在丛林中追赶一名女子,极其恐怖,充满痛苦,场景黑暗阴森,充满恐怖感,有模拟摄影的影响,草图风格。”

Auraflow:

  • 优点: 成功营造了黑暗和恐怖的氛围。手绘风格和草图元素表现得很明显,传达了应有的恐怖感。
  • 缺点: 蜘蛛和女人的细节可能不足,使得场景的恐怖和强度稍显不足。

SD3 Medium:

  • 优点: 提供了高度详细且令人恐惧的蜘蛛和女人的描绘。恐慌和恐怖的元素表现得更为明显,场景更加令人震撼。
  • 缺点: 模拟摄影的影响不够明显,草图风格可能被高细节水平所掩盖。蜘蛛的一些肢体表现不自然。

结果: SD3 Medium 胜出。尽管 Auraflow 在手绘和草图风格上表现不错,但 SD3 在恐怖和细节描绘上的表现更为出色,因此更适合这个提示。

超现实主义

提示: “一幅超现实的数字艺术作品,描绘了一座漂浮在天空中的岛屿,岛上覆盖着郁郁葱葱的绿色植物和瀑布,瀑布直泻而下,直冲云霄,岛屿中央有一座小城堡,光之桥连接到其他漂浮的岛屿,天空中充满了五颜六色的热气球和神话生物,整体风格充满幻想,带有梦幻元素和发光效果。”

Auraflow:

  • 优点: 能很好地捕捉幻想和梦幻元素,发光效果和鲜艳的颜色都处理得很出色。漂浮的岛屿和瀑布描绘得非常美丽,光之桥和神话生物也在场景中体现了出来。
  • 缺点: 一些元素,如光之桥和神话生物,可能缺乏细节和清晰度。

SD3 Medium:

  • 优点: 提供了一个高度详细且复杂的场景,整体风格较为卡通化。
  • 缺点: 对提示的遵循度较弱,没有生成光之桥,桥梁也没有连接到其他岛屿,且缺乏神话生物。

结果: Auraflow 更好地捕捉了提示中的所有元素,因此在这个提示下表现更佳。

空间意识

提示: “一只狗站在一台显示屏幕上写着‘Decrypt’字样的电视机上。左边是一位穿着西装的女人手里拿着一个硬币,右边是一个站在急救箱上的机器人。整体场景呈现超现实风格。”

Auraflow:

  • 优点: 创造了一个超现实和富有想象力的场景。构图和空间安排都很有趣。
  • 缺点: 狗、机器人和女人的细节可能不够精细,影响了整体效果。急救箱的交叉部分泄漏到第二个箱子和机器人上。文字生成效果较差。

SD3 Medium:

  • 优点: 提供了高度详细和清晰的所有元素的描绘。超现实氛围得到了很好的维持,空间布局也很精确。整体场景表现得较为逼真。
  • 缺点: 场景可能显得不够富有想象力,更偏向于字面意义上的表现。

结果: 平局。SD3 Medium 和 Auraflow 都提供了生成任务的所有元素,并且在空间理解方面表现出较好的水平。

动画和漫画

提示: “古代日本,一位女忍者与强大的武士战斗,动漫,漫画,细节丰富,色彩鲜艳,动感十足。”

Auraflow:

  • 优点: 捕捉了动漫和漫画中的动态和丰富色彩元素。动作场景充满活力且引人入胜,风格极为详细,更像是封面插图。
  • 缺点: 缺乏对提示的完整遵守,只生成了女性忍者,没有展现出对手武士的细节。

SD3 Medium:

  • 优点: 采用了简单的二维漫画风格,使场景生动且具有动态感。
  • 缺点: 颜色可能不够鲜艳,影响了整体的动态感。同时未能体现古代日本的场景。

结果: SD3 Medium 提供了更详细且具有动态感的描绘,使其在这个提示中表现更佳。不过,两者在提示遵循方面都缺乏关键元素。

结论

Auraflow和SD3 Medium各自具有不同的优势和劣势,具体取决于所需的风格和细节程度。Auraflow采用的开源Apache 2.0许可证,为那些希望对模型进行微调和自定义的用户提供了显著的优势,因为它比SD3 Medium的更严格许可证提供了更多灵活性。这确实使Auraflow在创意和开发用途上成为一个有吸引力的选择,尤其是当你计划实验和调整模型以满足特定需求时。

然而,Auraflow运行时需要大量的VRAM,有报道称其需求高达35 GB,这显著高于SD3所需的仅6 GB VRAM。作为参考,24GB的RTX 4090在亚马逊上的价格高达1700美元,而6GB的RTX 3050则可以找到不到200美元的价格。当前,SD3在硬件要求上的优势使其相比Auraflow具有明显的优势。

考虑到这一点,SD3 Medium在目前的比较中更具优势,因为它的硬件要求更低,并且在质量上与Auraflow的结果相当。

尽管如此,Auraflow显示出很大的潜力。如果将来开发出精简版(较小的版本)或量化版(精度较低的版本),以降低其硬件需求,Auraflow可能成为一个强有力的竞争者,并有可能挑战Stability在Stable Diffusion模型上的长期主导地位。