Flux：新的开源AI图像生成器，击败了Midjourney、SD3和Auraflow

Black Forest Labs——帮助开发最初的Stable Diffusion的团队——推出了Flux，这是迄今为止最大的开源文本生成图像模型。Flux拥有惊人的120亿参数，可以生成与Midjourney媲美的视觉效果，甚至可能超越当前任何其他模型。

Flux有三个版本：Flux Dev，这是一个开源版本，具有非商业许可证，用于社区开发；Flux Schnell，这是一个更快的蒸馏版本，运行速度快达十倍，可在Apache 2许可证下使用，是顶级型号；以及Flux Pro，这是一个通过API提供的闭源版本。

Flux Dev和Flux Schnell可以在Hugging Face上下载。ComfyUI也已更新，以支持在本地工作流中使用这些新模型。

此次发布是在成功完成3100万美元种子轮融资之后进行的，该轮融资由Andreessen Horowitz领投，其他知名投资者包括Brendan Iribe、Michael Ovitz和Garry Tan。

在基准测试中，Flux表示其模型在图像合成方面设立了新标准，超越了如Midjourney v6.0、Dall-E 3（HD）和SD3 Ultra等模型，在视觉质量、提示跟随、尺寸/比例变化、排版和输出多样性方面表现出色。Black Forest的图表声称，其Pro和Dev模型是迄今为止最好的图像生成器，而其功能稍弱的Schnell则位于Midjourney v5和Ideogram之间。

Flux在基准测试中的表现非常出色，但它生成的图像质量如何呢？我们将其与目前最突出的开源图像生成器进行了比较。让我们来比较一下Flux、SD3 Medium和Auraflow，然后再将其与Midjourney进行一对一对比。

插图

提示 1：“手绘的插图，一只巨大的蜘蛛在丛林中追逐一个女人，极度恐怖、痛苦、黑暗和令人毛骨悚然的场景、恐怖、暗示模拟摄影的影响、素描。”

Flux 很好地运用了氛围灯光和阴影。蜘蛛的设计确实很吓人，它有锋利的腿和可怕的脸。女人脆弱的姿势很好地传达了痛苦。这是对解剖学最准确的表现。

Auraflow 的青色色调给人一种诡异、超凡脱俗的感觉，但并没有完全满足“黑暗和恐怖”的要求。蜘蛛设计不那么可怕，而且更加风格化。

SD3 Medium 的黑白风格给人一种强烈的素描般的感觉。蜘蛛的设计细致而又充满威胁性，但四肢有一些形态缺陷。

排名：

Flux：最能捕捉恐怖、痛苦和令人毛骨悚然的氛围。这是最准确的创作，没有形态缺陷。
SD3 中等：虽然视觉效果惊人，但与提示中的“模拟摄影”方面最不符。恐怖风格很明显。
Auraflow：整体上最接近素描和模拟摄影。然而，它最不令人毛骨悚然，最不吓人，也是最不能传达场景整体氛围的。

空间意识

提示 2：“一只狗站在电视机顶上，屏幕上显示‘解密’字样。左边是一位身着西装的女性，手里拿着一枚硬币，右边是一个机器人站在急救箱上。整体场景超现实。”

Flux 是最符合提示要求的模型。它将所有元素都放在了所需的位置。构图均衡，元素的意外放置和复古未来主义的冲突增强了超现实主义的品质。虽然它让人瞥见了一只额外的手，但这个版本最准确地捕捉到了提示的本质。

SD3 Medium 排名第二。它理解了所有元素，但也有一些变化——比如卡通风格和狗坐着而不是站着。它捕捉到了提示的一些元素，但错过了其他元素，在准确性方面介于 Flux 和 Auraflow 之间。

Auraflow 对提示进行了一些改动。电视上的狗是坐着的，而不是站着的；女人的装扮更像是 20 世纪 50 年代的复古风，而不是现代商务套装；机器人放在蓝色底座上，而不是急救箱上；整体风格更复古、色彩更丰富，不那么超现实。文字渲染得也很差。

排名：

Flux：最准确地响应提示并达到超现实的品质。
SD3 中等：捕捉主要元素但缺少一些细节。
Auraflow：创造性的诠释，但与原始提示偏差最大。

现实主义

提示 3：“一张夜晚繁华的城市街道的高分辨率照片，霓虹灯照亮了场景，人们沿着人行道行走，汽车驶过，街头小贩卖热狗，灯光倒映在湿滑的路面上，整体风格超现实，注重细节和灯光，霓虹灯上写着‘解密’。”

Flux 非常符合提示的要求。它描绘的是夜晚熙熙攘攘的城市街道，霓虹灯照亮了整个场景，人们在人行道上行走，汽车驶过。湿滑的路面上灯光的反射非常逼真，“解密”标志非常醒目。

Auraflow 对提示进行了一些改动。鲜艳的霓虹灯营造出一种繁华的氛围，湿滑路面上的反射增加了真实感。街头小贩清晰可见并与场景互动。然而，图像略显饱和，街头小贩看起来很卡通，这削弱了超现实主义风格。霓虹灯招牌模糊不清，人行道和街道之间没有明显的区别，因为模型产生了奇怪的视角。

SD3 Medium 也捕捉到了提示的主要元素，但有一些变化。平衡的构图既关注行人，也关注环境，逼真的灯光和反射增强了夜间城市的感觉。“Decrypt”标志很显眼，街头小贩也为热闹的氛围增色不少。然而，仔细观察，很容易发现一些让场景不真实的元素。例如，人们在街上行走，人行道会扩大以容纳热狗摊。

排名：

Flux：细节丰富，光线充足。很好地捕捉了繁忙的街道，标志清晰易读，行人形象鲜明。
SD3 中：通过均衡的构图、逼真的灯光和精心整合的元素（包括“解密”标志和街头小贩）满足了提示的要求。但行人的表现不如 Flux 一代那么逼真。
Auraflow：具有鲜明灯光的创意诠释，但与超现实主义风格不同，后者采用卡通街头小贩和杂乱的霓虹灯招牌。它在透视方面存在一些问题

Flux 对抗 Midjourney

我们还将 Flux 与 Midjourney 进行了比较。

现实主义

提示 1：一张黑白照片，照片中一位留着长直发的女士，身穿凸显身材曲线的全黑服装，坐在现代沙发前的地板上。她自信地对着镜头摆姿势，蹲下时露出纤细的双腿……

Midjourney 完全符合要求。照片中，一名女子蹲在柔软的地面上，动作生动，捕捉到了高级时装照片的精髓。她的头发、面部特征和衣服的细节都经过高精度渲染，增强了真实感。然而，姿势虽然动感十足，却不自然。女子的右手看起来像手和脚的混合体，右腿不知从何处消失，左脚的形状也像手。

另一方面，Flux 以均衡的构图捕捉到了提示的主要元素。女人盘腿坐在地板上，姿势更加放松和自然。面部特征、头发和衣服的高精度渲染有助于呈现逼真的外观。灯光柔和而散漫，提供柔和的阴影和高光，突出了拍摄对象的特征。

不过，这一作品并非完美无缺。她似乎多了一条腿，不过这可以通过修复或 Photoshop 等工具轻松修复，因为整体场景比较暗，因此操作起来比较容易。

排名：

Flux：以自然的姿势、情境背景和细节渲染来捕捉提示的要求。从形态上讲，它是最准确的。
Midjourney：具有动态姿势和高水平细节，但缺乏 Flux 图像的上下文丰富性，并且身体表现不如 Flux 那样准确。

Prompt Adherence

提示 2：一只白猫在弹钢琴，戴着太阳镜和帽子，穿着紫色夏威夷风格的衣服，全身照在灰色工作室背景下，商业视频截图。

Midjourney 对提示的诠释抓住了场景的奇思妙想。鲜艳的紫色夏威夷衬衫增添了一丝俏皮感。灯光柔和，有效地强调了纹理和颜色。然而，特写镜头偏离了提示中指定的“全身镜头”，背景不是要求的灰色工作室设置，而是一个更自然、更不受控制的环境。整体构图虽然迷人，但在现实主义和风格上表现出色，但缺少提示中的一些关键元素。

Flux 更贴近主题，用一张白猫弹钢琴的全身照捕捉到了主题的所有元素。构图不太时尚，但包括了猫的整个身体，确保所有指定的细节都清晰可见。灯光和渲染效果很好，突出了猫的姿势和整体场景。然而，虽然图像非常详细和准确，但它可能缺乏 Midjourney 产生的特写镜头的直接魅力和表现力（众所周知，Midjourney 更注重美感而不是准确性）。

排名：

Flux：全身照、灰色摄影棚背景和指定服装都准确捕捉。构图专业精致，完全符合提示要求。
Midjourney：提供了迷人而细致的特写镜头，具有表现力，但缺少全身镜头和工作室背景等关键元素。虽然视觉上很吸引人，但偏离了提示的具体内容。

结论

Flux 令我们惊喜不已，它在我们所有的测试中都名列前茅。它的“专业版”绝对能提供高质量的结果，可以成为 Midjourney 和其他付费选项的有力竞争对手。它需要更丰富的提示，但结果非常准确、逼真，并且符合提示的内容。

对于那些愿意花钱购买优质图像生成器的人来说，Flux Pro 似乎是最划算的选择。“Dev”和“Schnell”版本比基础版 SD3 Medium 和 Auraflow 更好，因此即使在开源领域，Flux 也是一个相当强大的竞争对手。