Black Forest Labs——帮助开发最初的Stable Diffusion的团队——推出了Flux,这是迄今为止最大的开源文本生成图像模型。Flux拥有惊人的120亿参数,可以生成与Midjourney媲美的视觉效果,甚至可能超越当前任何其他模型。
Flux有三个版本:Flux Dev,这是一个开源版本,具有非商业许可证,用于社区开发;Flux Schnell,这是一个更快的蒸馏版本,运行速度快达十倍,可在Apache 2许可证下使用,是顶级型号;以及Flux Pro,这是一个通过API提供的闭源版本。
Flux Dev和Flux Schnell可以在Hugging Face上下载。ComfyUI也已更新,以支持在本地工作流中使用这些新模型。
此次发布是在成功完成3100万美元种子轮融资之后进行的,该轮融资由Andreessen Horowitz领投,其他知名投资者包括Brendan Iribe、Michael Ovitz和Garry Tan。
在基准测试中,Flux表示其模型在图像合成方面设立了新标准,超越了如Midjourney v6.0、Dall-E 3(HD)和SD3 Ultra等模型,在视觉质量、提示跟随、尺寸/比例变化、排版和输出多样性方面表现出色。Black Forest的图表声称,其Pro和Dev模型是迄今为止最好的图像生成器,而其功能稍弱的Schnell则位于Midjourney v5和Ideogram之间。
Flux在基准测试中的表现非常出色,但它生成的图像质量如何呢?我们将其与目前最突出的开源图像生成器进行了比较。让我们来比较一下Flux、SD3 Medium和Auraflow,然后再将其与Midjourney进行一对一对比。
插图
提示 1:“手绘的插图,一只巨大的蜘蛛在丛林中追逐一个女人,极度恐怖、痛苦、黑暗和令人毛骨悚然的场景、恐怖、暗示模拟摄影的影响、素描。”
Flux 很好地运用了氛围灯光和阴影。蜘蛛的设计确实很吓人,它有锋利的腿和可怕的脸。女人脆弱的姿势很好地传达了痛苦。这是对解剖学最准确的表现。
Auraflow 的青色色调给人一种诡异、超凡脱俗的感觉,但并没有完全满足“黑暗和恐怖”的要求。蜘蛛设计不那么可怕,而且更加风格化。
SD3 Medium 的黑白风格给人一种强烈的素描般的感觉。蜘蛛的设计细致而又充满威胁性,但四肢有一些形态缺陷。
排名:
- Flux:最能捕捉恐怖、痛苦和令人毛骨悚然的氛围。这是最准确的创作,没有形态缺陷。
- SD3 中等:虽然视觉效果惊人,但与提示中的“模拟摄影”方面最不符。恐怖风格很明显。
- Auraflow:整体上最接近素描和模拟摄影。然而,它最不令人毛骨悚然,最不吓人,也是最不能传达场景整体氛围的。
空间意识
提示 2:“一只狗站在电视机顶上,屏幕上显示‘解密’字样。左边是一位身着西装的女性,手里拿着一枚硬币,右边是一个机器人站在急救箱上。整体场景超现实。”
Flux 是最符合提示要求的模型。它将所有元素都放在了所需的位置。构图均衡,元素的意外放置和复古未来主义的冲突增强了超现实主义的品质。虽然它让人瞥见了一只额外的手,但这个版本最准确地捕捉到了提示的本质。
SD3 Medium 排名第二。它理解了所有元素,但也有一些变化——比如卡通风格和狗坐着而不是站着。它捕捉到了提示的一些元素,但错过了其他元素,在准确性方面介于 Flux 和 Auraflow 之间。
Auraflow 对提示进行了一些改动。电视上的狗是坐着的,而不是站着的;女人的装扮更像是 20 世纪 50 年代的复古风,而不是现代商务套装;机器人放在蓝色底座上,而不是急救箱上;整体风格更复古、色彩更丰富,不那么超现实。文字渲染得也很差。
排名:
- Flux:最准确地响应提示并达到超现实的品质。
- SD3 中等:捕捉主要元素但缺少一些细节。
- Auraflow:创造性的诠释,但与原始提示偏差最大。
现实主义
提示 3:“一张夜晚繁华的城市街道的高分辨率照片,霓虹灯照亮了场景,人们沿着人行道行走,汽车驶过,街头小贩卖热狗,灯光倒映在湿滑的路面上,整体风格超现实,注重细节和灯光,霓虹灯上写着‘解密’。”
Flux 非常符合提示的要求。它描绘的是夜晚熙熙攘攘的城市街道,霓虹灯照亮了整个场景,人们在人行道上行走,汽车驶过。湿滑的路面上灯光的反射非常逼真,“解密”标志非常醒目。
Auraflow 对提示进行了一些改动。鲜艳的霓虹灯营造出一种繁华的氛围,湿滑路面上的反射增加了真实感。街头小贩清晰可见并与场景互动。然而,图像略显饱和,街头小贩看起来很卡通,这削弱了超现实主义风格。霓虹灯招牌模糊不清,人行道和街道之间没有明显的区别,因为模型产生了奇怪的视角。
SD3 Medium 也捕捉到了提示的主要元素,但有一些变化。平衡的构图既关注行人,也关注环境,逼真的灯光和反射增强了夜间城市的感觉。“Decrypt”标志很显眼,街头小贩也为热闹的氛围增色不少。然而,仔细观察,很容易发现一些让场景不真实的元素。例如,人们在街上行走,人行道会扩大以容纳热狗摊。
排名:
- Flux:细节丰富,光线充足。很好地捕捉了繁忙的街道,标志清晰易读,行人形象鲜明。
- SD3 中:通过均衡的构图、逼真的灯光和精心整合的元素(包括“解密”标志和街头小贩)满足了提示的要求。但行人的表现不如 Flux 一代那么逼真。
- Auraflow:具有鲜明灯光的创意诠释,但与超现实主义风格不同,后者采用卡通街头小贩和杂乱的霓虹灯招牌。它在透视方面存在一些问题
Flux 对抗 Midjourney
我们还将 Flux 与 Midjourney 进行了比较。
现实主义
提示 1:一张黑白照片,照片中一位留着长直发的女士,身穿凸显身材曲线的全黑服装,坐在现代沙发前的地板上。她自信地对着镜头摆姿势,蹲下时露出纤细的双腿……
Midjourney 完全符合要求。照片中,一名女子蹲在柔软的地面上,动作生动,捕捉到了高级时装照片的精髓。她的头发、面部特征和衣服的细节都经过高精度渲染,增强了真实感。然而,姿势虽然动感十足,却不自然。女子的右手看起来像手和脚的混合体,右腿不知从何处消失,左脚的形状也像手。
另一方面,Flux 以均衡的构图捕捉到了提示的主要元素。女人盘腿坐在地板上,姿势更加放松和自然。面部特征、头发和衣服的高精度渲染有助于呈现逼真的外观。灯光柔和而散漫,提供柔和的阴影和高光,突出了拍摄对象的特征。
不过,这一作品并非完美无缺。她似乎多了一条腿,不过这可以通过修复或 Photoshop 等工具轻松修复,因为整体场景比较暗,因此操作起来比较容易。
排名:
- Flux:以自然的姿势、情境背景和细节渲染来捕捉提示的要求。从形态上讲,它是最准确的。
- Midjourney:具有动态姿势和高水平细节,但缺乏 Flux 图像的上下文丰富性,并且身体表现不如 Flux 那样准确。
Prompt Adherence
提示 2:一只白猫在弹钢琴,戴着太阳镜和帽子,穿着紫色夏威夷风格的衣服,全身照在灰色工作室背景下,商业视频截图。
Midjourney 对提示的诠释抓住了场景的奇思妙想。鲜艳的紫色夏威夷衬衫增添了一丝俏皮感。灯光柔和,有效地强调了纹理和颜色。然而,特写镜头偏离了提示中指定的“全身镜头”,背景不是要求的灰色工作室设置,而是一个更自然、更不受控制的环境。整体构图虽然迷人,但在现实主义和风格上表现出色,但缺少提示中的一些关键元素。
Flux 更贴近主题,用一张白猫弹钢琴的全身照捕捉到了主题的所有元素。构图不太时尚,但包括了猫的整个身体,确保所有指定的细节都清晰可见。灯光和渲染效果很好,突出了猫的姿势和整体场景。然而,虽然图像非常详细和准确,但它可能缺乏 Midjourney 产生的特写镜头的直接魅力和表现力(众所周知,Midjourney 更注重美感而不是准确性)。
排名:
- Flux:全身照、灰色摄影棚背景和指定服装都准确捕捉。构图专业精致,完全符合提示要求。
- Midjourney:提供了迷人而细致的特写镜头,具有表现力,但缺少全身镜头和工作室背景等关键元素。虽然视觉上很吸引人,但偏离了提示的具体内容。
结论
Flux 令我们惊喜不已,它在我们所有的测试中都名列前茅。它的“专业版”绝对能提供高质量的结果,可以成为 Midjourney 和其他付费选项的有力竞争对手。它需要更丰富的提示,但结果非常准确、逼真,并且符合提示的内容。
对于那些愿意花钱购买优质图像生成器的人来说,Flux Pro 似乎是最划算的选择。“Dev”和“Schnell”版本比基础版 SD3 Medium 和 Auraflow 更好,因此即使在开源领域,Flux 也是一个相当强大的竞争对手。