Ideogram AI 于周三推出了 Ideogram 2.0。作为其文本到图像模型的下一代,这一发布旨在挑战现有生成式 AI 领域的主导者。
此次发布紧随 Flux.1 成为 X(即 Twitter)上 Grok 的主要图像生成器的实施,这一举措巩固了 Flux.1 在稳定扩散 XL(SDXL)时代之后的强大地位。开放模型中争夺霸主地位的还有 Auraflow、KwaiKolors、Hunyuan、Lumina 和 Kandinsky 3。
该公司在官方声明中表示:“Ideogram 2.0 在图像-文本对齐、整体主观偏好和文本渲染准确性等多个质量指标上显著超越了其他文本到图像模型。”
除了新模型,Ideogram 还推出了一系列新功能,使其整体套件更具竞争力。这些新功能包括 iOS 应用程序和供开发者使用的 API。
Ideogram由前谷歌员工创办,长期以来因其在将文本生成能力融入图像模型方面的开创性工作而受到认可。它是第一个实现这一功能的模型,此外还有来自Stability AI的一个较少为人知的实验——Deep Floyd IF。
随着 Ideogram 2.0 的发布,该公司提升了模型输出的整体质量,使其变得更快、更强大、更具多样性,新增了五种不同的预设选项:现实主义、绘画、3D、动漫和通用实施。
此次更新还引入了一个色彩调色板,使用户能够更好地控制美学和构图。
Ideogram 表示,“现实主义”风格使用户能够创建看起来像真实照片的图像。 “纹理显著增强,人类的皮肤和头发显得栩栩如生。”另一方面,“设计”预设则专注于准确和艺术性的文本生成。公告中提到:“这使您能够创建高品质的图形设计,包括贺卡、按需印刷、海报、插图以及营销和社交媒体内容,支持长篇风格化文本。”
除了这两种风格外,“3D”预设专注于生成模仿计算机渲染的图像,“动漫”预设则是对抗 MidJourney 的 Niji 风格,专为日本漫画风格创作设计,“通用”预设则是一个适应各种提示的万能设置。
社交媒体用户的初步反应总体上非常积极,许多人分享了他们用 Ideogram 生成的作品,展示了模型在现实主义和名人渲染方面的卓越能力。我们的初步测试也令人满意,特别是使用“现实主义”预设时,它的表现初步看起来与 Flux.1 不相上下。
然而,对于想要免费测试的高级用户来说,这可能不是最佳选择。Ideogram 2.0 的免费版本每日限制为20张图片,付费计划起价为每月8美元,还有一个每月20美元的无限慢生成计划。然而,相比之下,它在价格上仍然具有竞争力,因为 MidJourney 的最低档次为10美元,每月无限慢生成计划价格为30美元。
Ideogram 的服务被定位为 MidJourney 的一个更易于访问的替代方案,因为该模型的自然语言处理能力使得提示体验更加直观流畅,这类似于 ChatGPT 与 Dall-E 3 提供的体验,而与 MidJourney 依赖于传统的“SDXL”提示风格、特定关键词和命令的方式形成对比。
如果预算不是问题,用户可能需要评估功能而非仅仅关注输出质量,因为这两款模型都非常具有竞争力。MidJourney 提供了强大的个性化功能,允许用户创建自己的风格,并且拥有一个非常强大的图像编辑器,可以高水平地调整生成内容。
相比之下,Ideogram 2.0 让用户在不依赖提示工程或额外工具(如风格迁移、LoRAs 或 IPAdapter)的情况下,仍然可以对生成结果进行较大程度的控制。色彩调色板选项和预设可能是获取个性化结果的绝佳方式,特别是对新用户而言。