谷歌推出了全新的文本转图像模型 Imagen 3,为生成式人工智能领域锦上添花。此版本建立在 2023 年 12 月推出的 Imagen 2 的基础之上,而 Imagen 2 已经可以与Dall-E 3 和 MidJourney v5 等行业重量级产品相媲美。
Imagen 3 最初于 5 月发布,与前代产品相比,它拥有更强大的理解和执行复杂提示的能力,能够生成细节更丰富的图像,并且能够更好地遵循提示。它功能多样,能够产生从照片写实到艺术和 3D 构图的良好效果。
谷歌在官方声明中表示:“Imagen 3 是我们最高质量的文本转图像模型,能够生成比我们之前的模型具有更详细、更丰富光线和更少干扰伪影的图像”。
Imagen 3 的提示改进让用户能够用自然语言描述所需图像,而无需复杂的提示工程。该模型的训练还加入了更丰富的图像说明文字,使其能够在需要时捕捉细微的细节,例如特定的摄像机角度或构图以及长文本提示。
这家科技巨头特别强调了 Imagen 3 增强的文本渲染功能。尽管有了明显的改进,但我们的初步测试表明,它的功能与 Dall-E 3、 Auraflow 或 Flux 等其他型号并不相上下。
谷歌还强调了其在 Imagen 3 的开发和部署过程中对安全性和责任的承诺。该公司实施了所谓的“广泛过滤和数据标记”流程,以最大限度地减少模型训练数据集中的有害内容。此外,谷歌表示,它进行了彻底的评估,包括红队演习,以识别和修复潜在的漏洞。
值得注意的是,Imagen 3 集成了Google 的水印工具 SynthID。SynthID 将数字签名直接嵌入到生成的图像的像素中。这种水印人眼无法察觉,但可以通过专门的软件检测到,从而提供了一种识别 AI 生成内容的方法。
目前,Imagen 3 可通过 Google 的 ImageFX 平台和 Vertex AI 获得。展望未来,Google 计划在未来几个月内将 Imagen 2 中流行的编辑功能引入到 Imagen 3。该公司还宣布打算在其更广泛的产品生态系统中扩展 Imagen 3 的可用性,包括集成到 Gemini 应用、Google Workspace 和 Google Ads 中。
此次发布是谷歌更广泛战略的一部分,该战略旨在将 Gemini 和 AI 技术融入其几乎所有服务和硬件中。 本周,该公司 推出了全新的 Pixel 9 系列,该系列以 AI 功能为核心设计。新款 Pixel 手机可以在本地处理某些生成 AI 任务,包括基于文本的任务和小图像生成。
Imagen 3 的发布正值 AI 图像生成领域的一系列活动。埃隆·马斯克的 xAI 最近推出了 Grok 2,其特色是 Flux.1 图像生成器,该生成器因其能够生成高度逼真、未经审查的图像以及强大的文本生成功能而备受关注。
与此同时,该领域的另一家重要参与者 MidJourney 宣布其模型即将更新至 v6.2。该公司还透露了 MidJourney v7 的开发情况,预计将在未来几个月内发布。AI 图像生成领域的另一家竞争对手 Ideogram 也暗示其模型即将更新。最后,开放模型倡议选择 Flux.1 作为开发其最先进的开源图像生成模型的基础。