谷歌推出 Imagen 3，AI 图像生成器竞赛升温

谷歌推出了全新的文本转图像模型 Imagen 3，为生成式人工智能领域锦上添花。此版本建立在 2023 年 12 月推出的 Imagen 2 的基础之上，而 Imagen 2 已经可以与Dall-E 3 和 MidJourney v5 等行业重量级产品相媲美。

Imagen 3 最初于 5 月发布，与前代产品相比，它拥有更强大的理解和执行复杂提示的能力，能够生成细节更丰富的图像，并且能够更好地遵循提示。它功能多样，能够产生从照片写实到艺术和 3D 构图的良好效果。

谷歌在官方声明中表示：“Imagen 3 是我们最高质量的文本转图像模型，能够生成比我们之前的模型具有更详细、更丰富光线和更少干扰伪影的图像”。

Imagen 3 的提示改进让用户能够用自然语言描述所需图像，而无需复杂的提示工程。该模型的训练还加入了更丰富的图像说明文字，使其能够在需要时捕捉细微的细节，例如特定的摄像机角度或构图以及长文本提示。

这家科技巨头特别强调了 Imagen 3 增强的文本渲染功能。尽管有了明显的改进，但我们的初步测试表明，它的功能与 Dall-E 3、 Auraflow 或 Flux 等其他型号并不相上下。

谷歌还强调了其在 Imagen 3 的开发和部署过程中对安全性和责任的承诺。该公司实施了所谓的“广泛过滤和数据标记”流程，以最大限度地减少模型训练数据集中的有害内容。此外，谷歌表示，它进行了彻底的评估，包括红队演习，以识别和修复潜在的漏洞。

值得注意的是，Imagen 3 集成了Google 的水印工具 SynthID。SynthID 将数字签名直接嵌入到生成的图像的像素中。这种水印人眼无法察觉，但可以通过专门的软件检测到，从而提供了一种识别 AI 生成内容的方法。

目前，Imagen 3 可通过 Google 的 ImageFX 平台和 Vertex AI 获得。展望未来，Google 计划在未来几个月内将 Imagen 2 中流行的编辑功能引入到 Imagen 3。该公司还宣布打算在其更广泛的产品生态系统中扩展 Imagen 3 的可用性，包括集成到 Gemini 应用、Google Workspace 和 Google Ads 中。

此次发布是谷歌更广泛战略的一部分，该战略旨在将 Gemini 和 AI 技术融入其几乎所有服务和硬件中。本周，该公司推出了全新的 Pixel 9 系列，该系列以 AI 功能为核心设计。新款 Pixel 手机可以在本地处理某些生成 AI 任务，包括基于文本的任务和小图像生成。

Imagen 3 的发布正值 AI 图像生成领域的一系列活动。埃隆·马斯克的 xAI 最近推出了 Grok 2，其特色是 Flux.1 图像生成器，该生成器因其能够生成高度逼真、未经审查的图像以及强大的文本生成功能而备受关注。

与此同时，该领域的另一家重要参与者 MidJourney 宣布其模型即将更新至 v6.2。该公司还透露了 MidJourney v7 的开发情况，预计将在未来几个月内发布。AI 图像生成领域的另一家竞争对手 Ideogram 也暗示其模型即将更新。最后，开放模型倡议选择 Flux.1 作为开发其最先进的开源图像生成模型的基础。