OpenAI 将 GPT-4o 的新图像生成功能引入 ChatGPT

告别图像生成中的扭曲和拼写错误，迎接更宽松的安全限制。

提示词：生成一张多伦多夏季农贸市场的照片，时间是2006年6月下旬的一个周六，天气晴朗，人们在购物和吃三明治。焦点应是一位穿着牛仔背带裤、正在喝草莓香蕉奶昔的亚裔年轻女孩——其余部分可以模糊处理。照片应模拟2006年数码相机的风格，并带有类似冲洗照片的时间戳。长宽比为3:2。

OpenAI

OpenAI持续扩展其ChatGPT功能，先后推出了[AI语音助手]、文件和图像理解、[高级研究能力]、[AI代理]等。然而，一个明显的缺失始终存在——一款真正强大的图像生成工具。

本周二，OpenAI推出了4o图像生成功能。这一图像模型相比此前提供的DALL-E系列有了显著提升——尽管速度稍慢。它能够处理高难度提示词，例如生成逼真图像，最令人印象深刻的是还能准确呈现文本内容。

例如，在直播演示中，OpenAI首席执行官Sam Altman与研究员Gabriel Goh和Prafulla Dhariwal共同展示了4o的功能。他们要求生成一张包含大量文字的传单的特定视角照片。经过几秒加载后，模型不仅准确还原了电影般的构图，还完美呈现了所有文本内容。

该工具还具备许多OpenAI此前图像生成器所不具备的功能，例如图像参考。用户可以通过参考图像生成新版本（如动漫风格或自拍风格），或将其作为灵感创作全新作品。

由于这一工具旨在融入创意工作流程，它能够生成透明背景的图像、使用特定HEX代码的颜色，或在生成过程中结合聊天机器人的高级对话能力。例如，在演示中当被要求加入”幽默”元素时，生成的图片中包含了符合要求的文本内容。

由于图像生成功能集成于ChatGPT中，用户还可以通过多轮对话优化图像。这种方式使调整图像更为便捷，同时模型能够利用此前生成的上下文创作新内容。由于GPT-4o具备网络访问能力，这些上下文信息也会被纳入图像创作过程。

据公司介绍，GPT-4o的图像生成还具有强大的指令遵循能力。它可以一次性处理10-20个不同对象，这意味着用户可以一次性提示生成包含大量元素的复杂场景。

更宽松的安全限制

图像生成功能的另一新特点是现在可以创作更具争议性的内容，这一特点此前以埃隆·马斯克的[Grok模型]闻名。在直播中，Altman表示用户将能够在”合理范围内”使用GPT-4o的图像生成功能创作冒犯性内容。直播结束后，Altman在[X平台]补充道：

“我们的目标是确保工具不会生成冒犯性内容——除非用户主动要求，在这种情况下允许合理范围内的创作。正如我们在模型规范中所述，我们认为将这种知识自由和控制权交给用户是正确的做法，但我们会持续观察进展并倾听社会反馈。”

发布该模型的博文指出，系统将屏蔽违反内容政策的请求，包括儿童性虐待材料和深度伪造色情内容。另一项安全措施是限制涉及真实人物时的创作内容，特别是对裸体和暴力画面设置了”额外严格的防护”。

用户可查阅系统卡片了解4o图像生成模型的所有安全信息。

DALL-E最初推出时拥有独立网站，当时堪称最先进的工具。此后它被整合至ChatGPT中，与Midjourney、Google和Adobe等竞争对手的[更先进图像生成模型]相比显得逊色。此次更新将帮助OpenAI提升竞争力，与其他模型展开更公平的较量。