OpenAI 将 GPT-4o 的新图像生成功能引入 ChatGPT
OpenAI 将 GPT-4o 的新图像生成功能引入 ChatGPT

OpenAI 将 GPT-4o 的新图像生成功能引入 ChatGPT

告别图像生成中的扭曲和拼写错误,迎接更宽松的安全限制

提示词:生成一张多伦多夏季农贸市场的照片,时间是2006年6月下旬的一个周六,天气晴朗,人们在购物和吃三明治。焦点应是一位穿着牛仔背带裤、正在喝草莓香蕉奶昔的亚裔年轻女孩——其余部分可以模糊处理。照片应模拟2006年数码相机的风格,并带有类似冲洗照片的时间戳。长宽比为3:2。

OpenAI

OpenAI持续扩展其ChatGPT功能,先后推出了[AI语音助手]、文件和图像理解、[高级研究能力]、[AI代理]等。然而,一个明显的缺失始终存在——一款真正强大的图像生成工具。

本周二,OpenAI推出了4o图像生成功能。这一图像模型相比此前提供的DALL-E系列有了显著提升——尽管速度稍慢。它能够处理高难度提示词,例如生成逼真图像,最令人印象深刻的是还能准确呈现文本内容。

例如,在直播演示中,OpenAI首席执行官Sam Altman与研究员Gabriel Goh和Prafulla Dhariwal共同展示了4o的功能。他们要求生成一张包含大量文字的传单的特定视角照片。经过几秒加载后,模型不仅准确还原了电影般的构图,还完美呈现了所有文本内容。

该工具还具备许多OpenAI此前图像生成器所不具备的功能,例如图像参考。用户可以通过参考图像生成新版本(如动漫风格或自拍风格),或将其作为灵感创作全新作品。

由于这一工具旨在融入创意工作流程,它能够生成透明背景的图像、使用特定HEX代码的颜色,或在生成过程中结合聊天机器人的高级对话能力。例如,在演示中当被要求加入”幽默”元素时,生成的图片中包含了符合要求的文本内容。

由于图像生成功能集成于ChatGPT中,用户还可以通过多轮对话优化图像。这种方式使调整图像更为便捷,同时模型能够利用此前生成的上下文创作新内容。由于GPT-4o具备网络访问能力,这些上下文信息也会被纳入图像创作过程。

据公司介绍,GPT-4o的图像生成还具有强大的指令遵循能力。它可以一次性处理10-20个不同对象,这意味着用户可以一次性提示生成包含大量元素的复杂场景。

更宽松的安全限制

图像生成功能的另一新特点是现在可以创作更具争议性的内容,这一特点此前以埃隆·马斯克的[Grok模型]闻名。在直播中,Altman表示用户将能够在”合理范围内”使用GPT-4o的图像生成功能创作冒犯性内容。直播结束后,Altman在[X平台]补充道:

“我们的目标是确保工具不会生成冒犯性内容——除非用户主动要求,在这种情况下允许合理范围内的创作。正如我们在模型规范中所述,我们认为将这种知识自由和控制权交给用户是正确的做法,但我们会持续观察进展并倾听社会反馈。”

发布该模型的博文指出,系统将屏蔽违反内容政策的请求,包括儿童性虐待材料和深度伪造色情内容。另一项安全措施是限制涉及真实人物时的创作内容,特别是对裸体和暴力画面设置了”额外严格的防护”。

用户可查阅系统卡片了解4o图像生成模型的所有安全信息。

DALL-E最初推出时拥有独立网站,当时堪称最先进的工具。此后它被整合至ChatGPT中,与Midjourney、Google和Adobe等竞争对手的[更先进图像生成模型]相比显得逊色。此次更新将帮助OpenAI提升竞争力,与其他模型展开更公平的较量。