OpenAI的DALL-E 3可以提高图像细节和提示精度的标准
OpenAI的DALL-E 3可以提高图像细节和提示精度的标准

OpenAI的DALL-E 3可以提高图像细节和提示精度的标准

有人在Discord上声称可以访问OpenAI的新图像模型。据称,该模型在字体生成和匹配提示方面取得了显著进展。

这名泄密者于5月份首次在Discord频道上站出来,声称参与了OpenAI新图像模型的alpha测试。当时,他展示了专门为该频道生成的图像,声称这些图像是由OpenAI训练的新图像模型生成的。

7月中旬,他再次出现,并展示了更多示例,声称这些示例是使用可能是DALL-E 3的“闭源alpha”测试版本生成的。据该泄密者称,新图像模型的测试版本是未经审查的,因此可能包含暴力和裸露场景,或者包含公司标志等受版权保护的材料。

这些图片在右下角显示了典型的DALL-E标志,但很容易被伪造。无论如何,从细节和字体方面来看,新的生成结果已经超越了Midjourney和SD XL等模型的当前能力。

据测试者称,这些结果在细节和字体方面也比谷歌的Parti模型“显著”更好,而谷歌在大约一年前展示Parti时,它已经领先于DALL-E 2。为了进行比较,泄密者还测试了Parti论文中的提示。然而,据说Midjourney在以逼真方式生成图像方面仍处于领先地位。

更好的字体和提示准确性

泄密者的演示显示,潜在的DALL-E 3模型在处理字体方面要好得多,例如,当在提示中包含一个应该显示在屏幕上的短语时,如下面的例子所示。

虽然仍然会出现错误,但总体上新模型对语言的理解更好。有趣的是,在上面的例子中,模型写下了“afraid”,尽管提示中写的是“afriad”,这可能是模型自动纠正的拼写错误。这也意味着图像上的文字不是一一对应的。

新模型的语言理解能力的提升使其能够准确地呈现复杂的图像构图,包括许多抽象细节,比如下面的奶酪动物场景或在沙滩椅上的冷静袋熊。

奶酪动物的例子特别令人印象深刻,因为在许多模型中存在所谓的概念溢出,即图像模型混合了不同的内容概念。潜在的DALL-E 3模型明显区分了奶酪动物和真实动物的概念。

以下是使用相同提示的Midjourney示例,显示了概念溢出的情况。在这个例子中,奶酪没有变成奶牛,但其中的三只狗之一(而不是一只)有一对看起来像是由奶酪制成的角。

DALL-E 2则完全专注于奶酪,甚至没有尝试将真实动物放入画面,只是坚持了一个概念。

OpenAI等公司不断调整下一代图像AI技术

虽然DALL-E 2在推出后很快被Midjourney和Stable Diffusion超越,并且随后被ChatGPT和GPT-4的炒作所掩盖,但这并不意味着OpenAI停止了图像AI系统的研发。

首个迹象是必应图像生成器的推出,据微软称其使用了“更好的版本”DALL-E 2。详细信息尚不得而知,虽然DALL-E 2.5表现不错,但图像生成器的结果与Midjourney或Stable Diffusion XL相比还有差距。

自DALL-E 2推出以来,图像模型领域取得了很大进展,Meta等公司引入了新的架构,可以更高效、更准确地生成图像和字体。

特别是Meta最新的图像模型CM3leon,至少根据选定的示例,其细节水平与上述潜在的DALL-E 3生成图像相当。此外,CM3leon完全采用许可的材料进行了训练。

今年早些时候,谷歌推出了Muse,这是一种高速的AI图像模型,它可以比之前的模型更准确地遵循提示并生成文本。

今年4月,OpenAI研究团队推出了一种名为“Consistency Models”的新架构,该架构生成速度比DALL-E 2等传统扩散模型快得多,同时保持了高质量,这可能是视频生成的前奏。

AI图像模型已经取得了重大进展,但尚未应用到产品中。DALL-E 3可能很快会改变这一状况。