OpenAI DALL-E 2 提示指南:如何使用生成式 AI 模型?
OpenAI DALL-E 2 提示指南:如何使用生成式 AI 模型?

OpenAI DALL-E 2 提示指南:如何使用生成式 AI 模型?

OpenAI的DALL-E 2是开创性的生成式AI模型,也是市场上第一个文本转图像的产品。自那时以来,发生了很多变化:出现了一些替代品,比如Midjourney,通常能够在更简单的提示下产生更好的结果,并且底层模型也在不断改进。还有一种开源替代方案,名为Stable Diffusion和Stable Diffusion XL。

但是,对于适当的提示和特殊应用,比如修复图像,DALL-E仍然具有意义。例如,DALL-E可以将提示“一个戴着VR头显的古希腊哲学家的古董半身像,逼真,摄影,2023年”转化为适合的(尽管分辨率较低)图像,但是Midjourney拒绝在分辨率更高的半身像上添加VR头显。

让我们来对DALL-E 2的功能和提示工程基础知识进行一次简要的介绍。

OpenAI的DALL-E 2可以创建、编辑或修改图像

DALL-E 2的用户界面保持简洁:通过输入栏,可以输入文本图像指令,即所谓的“提示”,然后通过点击“生成”按钮将其发送到AI系统。稍等片刻后,会显示出四幅生成的图像。

在输入栏下方,还可以选择上传自己的图片,只要它不显示真实的人物。通过上传的图片和新创建的图片,DALL-E 2可以生成各种变体。这使得根据现有主题创作受启发的图像相对容易,然后可以进一步进行编辑。通过这种方式,可以更加精确地控制AI系统。

此外,编辑功能可以用于标记图像中的一个区域,然后由DALL-E 2进行更改。只需通过文本提示再次描述所需的结果即可实现。

DALL-E 2随后生成了三个包含相应更改的原始图像的变体。在这里,我给雕像添加了一把时尚的小胡子。

OpenAI的DALL-E 2和提示工程

正如从古希腊VR先驱的古代胸像的例子中可以看出,DALL-E 2可以通过文本输入进行控制。OpenAI已经用超过6.5亿张图片对这个AI系统进行了训练,所以DALL-E 2已经见过并能够重现众多的主题、风格、曝光和其他图像属性。

通过所谓的提示工程,即适当的文本描述设计,DALL-E 2可以生成具有不同镜头规格的逼真图像,以模拟小焦距或运动模糊效果。

通过正确的描述,还可以捕捉情绪,定义结构或比例,再现蒸汽朋克或赛博朋克等风格,确定摄影角度和曝光,或将电视剧或电影的设计用作模板。

DALL-E 2可以模仿许多插图风格,以及3D艺术或历史绘画。DALL-E 2展示了模仿各种艺术风格、个别艺术家或特定作品的能力。

如果想捕捉特定艺术作品或艺术家的风格,还可以借助AI的帮助:在所谓的解构过程中,可以请求像ChatGPT或GPT-4这样的模型来描述一幅绘画的特点和风格。然后,可以使用AI的回答来进行适当的描述和设计。

除了古代半身像,DALL-E 2还可以创建其他物体——从刺绣到雕塑、人体、毛绒玩具、建筑物或设计师椅子,应有尽有。

DALL-E 2:外部图像编辑和出画

通过前面介绍的编辑功能,可以更改图像中的细节,例如添加胡子,替换物体或整个背景。

由于生成的图像也可以下载,可以使用外部图像编辑程序更充分地利用DALL-E 2。在最简单的版本中,我们可以缩小希腊哲学家的半身像,并将其用作新图像的基础。

同样的方法也可以添加绘画作品。DALL-E 2可以让蒙娜丽莎有一个身体,我们的希腊虚拟现实哲学家也有了伴。

通过结合外部图像处理、智能提示工程和DALL-E 2的编辑功能,还有许多其他应用是可能的。

DALL-E 3会出现吗?我们还不确定,但OpenAI已经在研究替代架构的生成式AI模型。