OpenAI DALL-E 2 提示指南：如何使用生成式 AI 模型？

AIGC动态 AI小知识

OpenAI DALL-E 2 提示指南：如何使用生成式 AI 模型？

2023年 7月 17日 2023年 8月 21日

OpenAI的DALL-E 2是开创性的生成式AI模型，也是市场上第一个文本转图像的产品。自那时以来，发生了很多变化：出现了一些替代品，比如Midjourney，通常能够在更简单的提示下产生更好的结果，并且底层模型也在不断改进。还有一种开源替代方案，名为Stable Diffusion和Stable Diffusion XL。

但是，对于适当的提示和特殊应用，比如修复图像，DALL-E仍然具有意义。例如，DALL-E可以将提示“一个戴着VR头显的古希腊哲学家的古董半身像，逼真，摄影，2023年”转化为适合的（尽管分辨率较低）图像，但是Midjourney拒绝在分辨率更高的半身像上添加VR头显。

让我们来对DALL-E 2的功能和提示工程基础知识进行一次简要的介绍。

OpenAI的DALL-E 2可以创建、编辑或修改图像

DALL-E 2的用户界面保持简洁：通过输入栏，可以输入文本图像指令，即所谓的“提示”，然后通过点击“生成”按钮将其发送到AI系统。稍等片刻后，会显示出四幅生成的图像。

在输入栏下方，还可以选择上传自己的图片，只要它不显示真实的人物。通过上传的图片和新创建的图片，DALL-E 2可以生成各种变体。这使得根据现有主题创作受启发的图像相对容易，然后可以进一步进行编辑。通过这种方式，可以更加精确地控制AI系统。

此外，编辑功能可以用于标记图像中的一个区域，然后由DALL-E 2进行更改。只需通过文本提示再次描述所需的结果即可实现。

DALL-E 2随后生成了三个包含相应更改的原始图像的变体。在这里，我给雕像添加了一把时尚的小胡子。

OpenAI的DALL-E 2和提示工程

正如从古希腊VR先驱的古代胸像的例子中可以看出，DALL-E 2可以通过文本输入进行控制。OpenAI已经用超过6.5亿张图片对这个AI系统进行了训练，所以DALL-E 2已经见过并能够重现众多的主题、风格、曝光和其他图像属性。

通过所谓的提示工程，即适当的文本描述设计，DALL-E 2可以生成具有不同镜头规格的逼真图像，以模拟小焦距或运动模糊效果。

通过正确的描述，还可以捕捉情绪，定义结构或比例，再现蒸汽朋克或赛博朋克等风格，确定摄影角度和曝光，或将电视剧或电影的设计用作模板。

DALL-E 2可以模仿许多插图风格，以及3D艺术或历史绘画。DALL-E 2展示了模仿各种艺术风格、个别艺术家或特定作品的能力。

如果想捕捉特定艺术作品或艺术家的风格，还可以借助AI的帮助：在所谓的解构过程中，可以请求像ChatGPT或GPT-4这样的模型来描述一幅绘画的特点和风格。然后，可以使用AI的回答来进行适当的描述和设计。

除了古代半身像，DALL-E 2还可以创建其他物体——从刺绣到雕塑、人体、毛绒玩具、建筑物或设计师椅子，应有尽有。

DALL-E 2：外部图像编辑和出画

通过前面介绍的编辑功能，可以更改图像中的细节，例如添加胡子，替换物体或整个背景。

由于生成的图像也可以下载，可以使用外部图像编辑程序更充分地利用DALL-E 2。在最简单的版本中，我们可以缩小希腊哲学家的半身像，并将其用作新图像的基础。

同样的方法也可以添加绘画作品。DALL-E 2可以让蒙娜丽莎有一个身体，我们的希腊虚拟现实哲学家也有了伴。

通过结合外部图像处理、智能提示工程和DALL-E 2的编辑功能，还有许多其他应用是可能的。

DALL-E 3会出现吗？我们还不确定，但OpenAI已经在研究替代架构的生成式AI模型。