谷歌 ImageInWords 的革新之路，图像人工智能的新里程碑

当AI与人类共同工作时，会产生更加详细和准确的图像描述。这种方法可以极大地提升图像模型的准确性。

谷歌研究团队开发了ImageInWords（IIW）系统，旨在将图像描述推向一个新的高度。IIW结合了对人工工作者的精确指导和逐步描述过程。其结果是极为详细的图像描述，超越了以往基准中的方法。

目前的图像处理人工智能系统通常是通过从互联网获取的海量数据进行训练的。然而，这些数据经常存在不准确性，并且仅使用简单的替代文本而非有意义的图像描述，从而限制了这些系统的能力。

以前尝试创建更高质量的图像描述，无论是由人类还是人工智能模型创建的，都存在弱点，因为它们表现出主观偏见或幻觉。

IIW直接解决了这些挑战。首先，系统识别图像中的单个对象。然后，人工智能为每个对象生成初始描述，作为人类标注者的起点。

人类应该像画家一样描述图像

他们会细化和扩展与对象相关的描述，确保描述既全面又准确。

工作者应该注意图像的以下特性：

随后，视觉语言模型为整个图像生成描述。标注者使用这一描述，结合与对象相关的描述，创建完整且连贯的图像描述。

在IIW中，初始由人工智能生成的描述为人类标注者提供了一个起点，并加速了整个过程。IIW还采用逐步递进的方法，标注者在之前的描述基础上进行构建，从而在更短的时间内实现更高质量的结果。

在测试中，谷歌的方法通常能够在竞争中脱颖而出。在生成输入图像并从提示中生成下游任务的测试中，IIW在人类评估中表现最佳，无论描述长度如何。IIW的描述还在需要更深入理解图像内容的任务中表现出色，包含足够的细节来区分真实与虚假的图像信息。

谷歌计划进一步改进IIW，并将其扩展到其他语言，并减少人工劳动的量。IIW有潜力影响广泛的人工智能应用，从图像搜索到视觉问答系统和合成数据创建，从而不断改进文本到图像模型。

虽然像Midjourney v6、SDXL或Firefly 3这样的当前技术已经能够生成令人惊叹的高质量图像，但是模型如何精确实现文本输入（即提示跟随）仍然是一个具有优化潜力的领域。IIW似乎是一个重要的构建模块，不仅可以造福谷歌的软件如Imagen，也可以造福其他公司的软件。