AI图像识别的隐藏挑战：超越现今的准确性

想象一下，当你浏览手机上的照片时，突然出现了一张令人费解的图像。一开始，你可能认为它是沙发上的一团模糊物体；是个枕头还是外套呢？几秒钟后，你突然明白了——那团毛绒绒的东西是你朋友的猫。然而，为什么这张猫的照片要比其他的照片难以识别？

MIT的计算机科学与人工智能实验室（CSAIL）的研究者们发现，尽管从医疗保健到交通运输再到家用设备，理解视觉数据的重要性在各个领域都不可忽视，但人们对于图像识别的难度却几乎没有太多的关注。深度学习AI进展的一个主要驱动因素是数据集，但我们对于大规模深度学习中数据如何推动进展知之甚少。

在需要理解视觉数据的实际应用中，尽管模型在当前数据集上表现出色，但人类在对象识别上的表现仍然超越模型。这部分原因是因为我们对于图像或数据集的绝对难度没有明确的指导。没有控制评估所使用图像的难度，很难客观地评估朝向人类水平性能的进展。

为了填补这一知识缺口，MIT的博士生David Mayo深入研究了图像数据集，探讨了某些图像为何对人类和机器都更难以识别。他表示：“某些图像本质上需要更长的时间才能识别，理解大脑在此过程中的活动及其与机器学习模型的关系至关重要。”

此项目发展出了一个新的指标，即“最小观看时间”（MVT），它量化了图像识别的难度。通过使用ImageNet和ObjectNet，团队向参与者展示了图像，并要求他们从50个选项中选择正确的对象。经过超过200,000次的图像呈现试验后，团队发现现有的测试集似乎偏向于更简单、观看时间更短的MVT图像。

从ObjectNet到MVT：探索视觉识别的新维度

在几年前，这个项目的团队在机器学习领域中发现了一个重大挑战：模型难以处理分布之外的图像，或者说，在训练数据中没有很好地代表的图像。这时，ObjectNet应运而生，这是一个由真实场景中收集的图像组成的数据集。通过消除其他基准中存在的伪相关性（例如，物体与其背景之间的关系），该数据集帮助我们明确了机器学习模型与人类识别能力之间的性能差距。ObjectNet揭示了机器视觉模型在数据集和实际应用中的性能差异，鼓励了许多研究者和开发者的使用，并随后提高了模型的性能。

快进到现在，该团队进一步推进了他们的研究，引入了MVT这一新概念。与传统方法专注于绝对性能不同，这种新方法通过对比模型对最简单和最困难的图像的响应来评估其性能。该研究进一步探讨了如何解释图像难度，并测试其与人类视觉处理的相似性。通过使用如c-score、预测深度和对抗性鲁棒性等指标，团队发现网络对更难的图像有不同的处理方式。Mayo表示：“虽然有可观察到的趋势，例如更简单的图像更具原型性，但图像难度的全面语义解释仍然是科学界难以捉摸的。”

在医疗保健领域，理解视觉复杂性的相关性变得更加突出。AI模型解读医学图像，如X光片，其能力取决于图像的多样性和难度分布。研究者主张对专业人员进行仔细的难度分布分析，确保AI系统基于专家标准进行评估，而不是基于普通人的解读。

Mayo和Cummings目前还在研究视觉识别的神经基础，探讨大脑在处理简单与复杂图像时是否显示出不同的活动模式。该研究旨在揭示复杂图像是否招募了通常与视觉处理不相关的额外大脑区域，希望进一步解密我们的大脑如何准确、高效地解码视觉世界。

走向接近人类水平的性能

展望未来，研究者们不仅专注于探索增强AI对图像难度预测能力的方法。该团队正在努力识别与观看时间难度的相关性，以生成更难或更容易的图像版本。

尽管这项研究取得了显著的进展，但研究者们也承认了一些局限性，特别是在目标识别与视觉搜索任务的分离方面。目前的方法确实集中于识别物体，忽略了由杂乱图像引入的复杂性。

“这种全面的方法解决了长期以来在目标识别方面客观评估向人类水平性能进展的挑战，并为理解和推进该领域开辟了新的途径，” Mayo表示。“有了将‘最小观看时间’难度指标适应于各种视觉任务的潜力，这项工作为目标识别中更加健壮、接近人类性能的表现铺平了道路，确保模型真正经受住了考验，并准备好应对真实世界视觉理解的复杂性。”

约翰霍普金斯大学的认知科学和计算机科学的Bloomberg杰出教授Alan L. Yuille表示：“这是一个迷人的研究，探讨了如何利用人类感知来识别AI视觉模型在基准测试中的弱点，这些测试过于关注简单的图像，从而高估了AI的性能。这将有助于开发更现实的基准，不仅提高AI的性能，还使AI与人类感知之间的比较更加公平。”

Anthropic技术人员、也是2017年的博士毕业生Simon Kornblith表示：“人们普遍认为计算机视觉系统现在的表现超越了人类，在某些基准数据集上确实如此。然而，这些基准的难度很大程度上来自于图像中内容的晦涩；普通人并不知道足够多的知识来分类不同品种的狗。相反，这项工作关注于人们只有在给予足够时间后才能正确识别的图像。这些图像对计算机视觉系统来说通常要难得多，但最好的系统只比人类差一点。”

Mayo、Cummings以及Xinyu Lin还与CSAIL研究科学家Andrei Barbu、CSAIL首席研究科学家Boris Katz和MIT-IBM Watson AI实验室首席研究员Dan Gutfreund共同撰写了这篇论文。这些研究者都是MIT大脑、思维和机器中心的成员。

该团队将在2023年神经信息处理系统（NeurIPS）会议上展示他们的工作。