图像裁剪在许多领域都是一项重要任务,从社交媒体和电子商务到高级计算机视觉应用。裁剪有助于保持图像质量,避免不必要的调整大小,这会降低图像质量并消耗计算资源。当图像需要符合预定的宽高比(如缩略图)时,裁剪也非常有用。
在过去的十年里,全球的工程师们开发了各种机器学习(ML)模型来自动裁剪图像。这些模型旨在以保持图像最相关部分的方式裁剪输入图像。
然而,这些模型可能会犯错并表现出偏见,在最糟糕的情况下,可能会使用户面临法律风险。例如,2020年,X(前身为Twitter)因其自动裁剪功能在转发图像时隐藏了版权信息而被起诉。
因此,了解图像裁剪ML模型失败的原因至关重要,以便相应地训练和使用它们,避免此类问题。
在此背景下,日本同志社大学的一个研究团队着手开发用于图像裁剪任务的新对抗样本生成技术。
正如他们在2024年6月17日发表于IEEE Access的论文中所解释的那样,这些方法可以在图像中引入不可察觉的噪声扰动,以欺骗模型裁剪符合用户意图的区域,即使原始模型可能会错过这些区域。
该研究的第一作者兼首席研究员、博士生吉田正友表示:“据我们所知,关于图像裁剪模型对抗攻击的研究非常少,因为大多数先前的研究集中在图像分类和检测上。这些模型需要进行改进,以确保在裁剪图像时尊重用户意图并尽可能消除偏见。”
参与该研究的还有来自日本京都同志社大学理工研究生院的南村春人和来自同志社大学理工学院的奥田正浩。
研究人员开发并实施了两种不同的对抗样本生成方法——白盒方法和黑盒方法。
白盒方法需要访问目标模型的内部工作机制,通过基于模型梯度迭代计算输入图像的扰动。
该方法通过使用注视预测模型来识别图像中的显著点,操纵注视显著图以实现有效的对抗样本。该方法显著减少了扰动大小,在实验图像数据集中,扰动的最小尺寸比基线方法小62.5%。
黑盒方法利用贝叶斯优化有效缩小搜索空间并定位特定图像区域。与白盒策略类似,该方法基于注视显著图进行迭代程序。
它并不使用内部梯度,而是采用树结构的Parzen估计器来选择和优化影响注视显著性的像素坐标,从而最终生成所需的对抗图像。值得注意的是,黑盒技术在现实世界中更具广泛适用性,在网络安全领域具有更大的相关性。
基于实验结果,这两种方法都显示出很大的前景。参与该研究的研究生南村春人解释说:“我们的研究结果表明,我们的方法不仅超越了现有技术,而且在实际应用中,如Twitter等平台上,显示出作为有效解决方案的潜力。”
总体而言,这项研究代表了向更可靠的AI系统迈出的重要一步,对于满足公众期望并赢得其信任至关重要。提高生成图像裁剪对抗样本的效率将推动ML领域的研究,并激发解决其紧迫挑战的解决方案。
南村和吉田的导师、奥田正浩教授总结道:“通过识别越来越多的AI模型中的漏洞,我们的研究有助于开发更公平的AI系统,并解决日益增长的AI治理需求。”