
来自中国、新加坡多所高校以及字节跳动公司的研究人员共同研发了一款名为PhotoDoodle的图像编辑人工智能(AI)系统,该系统在图像编辑领域表现卓越。仅需少量样本图像便能学习不同的艺术风格,并据此精确执行特定的编辑指令。
PhotoDoodle系统基于德国初创企业Black Forest Labs开发的Flux.1图像生成模型构建而成,充分利用了其扩散变换器架构和预训练参数。
在Flux.1的基础上进一步研发
研究人员首先利用LoRA技术开发了OmniEditor,这是Flux.1的一个面向图像处理的改进版本。LoRA技术不会直接改变网络中的所有权重,而是添加小型专用矩阵。这些矩阵可以在不大幅改变原始模型的前提下进行训练,从而实现从小范围概念变更到完整风格转换等各种功能。鉴于OmniEditor的情况,通常需要更大版本的这些小型网络来完成风格转换。
该团队所使用的SeedEdit数据集很可能源自字节跳动去年推出的同名图像编辑模型的实验。不过,论文中并未提供有关该数据集来源的具体细节。

随后,研究人员使用名为EditLoRA的LoRA变体对OmniEditor进行了训练,使其能够复制单个艺术家的风格。通过研究选定的图像对,EditLoRA能够学习每种艺术风格的细微差别。据论文所述,训练数据的创建是与艺术家本人合作完成的。
这种方法解决了一个关键问题:即在保持正确视角、上下文和所需风格的同时,将装饰元素和谐地插入图像中。研究人员指出,以往的方法要么改变整个图像的风格,要么只编辑小区域,无法充分应对这一挑战。
位置编码克隆如何确保一切保持不变
PhotoDoodle的一个关键组件是“位置编码克隆”。简而言之,该人工智能能够记住原始图像中每个像素的确切位置。

在添加新元素时,PhotoDoodle会利用存储的位置信息来精确放置这些元素,并将它们无缝融入图像中。该技术无需额外的参数训练,从而使整个过程更加高效。
此外,该系统还要求输入“无噪声”数据,即原始图像必须具有高质量,以防止在处理过程中意外改变背景。
树立图像编辑新标杆
研究团队进行了大量测试,以证明PhotoDoodle的能力。该系统能够准确执行诸如“让猫变得更白一些”和“在建筑物上添加一个粉色怪物攀爬”等指令。
在与现有方法的对比中,PhotoDoodle在衡量图像与文本描述相似度等各个方面的基准测试中均取得了优异成绩。无论是针对性编辑还是全局图像变化,它都显著优于对比模型。

展望单图像训练
研究团队承认,目前PhotoDoodle需要数十对图像和数千个训练步骤。他们的下一个目标是开发一个能够从仅一对图像中学习风格的系统。
为了支持该领域的进一步研究,科学家们发布了一个包含六种不同艺术风格和300多对图像的数据集。相关代码可在GitHub上获取。