微型开源图像模型 Meissonic 提供了令人印象深刻的图像质量
微型开源图像模型 Meissonic 提供了令人印象深刻的图像质量

微型开源图像模型 Meissonic 提供了令人印象深刻的图像质量

一款名为 Meissonic 的新开源 AI 模型能够仅用十亿个参数生成高质量图像。这种紧凑的规模可能使本地文本到图像应用程序在移动设备上变得可行。

Meissonic 由阿里巴巴集团、Skywork AI 及多所大学的研究人员开发,采用独特的变换器架构和新颖的训练技术。该模型能够在普通游戏电脑上运行,未来甚至有望在手机上运行。

Meissonic 采用了遮蔽图像建模的技术,在训练过程中隐藏图像的某些部分。模型通过可见区域和文本描述学习重建缺失的部分,从而理解图像元素与文本之间的关系。

该模型的架构使其能够生成 1024 x 1024 像素的高分辨率图像,包括照片级真实场景、风格化文本、表情包或卡通贴纸,与规模更大的模型相比同样出色。

使用 Meissonic 创建的各种风格的示例图像

与典型的自回归模型逐步生成图像不同,Meissonic 通过并行的迭代精炼同时预测所有图像标记。研究人员表示,这种非自回归的方法将解码步骤减少了约 99%,显著加快了图像生成速度。

Meissonic 结合了多模态和单模态变换器层。多模态层捕捉文本与图像之间的交互,而单模态层则细化视觉表现。研究人员发现,这两种层的最佳比例为 1:2。

研究人员通过四个步骤训练了 Meissonic。首先,他们使用 2 亿张分辨率为 256 x 256 像素的图像教授模型基本概念。接下来,他们使用 1000 万对经过精心筛选的图像-文本配对,在 512 x 512 像素的分辨率下提高模型的文本理解能力。

在第三步中,他们添加了特殊的压缩层,以支持 1024 x 1024 像素的输出。最后,他们采用较低的学习率对模型进行了微调,并融入了人类偏好数据以提升其性能。

Meissonic 的表现可以超越更大的模型

尽管规模较小,Meissonic 的表现却优于许多大型模型。在包括人类偏好评分 v2(HPSv2)在内的基准测试中,它超越了更大的模型如 SDXL 和 DeepFloyd-XL,HPSv2 得分达到了 28.83,超过了其他模型。

SD 1.5、SD 2.1、DeepFloyd-XL、Deliberate、SDXL 1.0 和 Meissonic 提示:“一张描绘世界末日的图形海报,带有详细的植物插图和艺术影响。”
SD 1.5、SD 2.1、DeepFloyd-XL、Deliberate、SDXL 1.0 和 Meissonic 提示“一种看起来像电话亭的神奇宝贝在 Artstation 和虚幻引擎上越来越受欢迎。”

Meissonic 还能够在无需额外训练的情况下执行图像修补(inpainting)和扩展(outpainting)。研究人员展示了更改图像背景、风格和对象的示例,展示了该模型的灵活性和多样性。

研究人员认为,他们的方法可以加速和降低定制 AI 图像生成器的开发成本。这也可能推动移动设备上基于文本生成图像应用程序的开发。