AI艺术领域正变得愈发火热。Nvidia推出的新AI模型Sana,能够在消费级硬件上生成高质量的4K图像,这得益于其与传统图像生成器略有不同的巧妙技术组合。
Sana的速度源于Nvidia所称的“深度压缩自编码器”,该技术将图像数据压缩到原始大小的1/32,同时保留所有细节。该模型与Gemma 2 LLM配合使用,以理解提示,从而在适度硬件上展现出超出预期的性能。
如果最终产品与公开演示一样出色,Sana有望成为一款全新的图像生成器,能够在对系统要求较低的环境中运行,这对Nvidia来说将是一个巨大的优势,使其能够接触到更多用户。
Nvidia团队在Sana的研究论文中写道:“Sana-0.6B在与现代大型扩散模型(如Flux-12B)的竞争中表现出色,其体积小20倍,吞吐量快100倍以上。此外,Sana-0.6B可以在16GB的笔记本GPU上部署,生成1024×1024分辨率的图像所需时间不足1秒。”
没错,你没有看错:Sana是一个6亿参数的模型,能够与体积大20倍的模型竞争,同时生成4倍更大的图像,且耗时仅为它们的一小部分。如果这听起来太美好而不真实,你可以在麻省理工学院设立的特殊界面上亲自试用。
Nvidia的时机恰到好处,近期推出的Stable Diffusion 3.5、备受喜爱的Flux和全新的Auraflow模型都在争夺用户关注。Nvidia计划很快将其代码以开源形式发布,这一举措可能会巩固其在AI艺术界的地位,同时也将促进其GPU和软件工具的销售。
使Sana如此出色的三大要素
Sana基本上是对传统图像生成器工作方式的重新构想。但有三个关键要素使该模型如此高效。
首先是Sana的深度压缩自编码器,它将图像数据压缩到原始大小的仅3%。研究人员表示,这种压缩采用了一种专门技术,能够在大幅减少所需处理能力的同时保持复杂细节。
你可以把这个看作是对在Flux或Stable Diffusion中实现的变分自编码器的优化替代品。Sana中的编码/解码过程旨在更快且更高效。
这些自编码器基本上将潜在表示(AI理解和生成的内容)转换为图像。
其次,Nvidia彻底改革了其模型处理提示的方式——即通过编码和解码文本。大多数AI艺术工具使用像T5或CLIP这样的文本编码器,基本上将用户的提示翻译成AI可以理解的内容——来自文本的潜在表示。但Nvidia选择使用谷歌的Gemma 2 LLM。
这个模型的功能基本相同,但保持轻量化,同时能够捕捉用户提示中的细微差别。输入“迷雾山脉上的日落与古代遗迹”,它就能字面上理解这个画面,而不会使你的计算机内存达到极限。
但是,线性扩散变换器(Linear Diffusion Transformer,LDT)可能是与传统模型的主要不同之处。其他AI工具使用复杂的数学运算,这会拖慢处理速度,而Sana的LDT则剔除了不必要的计算。结果是?闪电般快速的图像生成,且没有质量损失。可以把它看作是通过迷宫找到的一条捷径——同样的目的地,但更快的路线。
这可能是AI艺术家熟知的Flux或Stable Diffusion模型中的UNet架构的替代方案。UNet通过应用噪声去除技术,将噪声(无意义的内容)转化为清晰的图像,逐步细化图像,这是图像生成器中最耗费资源的过程。
因此,Sana中的LDT基本上执行与Stable Diffusion中的UNet相同的“去噪”和转换任务,但采用了更精简的方法。这使得LDT成为实现Sana高效和快速图像生成的关键因素,而UNet仍然是Stable Diffusion功能的核心,尽管其计算需求更高。
基础测试
由于该模型尚未公开发布,我们无法提供详细评测。但我们从模型演示网站获得的一些结果相当不错。
Sana的生成速度相当快。相比之下,它能够在不到10秒的时间内生成4K图像,完成30个步骤。这甚至比Flux Schnell在4个步骤中以1080p大小生成类似图像的时间还要快。
以下是一些结果,使用我们用来基准测试其他图像生成器的相同提示:
Prompt 1: “Hand-drawn illustration of a giant spider chasing a woman in the jungle, extremely scary, anguish, dark and creepy scenery, horror, hints of analog photography influence, sketch.”
Prompt 2: A black and white photo of a woman with long straight hair, wearing an all-black outfit that accentuates her curves, sitting on the floor in front of a modern sofa. She is posing confidently for the camera, showcasing her slender legs as she crouches down. The background features a minimalist design, emphasizing her elegant pose against the stark contrast between light gray walls and dark attire. Her expression exudes confidence and sophistication. Shot by Peter Lindbergh using Hasselblad X2D 105mm lens at f/4 aperture setting. ISO 63. Professional color grading enhances the visual appeal.
Prompt 3: A Lizard Wearing a Suit
Prompt 4: A beautiful woman lying on grass
Prompt 5: “A dog standing on top of a TV showing the word ‘Decrypt’ on the screen. On the left there is a woman in a business suit holding a coin, on the right there is a robot standing on top of a first aid box. The overall scenery is surreal.”
该模型也是未经过审查的,能够正确理解男性和女性的解剖结构。这也将使其在发布后更容易进行微调。然而,考虑到架构的重大变化,模型开发者在理解其复杂性并发布定制版本的Sana时将面临多大挑战,仍有待观察。
根据这些早期结果,仍处于预览阶段的基础模型在现实主义方面表现良好,同时在其他艺术类型上也足够灵活。它在空间感知方面表现出色,但其主要缺陷在于文本生成能力不足以及在某些条件下细节缺失。
速度的声明相当令人印象深刻,能够生成4096×4096的图像(在技术上高于4K)是一个显著的成就,考虑到目前这种尺寸通常只能通过放大技术来实现。
它将开源这一点也是一个重大利好,因此我们可能很快就能评测能够生成超高清图像的模型和微调版本,而不会对消费级硬件施加过大压力。
Sana的权重将会在该项目的官方GitHub上发布。