“Stable Virtual Camera”能够从单张图像生成 3D 视频

Stability AI推出了“Stable Virtual Camera”，这是一款全新的人工智能系统，能够将普通照片转换为3D视频，且无需进行复杂的3D重建或场景优化。

该系统仅用一张照片，或者最多32张输入图像，就能创建时长可达30秒的360度视频。它支持14种不同的相机运动方式，包括360度旋转、螺旋式移动、缩放效果，以及像双纽线（环形路径）这样更复杂的模式。Stability AI表示，当所有相机形成一条轨迹时，生成的视图具有三维效果，在时间上连贯一致，并且正如其名所示，是“稳定的”。

支持多种格式

该系统能够处理多种图像格式，包括方形（1:1）、竖版（9:16）以及横版（16:9）格式。这一能力让研究人员颇为意外，因为该模型仅在576×576像素的方形图像上进行过训练。研究团队认为，该模型以某种方式自行学会了处理不同尺寸的图像。

“Stable Virtual Camera”依托一个拥有13亿参数的扩散模型，该模型建立在“Stable Diffusion2.1”架构的基础之上。为了提升对空间的理解能力，研究人员将该模型的二维自我感知能力转化为了三维自我感知能力。

该系统分两个步骤来处理输入图像：首先，它会根据输入图像生成开发者所称的“锚定图像”。其次，它会在这些锚定点之间创建所需的视角。据开发者介绍，这种两阶段的处理流程有助于确保输出结果连贯且稳定。

基准测试表明，“Stable Virtual Camera”的表现优于现有的解决方案，如“ViewCrafter”和“CAT3D”，尤其在处理大幅度的视角变换以及实现流畅的过渡效果方面更为出色。

不过，该系统在精确渲染人物、动物以及水面等动态元素时仍存在困难。在进行复杂的相机移动或处理模糊场景时，尤其是当目标视角与原始图像差异较大时，可能会出现视觉瑕疵。

可用性

目前，研究人员可以在非商业许可的条件下使用该系统，其模型权重可在Hugging Face上免费获取，源代码则可在GitHub上找到。公众也可以通过Hugging Face使用其公开演示版本。

自凭借图像生成器取得早期成功以来，Stability AI面临着来自开源项目和商业竞争对手日益激烈的竞争。值得注意的是，“Flux”已成为开源图像生成领域的一个重要替代方案。

该公司最近进行了重组，将重点聚焦于两个关键领域：一方面推进3D处理和新型视图合成方面的研究，另一方面为智能手机等低功耗设备开发经过优化的模型。