对标Gen2?AI生成高质量视频大模型Zeroscope,免费开源!
对标Gen2?AI生成高质量视频大模型Zeroscope,免费开源!

对标Gen2?AI生成高质量视频大模型Zeroscope,免费开源!

Zeroscope源自Modelscope,这是一个拥有17亿参数的多层次文本到视频扩散模型。它根据文本描述生成视频内容。Zeroscope进一步完善了这个概念,提供更高分辨率的视频,没有Shutterstock的水印,并接近16:9的宽高比。

这一技术的推出为用户提供了一种创造动态视频的新途径。用户可以通过提供文字描述,以更高分辨率和更广阔的宽高比生成定制的视频内容。这对于广告、营销、教育和娱乐等领域的专业人士以及创意爱好者都是一项有趣和有用的工具。然而,需要注意的是,尽管技术可以生成视频内容,但创作过程中仍需要人类的判断和编辑,以确保最终的视频质量和内容准确传达所期望的信息。

为了进行视频生成,该模型在576×320像素的分辨率下,每秒30帧的帧率需要7.9 GB的VRam,并且在相同的帧率下,1024×576像素的分辨率需要15.3 GB的VRam。因此,较小的模型可以在许多标准图形卡上运行。

Zeroscope的训练过程涉及对9923个片段和29769个标记帧应用偏移噪声,每个片段包含24个帧。偏移噪声可能包括视频帧中对象的随机位移,帧时序的微小变化或轻微的扭曲。

在训练过程中引入这种噪声增强了模型对数据分布的理解。因此,模型能够生成更多样化、更真实的视频,并更有效地解释文本描述的变化。这意味着通过提供不同的文本描述,用户可以获得多样化且符合预期的视频生成结果。

这可能是Runway的开源竞赛吗?

Zeroscope的开发者Cerspense在对Modelscope进行改进和微调的过程中,对模型的性能和功能进行了优化。他去除了Modelscope水印,使Zeroscope更适合应对Gen-2等商业级文本转视频模型。

根据Cerspense的说法,Zeroscope完全免费供公众使用,用户可以无需任何费用地访问和利用该软件。

文本到视频技术的发展速度能否像文本到图像一样快?

文本到视频技术仍处于起步阶段。AI生成的视频片段通常只有几秒钟,并且存在许多视觉缺陷。然而,图像AI模型最初也面临类似问题,但在几个月内实现了逼真的效果。但与图像模型不同,视频生成在训练和生成方面需要更多的资源支持。

谷歌已经发布了Phenaki和Imagen Video两个文本到视频模型,能够生成高分辨率、较长且逻辑连贯的视频片段,但它们尚未发布。Meta的Make-a-Video也是一个文本到视频模型,但同样尚未发布。

目前,只有Runway的Gen-2模型是商业可用的,并且现在已经在iPhone上推出。Zeroscope的推出标志着首个高质量开源模型的诞生。