
这家科技公司的最新人工智能(AI)模型能够生成逼真的视频,展示人与产品的互动场景,这或将彻底改变企业制作广告内容的方式。
据随附的论文介绍,字节跳动公司利用其庞大的数据集构建了全新的Goku AI模型,该数据集包含约1.6亿个图像-文本对和3600万个视频-文本对。这些数据来源于学术数据集、网络资源以及合作伙伴组织。
经过严格筛选的训练数据集
与其他视频模型不同,Goku能够根据文本描述同时生成静态图像和视频。该系统采用了一种全新的Transformer架构,该架构包含20亿至80亿个参数,能够同时处理这两种格式。
该系统利用共享编码器(VAE)将图像和视频压缩成统一的格式,类似于数据压缩的过程。随后,一个定制的Transformer处理这些压缩后的数据。这种架构结合了一种名为“校正流(Rectified Flow)”的专门生成过程(摒弃了常用的扩散方法),有助于悟空生成一致且高质量的输出。
训练过程分阶段进行:首先,系统学习将文本与图像进行匹配,然后同时对图像和视频进行训练。最后阶段专门针对图像或视频输出对模型进行优化。
为了处理这一复杂的训练过程,字节跳动开发了专门的基础设施,通过并行化高效地利用现有的计算资源。该系统还能有效地保存训练进度,并在出现问题时迅速恢复,从而确保在大型计算机集群上进行稳定的训练。

在基准测试中,Goku在图像和视频生成方面均表现出色。其中,视频模型Goku-T2V在VBench上获得了84.85的高分,超过了来自Kling和Pika等公司的类似工具。与字节跳动之前的AI模型“即梦”相比,Goku的输出质量也有了显著提升。
Goku+旨在变革广告制作
字节跳动认为Goku在媒体制作、广告、游戏以及世界建模等领域具有广泛的应用前景。其中,一个专门版本——Goku+,专注于创建以人物和产品为特色的广告内容。

Goku+能够基于文本描述生成逼真的视频,视频中的人物拥有自然的手势动作、面部表情和体态。它还能将产品图片转化为展示人与产品互动的视频片段。
该公司表示,这可能会将视频广告的制作成本降低99%。目前,企业往往需要向“UGC创作者”(即制作逼真产品视频的社交媒体内容创作者)支付高额费用。
虽然字节跳动已经开展了多个视频AI项目,但Goku显然是其中规模较大的一个。目前,它仍处于研究预览阶段。