字节跳动的Goku模型无需真人演员即可生成逼真的产品视频

这家科技公司的最新人工智能（AI）模型能够生成逼真的视频，展示人与产品的互动场景，这或将彻底改变企业制作广告内容的方式。

据随附的论文介绍，字节跳动公司利用其庞大的数据集构建了全新的Goku AI模型，该数据集包含约1.6亿个图像-文本对和3600万个视频-文本对。这些数据来源于学术数据集、网络资源以及合作伙伴组织。

经过严格筛选的训练数据集

与其他视频模型不同，Goku能够根据文本描述同时生成静态图像和视频。该系统采用了一种全新的Transformer架构，该架构包含20亿至80亿个参数，能够同时处理这两种格式。

该系统利用共享编码器（VAE）将图像和视频压缩成统一的格式，类似于数据压缩的过程。随后，一个定制的Transformer处理这些压缩后的数据。这种架构结合了一种名为“校正流（Rectified Flow）”的专门生成过程（摒弃了常用的扩散方法），有助于悟空生成一致且高质量的输出。

训练过程分阶段进行：首先，系统学习将文本与图像进行匹配，然后同时对图像和视频进行训练。最后阶段专门针对图像或视频输出对模型进行优化。

为了处理这一复杂的训练过程，字节跳动开发了专门的基础设施，通过并行化高效地利用现有的计算资源。该系统还能有效地保存训练进度，并在出现问题时迅速恢复，从而确保在大型计算机集群上进行稳定的训练。

在基准测试中，Goku在图像和视频生成方面均表现出色。其中，视频模型Goku-T2V在VBench上获得了84.85的高分，超过了来自Kling和Pika等公司的类似工具。与字节跳动之前的AI模型“即梦”相比，Goku的输出质量也有了显著提升。

Goku+旨在变革广告制作

字节跳动认为Goku在媒体制作、广告、游戏以及世界建模等领域具有广泛的应用前景。其中，一个专门版本——Goku+，专注于创建以人物和产品为特色的广告内容。

Goku+能够基于文本描述生成逼真的视频，视频中的人物拥有自然的手势动作、面部表情和体态。它还能将产品图片转化为展示人与产品互动的视频片段。

该公司表示，这可能会将视频广告的制作成本降低99%。目前，企业往往需要向“UGC创作者”（即制作逼真产品视频的社交媒体内容创作者）支付高额费用。

虽然字节跳动已经开展了多个视频AI项目，但Goku显然是其中规模较大的一个。目前，它仍处于研究预览阶段。