AI下一个风口是视频?Gen-2用文字描述就能创造出全新视频!
AI下一个风口是视频?Gen-2用文字描述就能创造出全新视频!

AI下一个风口是视频?Gen-2用文字描述就能创造出全新视频!

在最近的一次采访中,电影《复仇者联盟:终局之战》的导演乔·罗素预测,在两年内,人工智能将能制作一部完整的电影。尽管这个时间表有些过于乐观,但我们离那个时刻越来越近。

本周,Google支持的AI创业公司Runway发布了Gen-2,这是一种能够根据文本提示或现有图像生成视频的模型。(Gen-2此前仅提供有限的等待名单准入。) 作为2月份发布的Runway第1代模型Gen-1的后续产品,Gen-2是首款商业上可用的文本到视频模型之一。“商业上可用”是一个重要的区分。文本到视频是人工智能在图像和文本之后产生的下一个边界,这正在成为技术巨头的一个更大的关注领域,去年有几家公司展示了文本到视频模型。但这些模型仍处于研究阶段,除了少数数据科学家和工程师之外,其他人无法使用。

尽管Gen-2模型代表了人工智能在文本到视频领域的最新进展,但其生成的视频质量和体验还远未达到实际应用要求。通过输入不同的文本,对Gen-2进行了初步测试,发现其生成视频的帧率过低,几乎达到幻灯片的程度。

目前尚不清楚的是,这是技术问题还是Runway试图节省计算成本。

除了帧率问题之外,Gen-2生成的剪辑往往具有一定的颗粒感或模糊性,就好像它们应用了某种老式的Instagram滤镜一样。其他伪像也发生在一些地方,例如当“相机”环绕它们或快速缩放它们时,物体周围的像素化。

与许多生成模型一样,Gen-2在物理学或解剖学方面也不是特别一致。就像超现实主义者变出的东西一样,Gen-2制作的视频中人们的胳膊和腿融合在一起,然后再次分开,而物体融化在地板上并消失,它们的反射扭曲和扭曲。而且——取决于提示——脸可以看起来像洋娃娃一样,有光泽、没有感情的眼睛和糊状的皮肤,让人联想到廉价的塑料。

此外,内容方面也存在问题。Gen-2难以准确理解提示中的细微差异与描述,可能会随机忽略部分关键信息,这会导致其生成视频内容的连贯性受到影响。

Gen-2在处理复杂和定制化的视频生成提示方面也存在一定的困难。它难以准确理解和表达更加抽象与精致的创意概念,生成的内容也难以达到较高的连贯性与定制度。如笔者提供的多个提示,Gen-2都难以有效并准确地转化为视频内容。

Gen-2与Stable Diffusion一样,属于扩散模型,它需要在海量数据的训练下逐步生成较为准确的视频内容。而数据集的多样性与质量,在很大程度上决定着模型最终的生成表现,特别是在定制化和创新内容方面。

如果数据集本身在某一领域的数据较为贫乏,模型也难以产生出高质量和连贯的内容,这也进一步证实了上文提到的数据集对模型创造性表现的重要性。即使数据集包含某一领域的数据,但也难以保证模型能够全面并精准地理解这个领域的所有概念与要素。这也意味着,要提高人工智能在特定领域的创造力,单独依赖于大规模数据集是不够的。

要实现人工智能广泛并负责任地应用于社会,避免产生或增强偏见是必须考虑的问题。Gen-2在这方面的进步,源于Runway在模型开发与训练环节的考量。他们不仅注重技术指标的优化,也在一定程度上综合考虑到了社会因素,这使得Gen-2最终的表现在避免偏见方面稍胜其他生成AI模型。这也为其他人工智能企业在这一方面提供了较好参考。

尽管Gen-2在避免某些偏见方面做出了努力,但仍然存在可改进的空间。

例如,输入提示词“首席执行官走进会议室”,Gen-2生成了一段男性和女性(尽管男性比女性更多)坐在类似会议桌周围的视频。而输入提示词“医生在诊室工作”,会显示一名出现亚洲女医生在桌子后面。但是,任何包含“护士”一词的结果却不太理想,始终显示年轻的白人女性。“一个服务生”这句话也一样。

这表明在与性别和种族强烈相关的某些词汇和场景下,Gen-2生成的内容仍然存在偏差,仍然需要在多个方面做出持续努力。

尽管Gen-2代表人工智能在视频生成领域的最新进展,但考虑到其生成内容的连贯性与定制度,它目前还难以在实际工作流程中发挥太大作用。其生成的视频内容需要进一步编辑与提高,方能达到较高的可用性,这也增加了相关工作量,在某种程度上抵消了其带来的便利。

但是,这并不意味着应过度轻视Gen-2所代表的技术进步。它标志人工智能开始涉足并取得进展的一个全新领域,这有可能对相关行业产生较大影响。同时,它也为其他相关企业和研究机构提供了较好的研究路径与启发。一些用户也可能会在不要求高度真实性或定制性的应用场景中,找到Gen-2的实际价值。Runway CEO Cristóbal Valenzuela曾表示,他认为Gen-2可以为艺术家和设计师提供一种工具,帮助他们的创意过程。

Gen-2在理解和生成不同风格的视频内容上具有一定的能力,比如动漫和粘土动画,这些风格适合较低的帧率。只要通过进一步的调整与编辑,Gen-2生成的内容片段有可能被拼接成完整的叙事作品。

但是,鉴于深度伪造的担忧,Runway采取了人工智能与人工审核相结合的方式来防止用户生成不恰当内容。尽管如此,这类方法并非绝对有效,Gen-2生成内容的连贯性与可控性也还有提高空间。这使得Gen-2在实践中的表现和影响还有待观察,我们需要看其内容过滤机制在实践中是否真的奏效。

尽管Gen-2代表人工智能在视频生成领域的最新进展,但要达到电影级别的生成质量,这还需要较长的技术演进过程。从目前Gen-2的表现来看,它在视频质量、连贯性与控制性方面仍然存在较大差距,要真正达到电影级别,这需要算法、数据与计算资源等多个方面获得质的飞跃。

这也意味着,相关的电影制作、动画及视觉特效行业目前来说,都不必过于担心人工智能技术的影响与冲击。尽管这些技术的演进路径已经打开,但要真正达到影响相关产业,这还需要较长时间的技术积累与演变。相关企业和工作者目前来说,仍有充足的时间跟上这一技术变革的步伐。