像《复仇者联盟》导演Joe Russo一样,越来越确信在我们有生之年内将会实现完全由AI生成的电影和电视节目。
在过去几个月里,一系列AI的揭示,特别是OpenAI推出的逼真语音合成引擎,已经让人们窥见了这个崭新领域的一簇火花。但是,Meta新宣布的功能让大家对AI生成内容的未来有了更为清晰的认识。
Meta首次推出了Emu Video,这是这家科技巨头图像生成工具Emu的进化版。通过提供一个标题(例如“一只狗穿过草地的小山坡”)、图像或与描述配对的照片,Emu Video可以生成一个四秒的动画片段。
Emu Video的片段可以使用一个名为Emu Edit的辅助AI模型进行编辑,该模型也在今天宣布推出。用户可以用自然语言描述想要对Emu Edit进行的修改,例如“相同的片段,但慢动作”,然后在新生成的视频中看到这些变化。
现在,视频生成技术并非新鲜事物。Meta之前已经进行过相关实验,Google也尝试过。与此同时,像Runway这样的初创公司已经在此基础上建立了业务。
但是,Emu Video的512×512、每秒16帧的片段在保真度方面很容易堪称最佳——以至于外行的眼睛很难将它们与真实的事物区分开来。
至少在某些方面是这样。看起来Emu Video在给予简单、主要静态场景(例如瀑布和城市天际线的延时摄影)以及偏离照片逼真的动画方面最为成功——也就是说,以立体主义、动漫、剪纸工艺和蒸汽朋克等风格为主。其中一段黎明时分的埃菲尔铁塔“如同一幅画”,塔尖在其下方的塞纳河中倒影,让人联想到在美国问候卡上可能看到的一幅电子贺卡。
然而,即便在Emu Video最佳作品中,AI生成的怪异之处仍然悄然而至——例如奇异的物理现象(平行移动的滑板)和奇怪的附肢(脚趾弯曲到脚后面,腿相互融合)。物体经常以缺乏逻辑的方式出现和消失,就像前述的埃菲尔铁塔片段中头顶的鸟一样。
在花费了一些时间浏览Emu Video的创作(或者至少是Meta精心挑选的例子)之后,开始注意到另一个明显的痕迹:片段中的主体似乎… 并没有做太多事情。Emu Video似乎没有对动作动词有很强的把握,这也许是模型底层架构的限制。
例如,在Emu Video的片段中,一个可爱的拟人化浣熊会拿着一把吉他,但它不会弹奏吉他——即使片段的标题中包含了“弹奏”这个词。或者两只独角兽会“玩”国际象棋,但只是在他们好奇地坐在棋盘前而不移动棋子的意义上。
显然,还有很多工作要做。不过,Emu Video更基础的B卷在今天的电影或电视节目中并不显得格格不入——而这引发的伦理问题实际上让人感到恐慌。
撇开深度伪造的风险,担心那些生计依赖于创作类似Emu Video可以近似的场景的动画师和艺术家。Meta及其生成式AI竞争对手可能会辩称,Emu Video(据Meta首席执行官马克·扎克伯格称将整合到Facebook和Instagram中)并不是替代人类艺术家,而是增强其创作。但这是一种乐观的看法,如果不是心计多端的话,尤其是涉及金钱的问题。
今年早些时候,Netflix在一部三分钟的动画短片中使用了由AI生成的背景图像。该公司声称这项技术可以缓解动漫行业的劳动力短缺问题,但忽略了低薪和常常艰苦的工作条件是如何让艺术家们远离这项工作的。
在类似的争议中,制作漫威《秘密入侵》片尾的工作室承认使用了AI,主要是文本转图工具Midjourney,来生成片尾大部分的艺术作品。系列导演Ali Selim称使用AI符合节目的偏执主题,但大部分艺术家社区和粉丝强烈反对。
演员也可能受到威胁。最近SAG-AFTRA罢工中的一个主要争议点是使用AI创建数字肖像。最终,制片公司同意支付演员因其由AI生成的肖像而获得的报酬。但随着技术的进步,他们可能会重新考虑这一决定。这是很有可能的。
雪上加霜的是,像Emu Video这样的AI通常是在艺术家、摄影师和电影制片人制作的图像和视频上进行训练的,而没有通知或赔偿这些创作者。在发布Emu Video的白皮书中,Meta只是表示该模型是在一个包含3400万个“视频-文本对”的数据集上进行训练的,这些对的长度从五秒到60秒不等——并没有说明这些视频的来源、版权状态或Meta是否获得了许可(注:Meta发言人通过电子邮件告诉T表示,Emu是在“获得许可的合作伙伴的数据”上进行训练的。)。
在制定行业标准方面已经出现了一些起伏,以允许艺术家选择“退出”训练或收到他们为之做出贡献的AI生成作品的报酬。但如果以Emu Video为例,技术——常常如此——可能很快就会远远超过伦理。也许它已经做到了。