字节跳动推出了一款人工智能系统,能够将任何照片转化为逼真的视频表演,展现出细腻的表情和情感深度,堪比真实影像。这款名为“X-Portrait 2”的系统旨在使静态图像呈现出经典电影场景,其效果非常逼真,模糊了真实与人工内容之间的界限。
该系统的演示展示了《闪灵》、《变脸》和《围墙》等电影中经典场景的静态照片,捕捉了原始表演中的每一个细微表情。现在,一张照片就可以像训练有素的演员一样,展现出恐惧、愤怒或喜悦等情感,同时保持原始人物的身份和特征。
这一突破来得正是时候。在社会应对数字虚假信息和美国总统选举后果之际,X-Portrait 2 能够将任何照片转化为与现实难以区分的视频,这引发了严重的担忧。以往的 AI 动画工具产生的结果明显人工,动作机械化。但字节跳动的新系统捕捉了面部肌肉的自然流动、微妙的眼部运动和复杂的表情,使人类面孔独特的表现力得以展现。
字节跳动通过创新的方法实现了这种逼真效果。与大多数动画软件通过追踪面部特定点的标准方法不同,该系统观察并学习完整的面部运动。旧有系统通过连接点来创建表情,而 X-Portrait 2 捕捉整个面部的流畅运动,即使在快速讲话或从不同角度观看时也能如此。
TikTok 的十亿用户数据库:字节跳动 AI 突破背后的秘密
字节跳动的优势源于其独特的地位,作为拥有 TikTok 的公司,处理着每天超过十亿个用户生成的视频。这庞大的面部表情、动作和情感数据集为训练数据提供了规模,其他大多数 AI 公司无法比拟。而竞争对手依赖于有限的数据集或合成数据,字节跳动可以利用真实世界的表情数据,捕捉不同面孔、光线条件和摄像角度下的细微差异,来微调其 AI 模型。
X-Portrait 2 的发布恰逢字节跳动将AI研究拓展至中国以外的关键时刻。公司正在欧洲建立新的研究中心,潜在地点包括瑞士、英国和法国。计划在马来西亚投资 21.3 亿美元建立 AI 中心,并与清华大学合作,表明其在多个大陆建立 AI 专业知识的战略。
这一全球研究推进正值关键时刻。尽管字节跳动在西方市场面临监管审查——包括加拿大最近下令 TikTok 停止运营,以及美国关于限制的持续辩论——但公司仍在继续推进其技术能力。
好莱坞的下一场革命:人工智能如何取代百万美元的动作捕捉
动画行业的影响不仅限于技术成就。目前,主要工作室在动作捕捉设备上投入数百万美元,并雇佣数百名动画师来创建逼真的面部表情。X-Portrait 2 暗示了一个未来:只需一位摄影师和一段参考视频,就能取代大部分基础设施。
这一转变正值关于 AI 生成内容和数字权利的辩论日益激烈之际。尽管竞争对手纷纷公开发布其代码,字节跳动却保持 X-Portrait 2 的实现私密——这一决定反映了对 AI 工具可能被滥用以创建未经授权的表演或误导性内容的日益关注。
字节跳动对人类运动和表情的关注,标志着其与其他 AI 公司的不同路径。而像 OpenAI 和 Anthropic 等公司专注于语言处理,字节跳动则建立在其核心优势上:理解人们在镜头前的运动和表达方式。这一专业化直接源于 TikTok 多年对舞蹈趋势和面部表情的分析。
对人类运动的重视可能比当前市场分析所暗示的更为重要。随着工作和社交活动日益转向虚拟空间,准确捕捉和传递人类情感的技术变得至关重要。字节跳动的进展使其能够影响人们在数字环境中的互动方式,从商务会议到娱乐活动。
人工智能安全问题:当数字面孔需要数字锁时
去年 10 月,字节跳动一名实习生因涉嫌干扰 AI 模型训练而被解雇,这突显了 AI 开发中常被忽视的一个方面:内部安全。随着模型的日益复杂,防止篡改变得愈发关键。
这一技术的出现正值娱乐、教育和商业沟通领域对 AI 生成视频内容的需求上升之际。X-Portrait 2 展示了在传递细腻表情的同时保持一致身份的显著技术进步,但也引发了关于AI生成内容的认证和验证的问题。
随着西方政府对中国科技公司的审查加剧,字节跳动在 AI 动画方面的进展呈现出复杂的现实:创新无国界,我们在线互动的未来可能由远离硅谷的技术塑造。