AI 视频生成专家探讨该技术的快速发展及其当前局限性

深度伪造是通过人工智能（AI）模型生成或修改的图像、音频录音或视频，以描绘真实或虚构的人物。

生成式人工智能似乎正越来越多地成为虚假信息工具箱中的一种突出工具。罗彻斯特大学的一位计算机视觉和深度学习专家表示，尽管这项技术迅速发展，但由于深度伪造视频生成的复杂性，恶意行为者仍然难以有效利用这一技术。

尽管OpenAI的产品，包括用于文本生成的ChatGPT和用于图像生成的DALL-E 3，正在迅速流行，但该公司尚未推出视频生成的相应产品。罗彻斯特大学计算机科学副教授徐晨亮表示，该公司已发布其Sora视频生成软件的预览，但该产品仍在测试和完善阶段，尚未正式发布。

“使用AI生成视频仍然是一个正在进行的研究课题，且是一个难题，因为这就是我们所说的多模态内容。”徐教授表示，“生成动态视频和相应的音频本身就是困难的问题，而将它们对齐则更为复杂。”

徐教授表示，他的研究小组是最早使用人工神经网络生成多模态视频的团队之一，始于2017年。他们的研究从提供小提琴演奏者的图像和小提琴的音频开始，以生成小提琴演奏者的动态视频。之后，他们逐步解决了生成嘴唇运动的问题，接着又发展到从单一图像创建完整的会说话的面孔，包括头部手势。

“现在，我们可以生成实时、可完全控制的头部，甚至可以根据语言描述将头部转换为不同的风格。”徐教授说道。

徐教授的团队还开发了深度伪造检测技术。他指出，这是一个需要深入研究的领域，因为构建检测深度伪造的技术比生成深度伪造要容易，因为后者需要大量的训练数据来构建通用的深度伪造检测模型。

“如果你想构建一种能够检测深度伪造的技术，你需要创建一个数据库，以识别哪些是伪造图像，哪些是真实图像。”徐教授表示，“这种标注需要额外的人力参与，而生成过程则不需要。”

他还补充说，另一个担忧是要制作一个能够适应不同类型深度伪造生成器的检测器。“你可以创建一个在已知技术上表现良好的模型，但如果有人使用不同的模型，你的检测算法将难以捕捉到这一点。”他说。

获取良好的训练数据对创建有效的生成式AI模型至关重要。因此，徐教授表示，随着视频生成器的广泛可用，政治家和名人将是最早也是最容易的目标。

“政治家和名人比普通人更容易生成，因为关于他们的数据更多。”徐教授指出，“由于已经有大量关于他们的视频，这些模型可以利用这些数据学习他们在不同情境下表现出的表情、声音、发型、动作和情感。”

但他预计，至少在最初，“名人深度伪造”所依赖的训练数据可能使其更容易被识别。

“如果你仅使用高质量的照片来训练一个模型，它会产生类似的结果。”徐教授表示，“这可能导致一种过于平滑的风格，这可以作为一个线索，帮助人们识别出它是深度伪造。”

其他识别线索可能包括一个人的反应看起来有多自然、他们是否能够转动头部，甚至是露出的牙齿数量。然而，图像生成器已经克服了类似的早期识别特征，比如生成六根手指的手，徐教授表示，足够的训练数据可以缓解这些局限性。

他呼吁研究界投入更多精力开发深度伪造检测策略，并解决围绕这些技术发展的伦理问题。

“生成模型是一种工具，在好人手中可以做出好事，但在坏人手中则可能被用于恶意行为。”徐教授说道，“这项技术本身并不是好或坏，但我们需要讨论如何防止这些强大的工具落入不法之手并被恶意使用。”