腾讯推出“混元3D 2.0”,可将3D设计速度从几天缩短至几秒
腾讯推出“混元3D 2.0”,可将3D设计速度从几天缩短至几秒

腾讯推出“混元3D 2.0”,可将3D设计速度从几天缩短至几秒

腾讯推出了“混元3D 2.0”人工智能系统,该系统能够在几秒钟内将单张图片或文字描述转化为精细的3D模型。这一系统将一个通常耗时很长的过程——即便是技艺高超的艺术家也可能需要数天乃至数周才能完成——转变为了一项快速且自动化的任务。

继前代模型之后,这一新版本作为开源项目在Hugging Face和GitHub平台上发布,使得全球的开发者和研究人员能够立即获取并应用这项技术。

该公司的研究团队在技术报告中写道:“对于艺术家而言,创建高质量的3D资源是一个耗时很长的过程,因此实现自动生成一直是研究人员的长期目标。”升级版系统在继承前代系统基础的同时,在速度和质量方面实现了显著提升。

混元3D 2.0如何将图片转化为3D模型

混元3D 2.0主要依赖两大组件:混元3D-DiT负责创建基本形状,而混元3D-Paint则负责添加表面细节。该系统首先生成物体的多个二维视图,然后将这些视图合成为一个完整的3D模型。一个全新的引导系统确保物体的所有视图都能匹配一致,从而解决了AI生成3D模型中的一个常见问题。

研究人员解释道:“我们将相机放置在特定高度,以捕捉每个物体的最大可见区域。”这种方法与他们混合不同视角的方法相结合,有助于系统捕捉到其他模型通常会遗漏的细节,特别是物体顶部和底部的细节。

更快、更准:混元3D 2.0的优势

技术成果令人瞩目。根据行业标准测量,混元3D 2.0生成的模型比现有系统更准确且更具视觉吸引力。标准版本可在约25秒内创建一个完整的3D模型,而更小、更快的版本则仅需10秒。

混元3D 2.0的独特之处在于其能够处理文本和图像输入,这使得它比以前的解决方案更加灵活多变。该系统还引入了“自适应无分类器指导”和“混合输入”等创新功能,有助于确保生成的3D模型的一致性和细节。

根据其公布的基准测试结果,混元3D 2.0的CLIP得分为0.809,超越了开源和专有替代方案。该技术在纹理合成和几何精度方面带来了显著提升,在所有行业标准指标上都优于现有解决方案。

该系统的关键技术进步在于其能够在不依赖庞大计算能力的情况下创建高分辨率模型。团队开发了一种新方法,可以在保持处理需求可控的同时增加细节,这是其他3D AI系统经常遇到的限制。

将3D建模工具推向更多行业

这些进步对许多行业都具有重要意义。游戏开发者可以快速创建角色和环境的测试版本。在线商店可以展示3D产品。电影工作室可以更高效地预览特效。

腾讯已通过Hugging Face分享了其系统的大部分组件。开发者现在可以使用这些代码创建与标准设计软件兼容的3D模型,这使得在专业环境中立即使用这些模型成为可能。

虽然这项技术在自动化3D创建方面迈出了重要一步,但它也引发了关于艺术家未来工作方式的疑问。腾讯认为,混元3D 2.0并不是要取代人类艺术家,而是作为一个工具来处理技术任务,从而让创作者能够专注于艺术决策。

随着3D内容在游戏、购物和娱乐领域变得越来越重要,混元3D 2.0等工具预示着未来创建虚拟世界将变得像描述它们一样简单。未来的挑战可能不再是生成3D模型,而是决定如何使用它们。