上海科技大学的科学家们开发了一种名为CLAY的AI模型,该模型能够根据文本和图像生成详细的3D对象。该模型在质量和多样性上超越了以往的方法。
上海科技大学的研究团队揭示了这一新的AI系统,用于生成3D内容。该模型名为CLAY(可控大规模生成模型,用于创建高质量3D资产,包括高质量几何和外观),能够从简单的文本描述或2D图像中创建复杂的三维对象。
CLAY的核心包括一个多分辨率变分自编码器(VAE)和一个扩散变换器(DiT)。VAE负责将各种细节水平的3D几何体编码到潜在空间,而DiT则负责生成这些几何体。与许多其他方法不同,CLAY在处理3D内容时无需先转换为2D。
研究人员表示,CLAY能够生成从简单的日常物品到复杂的幻想生物等各种对象。该系统在超过50万个3D模型上进行了训练。研究团队开发了一条特殊的流程,用于统一不同的3D数据集,包括一个重新网格化过程来标准化几何体,以及使用GPT-4V进行精确的自动标注。
CLAY的一个独特功能是通过附加输入来控制生成过程。除了文本和图像外,粗略的形状(体素结构、点云)或边界框也可以被指定。这使得对最终结果的控制更加精确。
这些条件可以单独使用,也可以组合使用。例如,可以从分散的边界框生成整个城市场景,或者从手绘草图中重建详细的3D模型。
与之前的方法比较
在直接比较中,CLAY在定性和定量评估中均优于现有的文本转3D和图像转3D系统,如Shap-E、DreamFusion或Wonder3D。
在文本转3D生成方面,CLAY生成了更为一致的几何形状,表面更光滑,细节更精细。在图像转3D转换中,该系统能够更准确地重建输入内容,更好地保留复杂结构。
CLAY的另一个优势是速度:虽然一些对比系统需要几个小时进行优化,CLAY则能在约45秒内生成高质量的3D资产。
除了几何生成,CLAY还掌握了逼真材料的合成。该系统能够生成物理基础渲染材料(PBR),包括漫反射、粗糙度和金属质感。CLAY采用了一种特殊的多视角材料扩散方法,这一方法在超过40,000种高质量PBR材料上进行了训练。
潜在应用与展望
科学家们看到了CLAY的多种应用前景,如游戏开发、电影制作或3D打印。该系统有可能显著简化耗时的手动3D模型创建过程。
然而,研究人员也指出了潜在的风险。与其他AI系统一样,CLAY可能会被滥用来创建令人误以为真实的虚拟内容。因此,开发者计划进一步采取安全措施,以确保负责任的使用。
尽管成果令人印象深刻,研究人员仍认为还有改进的空间。他们计划进一步扩展训练数据并提高其质量,同时也在致力于将几何生成和材料生成集成到一个单一模型中。