CLAY 通过文本和图像创建精细的 3D 对象

上海科技大学的科学家们开发了一种名为CLAY的AI模型，该模型能够根据文本和图像生成详细的3D对象。该模型在质量和多样性上超越了以往的方法。

上海科技大学的研究团队揭示了这一新的AI系统，用于生成3D内容。该模型名为CLAY（可控大规模生成模型，用于创建高质量3D资产，包括高质量几何和外观），能够从简单的文本描述或2D图像中创建复杂的三维对象。

CLAY的核心包括一个多分辨率变分自编码器（VAE）和一个扩散变换器（DiT）。VAE负责将各种细节水平的3D几何体编码到潜在空间，而DiT则负责生成这些几何体。与许多其他方法不同，CLAY在处理3D内容时无需先转换为2D。

研究人员表示，CLAY能够生成从简单的日常物品到复杂的幻想生物等各种对象。该系统在超过50万个3D模型上进行了训练。研究团队开发了一条特殊的流程，用于统一不同的3D数据集，包括一个重新网格化过程来标准化几何体，以及使用GPT-4V进行精确的自动标注。

CLAY的一个独特功能是通过附加输入来控制生成过程。除了文本和图像外，粗略的形状（体素结构、点云）或边界框也可以被指定。这使得对最终结果的控制更加精确。

这些条件可以单独使用，也可以组合使用。例如，可以从分散的边界框生成整个城市场景，或者从手绘草图中重建详细的3D模型。

在直接比较中，CLAY在定性和定量评估中均优于现有的文本转3D和图像转3D系统，如Shap-E、DreamFusion或Wonder3D。

在文本转3D生成方面，CLAY生成了更为一致的几何形状，表面更光滑，细节更精细。在图像转3D转换中，该系统能够更准确地重建输入内容，更好地保留复杂结构。

CLAY的另一个优势是速度：虽然一些对比系统需要几个小时进行优化，CLAY则能在约45秒内生成高质量的3D资产。

除了几何生成，CLAY还掌握了逼真材料的合成。该系统能够生成物理基础渲染材料（PBR），包括漫反射、粗糙度和金属质感。CLAY采用了一种特殊的多视角材料扩散方法，这一方法在超过40,000种高质量PBR材料上进行了训练。

科学家们看到了CLAY的多种应用前景，如游戏开发、电影制作或3D打印。该系统有可能显著简化耗时的手动3D模型创建过程。

然而，研究人员也指出了潜在的风险。与其他AI系统一样，CLAY可能会被滥用来创建令人误以为真实的虚拟内容。因此，开发者计划进一步采取安全措施，以确保负责任的使用。

尽管成果令人印象深刻，研究人员仍认为还有改进的空间。他们计划进一步扩展训练数据并提高其质量，同时也在致力于将几何生成和材料生成集成到一个单一模型中。