3dsjs

PartCrafter:开源AI工具将2D图像转化为几何独立的3D网格,提升工业设计效率

2025-09-22 21:48:40 开源AI工具,3D网格生成,工业设计自动化
PartCrafter”是由北京大学、字节跳动和卡内基梅隆大学联合发布的开源AI工具,通过先进的生成模型将单张2D图像快速转化为多个几何独立的3D网格,极大提升设计效率。该工具采用组合潜在扩散变换器(Latent Diffusion Transformer),跳过传统的手动分割步骤,减少计算成本并提高生成速度。在Objaverse、ShapeNet等数据集上,PartCrafter的生成速度比现有方法提升了32倍,适用于工业CAD自动化、AR/VR资产生成等多个领域。该工具为快速原型制作和3D打印提供了全新解决方案。

PartCrafter:由北京大学、字节跳动和卡内基梅隆大学的联合团队发布的开源生成式AI系统,它能在几秒钟内将单张RGB图像转化为多个结构化的3D部件网格。该工具在2025年6月5日的arXiv预印本和公开项目演示中进行了详细介绍,采用了组合潜在扩散变换器(Compositional Latent Diffusion Transformer)来避免手动分割,为设计团队提供了一条更快速的路径,将概念图像转化为可制造的几何形状。

架构:组合潜在推理

以往的工作要么依赖于整体物体扩散模型,要么采用“分割-重建”二阶段流程,如HoloPart(物体级别)和MIDI(场景级别)。这些流程容易受到分割错误的影响,并且计算成本较高。其他工作(如Part123、PartGen)重建的是神经场,而不是显式网格,限制了其在CAD或仿真中的直接使用。PartCrafter与之不同,通过直接在扩散过程中嵌入部件意识,消除了外部分割步骤。


PartCrafter架构。图片来源:Lin等人 / PartCrafter项目页面。

PartCrafter继承了TripoSG的权重和编码器/解码器块,增加了这一短语以明确复用。这样,网络可以学习部件之间的关系,并导出最多16个离散的、互不重叠的网格,所有网格都对齐到一个公共坐标框架。16个部件可以覆盖Objaverse中的大多数家用物体,同时保持可操作的令牌预算。

团队在50,000个带有部件注释的物体上进行了微调,这些物体来自Objaverse、ShapeNet和ABO数据集。在3D部件级对象生成基准测试中,PartCrafter在Objaverse数据集上的L2 Chamfer距离为0.1726,优于HoloPart的0.1916,并将生成时间从18分钟减少到34秒,在一台H20 GPU上大约实现了32倍的速度提升。所有生成的顶点都共享一个全局标准坐标框架,允许直接重新组合或编辑。


3D部件级对象生成的定性结果。图片来源:Lin等人 / PartCrafter项目页面。

行业背景

PartCrafter的发布正值一系列面向增材制造的AI工具兴起之际。今年2月,腾讯推出了Hunyuan3D 2.0文本到网格工作流,支持全彩模型;3月,Tripo AI推出了一个API,可以将提示词直接转化为可编辑的CAD特征,这些都凸显了行业对于更快内容生产管道的需求。

在其他地方,Autodesk Research也在进行类似的探索,推出了Project Bernini,这是一个实验性的生成AI模型,可以将文本、草图或多视图图像转化为完整的3D网格,速度可达秒级。

未来工作与发展规划

作者计划将训练规模扩展到数百万个带注释的部件,并嵌入物理先验,以使生成的装配体符合实际世界的公差要求。代码和数据将在同行评审后发布。该工具的潜在应用包括工业CAD自动化、AR/VR资产管道和基于物理的仿真等领域。