NTU S-Lab 团队探索可动 3D 新方向:结构、关节、纹理一次到位
在生成式 AI 全面进入三维空间的当下,如何让机器不仅“看到”物体,还能理解其结构、关节和运动方式,正在成为全球研究机构与产业界共同关注的焦点。
从虚拟内容制作到机器人操作,从数字孪生到工业仿真,可动三维的自动化生成正在被视为未来交互式数字世界的重要基础能力。然而,现有方法仍普遍受限于对完整三维扫描的依赖、对结构与纹理分离建模造成的不一致性,以及难以处理运动带来可见性变化等难题。
在这一背景下,南洋理工大学 S-Lab 团队近期发布的一项研究提供了新的解决路径。他们提出的统一建模框架能够从单张图像生成具备真实几何结构、准确关节参数和自然外观纹理的可动三维对象,在几何精度、外观一致性与运动合理性上均取得显著提升。
这项工作不仅展示了结构化潜空间、扩散式 3D 生成与关节感知纹理建模的协同潜力,也为进一步提升 AI 对物体功能性与交互属性的理解奠定了基础。
值得一提的是,该论文作者之一的潘新钢曾作为 2023 年 GAIR 全球人工智能与机器人大会的受邀嘉宾,与众多来自国际顶级院校与企业的研究者共同探讨三维视觉、机器人操作和生成式模型的前沿方向。
雷峰网 GAIR 对三维生成、机器人智能与新型视觉系统长期保持关注,而即将在 2025 年 12 月 12 — 13 日于深圳·博林天瑞喜来登酒店举办的 GAIR 大会,也将继续聚焦这些技术的产业化趋势,与一众来自研究机构、科技企业与应用行业的专家共同关注空间智能与新型生成模型等新兴技术在未来交互式场景中的落地路径与发展方向。
论文地址:https://arxiv.org/pdf/2510.21432
整体的性能跃升
S-Lab 团队这篇论文中的实验结果显示,他们研发的模型在多个关键维度上都有明显提升,无论是几何结构的完整度、关节运动的稳定性,还是外观呈现的真实度与跨数据集的泛化能力,都展现出优于现有方法的综合表现。
首先,在几何结构生成方面,通过 Chamfer Distance 指标可以看到,无论是在静止状态还是在经历关节旋转、平移等运动之后,模型都能够生成与真实物体高度接近的三维结构,并且在多种方法中保持了最低水平的几何误差。
生成物体在关节运动前后仍能维持清晰的部件边界和稳定的空间关系,没有出现错位或穿插现象,这说明模型所学习的结构潜空间有效捕捉了各部件之间的连续性与耦合关系,从而使运动前后的几何一致性明显优于现有方法。
在外观纹理生成方面,模型在 FID 得分及可视化表现上均展示了显著优势。生成结果的纹理更加清晰,颜色分布一致,细节保留充分,尤其是在关节运动后才会暴露的内部区域,例如抽屉内部或门板背面,模型依然能够合成自然且无噪点的纹理。
这种稳定且连贯的纹理表现不仅体现在局部细节上,也体现在关节状态变化前后的整体一致性上,即生成的表面在不同关节位置下不会出现颜色跳变或纹理断裂,从而实现了对因运动带来可见性变化的正确补全。
此外,模型生成的运动行为也表现出高度的物理合理性。对于常见的家具对象,模型能够自动为抽屉生成平移关节并沿合理方向运动,为门板生成旋转关节并围绕正确的轴心展开,同时在运动过程中保持部件间无不合理的干涉或扭曲。在多次运动状态的测试中,模型展现出优异的可控性、稳定性和部件分离度,远超依赖部件检索或后期装配的传统方法。
更进一步地,论文还验证了模型在新数据集上的泛化能力。在来自完全不同来源的数据上,无论是几何精度、外观真实度还是运动表现,模型都维持了高质量输出,未出现结构性错误,这说明模型并没有简单记忆训练数据,而是真正学习到了可迁移的“关节结构 + 外观生成”能力。
最后,消融实验也强调了关节感知外观微调策略的重要性。如果不使用该策略,生成结果在关节处和运动后暴露出的内部区域容易出现噪点、模糊或颜色异常。而加入该策略后,纹理清晰度及稳定性显著提升,新暴露区域的外观也更加自然一致,从而证明这一模块是整体性能提升的关键因素。
可动三维的构建机制
总的来说,团队的实验流程可以整体概括为结构学习、潜空间生成以及外观学习三个环节。
首先,研究者为每个训练对象构建了一种带有丰富关节信息的稀疏三维体素表示。在这一表示中,体素不仅记录了物体是否占据该空间位置,还包含部件类别、所属部件的空间包围盒、关节类型、关节的轴向和原点位置以及关节的可运动范围等描述物体结构与运动属性的关键要素。
所有体素数据会被统一归一化后输入到一个三维卷积式的变分自编码器中,通过占据分类损失、部件语义与关节类型的分类损失、关节参数以及包围盒的回归损失,并结合 KL 正则化形成整体训练目标,从而使模型能够将高维而复杂的体素结构压缩成一个紧凑、连续且可生成的三维潜编码。经过充分训练后,该自编码器已经能够准确复原完整的可动结构,并为后续的生成任务提供稳定的结构潜空间。
在获得结构潜编码之后,论文进一步在潜空间中训练扩散模型以生成可动结构。为此,作者构建了大量由潜编码与其对应条件组成的数据对,其中条件既可以是来自真实图像的视觉特征,也可以是简单的类别标签。
扩散模型采用基于 Transformer 的三维结构建模方式,能够捕捉潜网格内部的空间依赖关系,并在此基础上学习结构潜分布。完成训练后,该模型不仅能够无条件生成多样化的可动三维结构,还能够在给定单张图像的情况下,生成与输入在外观、几何结构和关节属性上均保持一致的可动对象。
在结构生成能力具备之后,论文最后解决的是外观生成的问题。由于原始的三维高斯解码器只在静态物体上训练,它无法处理关节运动带来的可见性变化,因此在运动后暴露出的内部区域容易出现纹理缺失或异常。
为此,作者提出了关节感知的外观解码微调策略。具体做法是,在每个训练物体的关节运动范围内均匀采样若干状态,并对每个状态渲染多视角图像,然后提取其特征与体素一一对应,为模型提供“不同关节状态下真实可见外观”的参考。
在微调过程中,生成的三维高斯点会根据对应的关节参数进行实际的旋转或平移,然后被渲染成图像并与真实渲染结果进行比较。通过这种多状态的重建监督,模型逐渐学会了哪些区域在关节运动时会变得可见、如何为这些新暴露的表面生成合理纹理,以及如何在不同关节位置下保持整体外观的一致性。
完成上述三个阶段的训练后,模型的推理流程也相对简洁。给定一张真实图像,模型首先利用扩散模型生成一个与输入相匹配的可动体素结构,然后根据体素语义和空间包围盒自动对物体进行部件划分,接着对每个部件的关节参数进行聚合以确保其运动的一致性。
随后,高斯解码器会将结构潜表示还原为完整的三维外观,最终得到一个既保留真实外观,又具备正确关节行为的三维高斯对象,用户可以直接对其进行旋转或平移等运动操作。整个推理过程大约需要二十几秒即可完成。
统一建模带来了新可能
论文之外,这项工作的最大意义,在于构建了一套真正可扩展的可动三维生成框架,而不仅仅是提出一种新的技术方法。以往的三维生成要么只能输出静态模型,要么依赖完整的三维扫描数据,也有一些方法通过检索和拼装来构造结构,难以实现从少量输入中生成能运动的物体。
现在只需要一张普通图像,就能得到结构合理、关节设置正确、外观逼真的可动三维对象,这大幅降低了创建三维内容的难度,对整个生成领域都是一次重要突破。
方法的核心在于把几何结构、运动机制和外观纹理放在统一框架中进行学习。结构化潜空间同时表达几何、语义与关节信息,扩散模型进一步学习它们之间的关联,外观微调机制保证物体在发生运动后仍然呈现自然、稳定的纹理。通过这种整体式的建模方式,生成结果避免了传统流程中结构和外观不协调的问题,看起来更加一致和可信。
在应用层面,这种能够从单图生成可动三维物体的能力具有很大的价值。虚拟现实和增强现实场景可以快速获得可交互物体,线上家具展示能够更容易地呈现开合、旋转等动作,游戏制作也能受益于自动生成带关节的三维模型。对于机器人学习而言,这类可动生成物体有助于机器人理解和预判未知物体的使用方式,也适用于家庭和工业场景的数字孪生构建。几乎所有需要大量可交互三维对象的行业都可能因此受益。
方法本身也具有很强的泛化能力和扩展空间。结构化潜空间、可动结构扩散模型和关节感知外观解码并不依赖特定的物体品类,因此不仅适用于家具,还可以推广到机械设备、工具、生物体的骨骼结构以及复杂的装配系统。
由此看来,这项研究不仅解决了当前可动三维生成的核心难题,也为未来相关方向的发展奠定了基础。
首批雷峰网 (公众号:雷峰网) GAIR 2025 重磅大咖名单正式揭晓,还有更多行业领军者将齐聚现场,共探智能的未来。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。