文本到3D生成
搜索文档
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场
机器之心· 2025-12-22 16:17
研究突破与核心模型 - 强化学习在文本到3D生成领域取得首次系统性突破,提出了首个强化学习增强的文本到3D自回归模型AR3D-R1 [2] - 该研究系统性地探索了奖励设计、强化学习算法和评估基准,并提出了层次化强化学习范式Hi-GRPO [2] - 实验表明,AR3D-R1在Kernel Distance和CLIP Score上均取得显著提升,分别达到0.156和29.3的优异成绩 [3][30] 技术框架与创新 - AR3D-R1构建了一个推理驱动的3D生成流程,模型先根据文本提示进行高层语义推理,规划物体结构,再指导具体的3D生成过程 [11][13] - 提出了Hi-GRPO层次化强化学习范式,通过分离全局结构推理与局部纹理精修来优化3D生成,其核心是在单次迭代中联合优化层次化生成 [21][24][25] - 该范式包含全局规划阶段和局部精修阶段,并为两个阶段分别集成了专用的奖励模型 [27] 奖励设计与算法研究 - 在奖励设计方面,研究发现与人类审美偏好对齐的奖励信号能显著提升生成质量 [17] - 通用多模态模型在评估3D相关属性时表现出强大的鲁棒性,有时甚至优于专门的3D评估模型 [17] - 在强化学习算法研究中发现,相比响应级优化,token级别的损失平均能更好地捕捉生成过程中的全局结构差异 [22] - 对于文本到3D生成任务,动态采样策略足以稳定训练,无需复杂的训练稳定技术 [22] - 数据规模和迭代次数的扩展均能有效提升性能,但需要精细校准以避免过拟合或模式崩塌 [22] 评估基准与性能表现 - 研究引入了全新的推理型3D基准MME-3DR,用于评估3D生成模型的隐式推理能力,覆盖空间与结构几何、机械可供性、生物与有机形状、依赖世界知识的罕见物体、风格化表达五大高难类别 [2][26][28] - 定量实验表明,AR3D-R1在MME-3DR基准上的CLIP Score达到28.5,Kernel Distance (Inception) 为0.194,在Toys4K数据集上的CLIP Score达到29.3,Kernel Distance (Inception) 为0.156,均显著优于对比模型 [31] - 在MME-3DR这一苛刻场景下,传统文本到3D模型普遍出现崩塌,而经过强化学习训练的AR3D-R1在五大类别上均有明显提升 [26] 应用前景与行业影响 - 该技术的成功为构建更智能、更具推理能力的3D生成模型开辟了新方向 [32] - 未来能力可自然延伸至具身智能与机器人、游戏与内容创作、AR/VR与数字孪生等领域 [32]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-20 12:20
文章核心观点 - 一项由多所高校及实验室合作的研究,系统性地探讨了强化学习在文本到3D生成领域的应用可行性,并提出了层次化强化学习范式Hi-GRPO,构建了首个针对3D推理场景的评测基准MME-3DR,研究显示强化学习能有效提升3D自回归模型的生成质量与隐式推理能力[2][3][14] 奖励设计层 - 研究团队系统对比了人类偏好、文本对齐、多视图一致性、3D美学等多种奖励组合,发现对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加到偏好奖励上能持续带来增益[7] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性,但通用多模态模型在3D相关属性上出乎意料地鲁棒,为低成本奖励提供了可能[7] 算法适配层 - 在3D自回归生成中,强化学习更偏好token级策略而非序列级操作,在相同奖励模型配置下,token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法[8] - 简单的技巧即可稳定训练,尤其是动态采样,只要策略更新受控,完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益[9] - 扩大量级的训练数据能有效缓解偏好奖励带来的偏差并提升整体表现,适度增加强化学习迭代能进一步优化模型,但过度训练可能损害泛化能力[9] 评测基准层 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,该基准由空间与结构几何、机械可供性与物理合理性、生物或有机形态、长尾稀有实体和风格化或抽象形态五类组成[10] - 近期的文本到3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足,而强化学习训练在所有五类任务上都带来了显著提升[11] - MME-3DR能同时评估隐式推理与通用3D生成能力,在随机采样的Toys4K测试集上,Trellis模型明显优于ShapeLLM-Omni,这一性能差距在MME-3DR中依然保持,验证了其多样化物体覆盖带来的评测有效性[11] 层次化强化学习范式 - 研究将3D生成视为从粗到细的自然过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构,并针对两个步骤单独设计专有奖励模型进行监督[14] - 基于此,研究提出了层次化强化学习范式Hi-GRPO,并实现了首个强化学习加持的文本到3D自回归模型AR3D-R1[14] 关键发现与模型能力 - 强化学习正在帮助3D生成模型学会思考,不仅仅是调整美观度,在MME-3DR基准上,经过强化学习训练的模型在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式3D推理能力的增强[15] - 范式对齐结构先验很重要,尊重先几何、后纹理的层次结构设计,比简单在最终图像上打分更有效,也更可解释[16] - 性能与稳定性存在二元博弈,奖励过于稀疏或强化学习迭代数过大会导致训练不稳定和模式坍缩,而高质量人类偏好或强多模态奖励可以在同等训练预算下取得更高回报[17] - 结果也清晰显示了当前模型的能力边界,对于极复杂几何、长尾概念和强风格化场景,模型仍会出现逻辑崩坏,真正可扩展的3D强化学习仍受限于算力与奖励获取成本[18]