MME - 3DR
搜索文档
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-19 15:20
强化学习在文本到3D生成领域的应用探索 - 核心观点:一项由多所高校及实验室合作的研究,系统性探索了强化学习在文本到3D生成中的应用,发现RL能够提升3D模型的推理与生成质量,并提出了层次化RL范式和首个相关评测基准[1][2][3] 研究背景与挑战 - 在LLM推理和2D文生图领域,强化学习已被证明能显著提升思维链推理能力和生成质量[3] - 3D物体具有更长、更稠密、更具几何约束的特性,为RL的应用带来挑战[3] - 研究方向面临奖励设计、算法适配及缺乏专门评测基准等问题[4][6] 奖励设计层的关键发现 - 对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加后可带来持续增益[7] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性[7] - 通用多模态模型在3D相关属性上出乎意料地鲁棒,为“低成本奖励”提供了可能[7] RL算法与训练策略 - 在3D自回归生成中,强化学习更偏好token级策略,其带来的提升显著大于序列级的重要性采样与剪切方法[8] - 简单的技巧即可稳定训练,例如动态采样,只要策略更新受控[9] - 完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益[9] - 扩大量级的训练数据能有效缓解偏好奖励带来的偏差并提升整体表现[9] - 适度增加RL迭代能进一步优化模型,但过度训练可能损害泛化能力[9] 评测基准MME-3DR的构建与发现 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,涵盖空间结构几何、机械可供性与物理合理性、生物有机形态、长尾稀有实体和风格化抽象形态五类[10] - 该基准更关注“在困难约束下是否还能保持一致、合理、可解释”,而非只展示多样性[11] - 近期Text-to-3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足[11] - RL训练在所有五类任务上都带来了显著提升[11] - MME-3DR能同时评估隐式推理与通用3D生成能力,验证了其多样化物体覆盖带来的评测有效性[11] 层次化RL范式与模型实现 - 将3D生成视为从粗到细的过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构[14] - 针对两个步骤单独设计专有奖励模型进行监督,并基于此提出了层次化RL范式Hi-GRPO[14] - 实现了首个RL加持的Text-to-3D自回归模型AR3D-R1[14] 关键发现与行业洞察 - RL正在帮助3D生成模型“学会思考”,不仅仅是调整美观度,在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式3D推理能力的增强[15] - 范式对齐结构先验很重要,尊重“先几何、后纹理”的层次结构设计,比简单在最终图像上打分更有效且更可解释[16] - 存在性能与稳定性的二元博弈:奖励过于稀疏或RL迭代数过大会导致训练不稳和模式坍缩;高质量人类偏好或强多模态奖励可在同等训练预算下取得更高回报[17] - 结果清晰显示了当前模型的能力边界:对极复杂几何、长尾概念和强风格化场景,模型仍会“逻辑崩坏”;真正可扩展的3D RL仍受限于算力与奖励获取成本[18]