英伟达3D模型打造“AI建筑师特工队”,8位华人合著,包括千问实习生
英伟达英伟达(US:NVDA) 36氪·2026-02-03 19:44

英伟达3D-GENERALIST模型技术突破 - 公司宣布其全新3D通用模型3D-GENERALIST的论文将发表于2026国际3D视觉会议,该模型构建了一种建构3D世界的新范式[1] - 模型核心验证了“AI生成的3D合成数据”可规模化替代人工标注数据,能够大幅降低视觉模型预训练的成本[1] - 模型使用统一化框架,将3D环境生成的四大核心要素即布局、材质、光照、资产统一到序贯决策框架中[1] - 研究团队提出了基于CLIP评分的自改进微调策略,让模型在下一轮生成中能自主修正前序错误[1] 技术方案与架构 - 研究核心思路是将一个“设计师”扩展为一个“建筑师团队”,将搭房子工作细化并交给专门模块处理[14] - 具体流程:首先通过全景扩散模型生成360°引导图像作为“户型图”[14] - 随后执行“场景性策略”:利用HorizonNet提取房间基础结构,通过Grounded-SAM分割门窗区域,再由GPT-4o等VLM标注类型与材质,通过程序化生成构建带基础构件的3D房间[16] - 以VLM作为决策“大脑”,输出代码形式的动作指令(如添加资产、调整光照),通过API自动执行以实时更新3D房间[16] - 设计资产级优化策略:借助GPT-4o识别容器类资产,通过网格表面检测定位有效区域,引入Molmo-7B确定小物体放置像素点,再通过3D射线转换和碰撞检测实现物体独立交互[18] 关键支撑技术 - 引入自改进微调机制:模型每轮微调生成多个候选动作序列,通过CLIP评分筛选最优动作,再用其对VLM进行监督微调以提升自我修正能力[20] - 规范场景领域特定语言:定义类别、放置位置、材质、光照等核心描述符,确保VLM输出指令与工具API兼容[23] - 使用上下文库收录能提升CLIP对齐分数的动作代码片段,生成时随机采样以提升动作序列的多样性和有效性[23] 模型性能验证 - 在模拟就绪3D环境生成任务中,3D-GENERALIST的生成质量全面超越LayoutGPT、Holodeck、LayoutVLM等基线方法[24] - 物理合理性方面,无碰撞分数达99.0,边界内分数达98.0[24] - 语义一致性方面,位置连贯性分数为78.2,旋转连贯性分数为79.1,综合物理语义对齐分数达67.9,远高于基线最高值58.8[24] - 经3轮自改进微调后,3D-GENERALIST的CLIP分数达0.275,显著高于无微调版本(0.252)和无上下文库版本(0.237)[27] - 资产级策略生成的场景平均CLIP分数达0.282,高于基线方法的0.269[25] - 自改进微调技术降低了VLM的视觉幻觉率,在Object HalBench和AMBER基准测试中,微调后模型的幻觉相关指标均优于原始GPT-4o[27] 合成数据训练效果 - 使用3D-GENERALIST生成的合成数据预训练视觉模型,当使用86万条标签时,ImageNet-1K Top-1准确率达0.731,超过基于人工构建的HyperSim数据集(0.727)[28] - 当标签量扩展至1217万条时,ImageNet-1K Top-1准确率提升至0.776,接近基于50亿真实数据训练的Florence 2模型效果(0.786)[29] 研究团队背景 - 论文作者有8位华人,第一二作者都是中国留学生[2] - 第一作者Fan-Yun Sun是斯坦福大学AI实验室的计算机科学博士生,深度参与了英伟达研究院工作,并创办了AI游戏公司Moonlake[30][32] - Moonlake已从Threshold Ventures、AIX Ventures和NVentureS筹集了2800万美元(约合人民币1.95亿元)的种子资金[32] - 第二作者Shengguang Wu是斯坦福大学计算机科学系博士生,此前曾在Qwen团队担任研究实习生[34][37] - 清华“姚班”出身的斯坦福大学助理教授吴佳俊也名列作者之中[2][39] 行业应用与战略定位 - 在CES 2026上,公司将世界基础模型平台Cosmos正式定位为Physical AI的“底层代码”与“世界模拟器”[10] - 公司发布了Cosmos Reason 2,让AI不仅能生成世界,还能用自然语言进行链式因果推理[10] - 3D-GENERALIST技术旨在解决当前可交互3D环境创建的痛点,如现有技术仅生成整体3D图像,虚拟物体无法独立交互[13] - 该技术将传统分离的建模、布局、材质、光照等环节整合为统一的决策序列,显著提升了复杂3D场景的构建效率与物理合理性[46] - 技术验证了高质量合成数据规模化替代人工标注的可行性,有望降低下游视觉与机器人模型训练的成本门槛[46]

Nvidia-英伟达3D模型打造“AI建筑师特工队”,8位华人合著,包括千问实习生 - Reportify