Cosmos Reason 2
搜索文档
英伟达3D模型打造“AI建筑师特工队”,8位华人合著,包括千问实习生
36氪· 2026-02-03 19:44
英伟达3D-GENERALIST模型技术突破 - 公司宣布其全新3D通用模型3D-GENERALIST的论文将发表于2026国际3D视觉会议,该模型构建了一种建构3D世界的新范式[1] - 模型核心验证了“AI生成的3D合成数据”可规模化替代人工标注数据,能够大幅降低视觉模型预训练的成本[1] - 模型使用统一化框架,将3D环境生成的四大核心要素即布局、材质、光照、资产统一到序贯决策框架中[1] - 研究团队提出了基于CLIP评分的自改进微调策略,让模型在下一轮生成中能自主修正前序错误[1] 技术方案与架构 - 研究核心思路是将一个“设计师”扩展为一个“建筑师团队”,将搭房子工作细化并交给专门模块处理[14] - 具体流程:首先通过全景扩散模型生成360°引导图像作为“户型图”[14] - 随后执行“场景性策略”:利用HorizonNet提取房间基础结构,通过Grounded-SAM分割门窗区域,再由GPT-4o等VLM标注类型与材质,通过程序化生成构建带基础构件的3D房间[16] - 以VLM作为决策“大脑”,输出代码形式的动作指令(如添加资产、调整光照),通过API自动执行以实时更新3D房间[16] - 设计资产级优化策略:借助GPT-4o识别容器类资产,通过网格表面检测定位有效区域,引入Molmo-7B确定小物体放置像素点,再通过3D射线转换和碰撞检测实现物体独立交互[18] 关键支撑技术 - 引入自改进微调机制:模型每轮微调生成多个候选动作序列,通过CLIP评分筛选最优动作,再用其对VLM进行监督微调以提升自我修正能力[20] - 规范场景领域特定语言:定义类别、放置位置、材质、光照等核心描述符,确保VLM输出指令与工具API兼容[23] - 使用上下文库收录能提升CLIP对齐分数的动作代码片段,生成时随机采样以提升动作序列的多样性和有效性[23] 模型性能验证 - 在模拟就绪3D环境生成任务中,3D-GENERALIST的生成质量全面超越LayoutGPT、Holodeck、LayoutVLM等基线方法[24] - 物理合理性方面,无碰撞分数达99.0,边界内分数达98.0[24] - 语义一致性方面,位置连贯性分数为78.2,旋转连贯性分数为79.1,综合物理语义对齐分数达67.9,远高于基线最高值58.8[24] - 经3轮自改进微调后,3D-GENERALIST的CLIP分数达0.275,显著高于无微调版本(0.252)和无上下文库版本(0.237)[27] - 资产级策略生成的场景平均CLIP分数达0.282,高于基线方法的0.269[25] - 自改进微调技术降低了VLM的视觉幻觉率,在Object HalBench和AMBER基准测试中,微调后模型的幻觉相关指标均优于原始GPT-4o[27] 合成数据训练效果 - 使用3D-GENERALIST生成的合成数据预训练视觉模型,当使用86万条标签时,ImageNet-1K Top-1准确率达0.731,超过基于人工构建的HyperSim数据集(0.727)[28] - 当标签量扩展至1217万条时,ImageNet-1K Top-1准确率提升至0.776,接近基于50亿真实数据训练的Florence 2模型效果(0.786)[29] 研究团队背景 - 论文作者有8位华人,第一二作者都是中国留学生[2] - 第一作者Fan-Yun Sun是斯坦福大学AI实验室的计算机科学博士生,深度参与了英伟达研究院工作,并创办了AI游戏公司Moonlake[30][32] - Moonlake已从Threshold Ventures、AIX Ventures和NVentureS筹集了2800万美元(约合人民币1.95亿元)的种子资金[32] - 第二作者Shengguang Wu是斯坦福大学计算机科学系博士生,此前曾在Qwen团队担任研究实习生[34][37] - 清华“姚班”出身的斯坦福大学助理教授吴佳俊也名列作者之中[2][39] 行业应用与战略定位 - 在CES 2026上,公司将世界基础模型平台Cosmos正式定位为Physical AI的“底层代码”与“世界模拟器”[10] - 公司发布了Cosmos Reason 2,让AI不仅能生成世界,还能用自然语言进行链式因果推理[10] - 3D-GENERALIST技术旨在解决当前可交互3D环境创建的痛点,如现有技术仅生成整体3D图像,虚拟物体无法独立交互[13] - 该技术将传统分离的建模、布局、材质、光照等环节整合为统一的决策序列,显著提升了复杂3D场景的构建效率与物理合理性[46] - 技术验证了高质量合成数据规模化替代人工标注的可行性,有望降低下游视觉与机器人模型训练的成本门槛[46]
英伟达想做“物理AI”的“安卓”
华尔街见闻· 2026-01-06 12:01
公司战略与行业趋势 - 英伟达正致力于打造机器人领域的默认平台,旨在复制安卓在智能手机操作系统的主导地位 [1] - 公司布局反映了人工智能从云端向物理世界迁移的行业趋势 [1] - 随着传感器成本下降、仿真技术进步和AI模型泛化能力提升,机器人正从执行单一任务向通用化方向演进 [1] 产品与平台发布 - 公司在CES 2026上发布了多款开源基础模型,使机器人能够在多种任务和环境中进行推理、规划和适应,所有模型均在Hugging Face平台上开放 [1] - 公司推出了新一代Blackwell架构的Jetson T4000显卡,以及名为OSMO的开源指挥中心,以支撑整个机器人开发工作流程 [1] - 公司推出了Isaac Lab-Arena开源仿真框架,整合了资源、任务场景、训练工具以及Libero、RoboCasa和RoboTwin等既有基准测试,为行业建立通用框架 [3] - 配套的开源平台OSMO作为指挥中心,将从数据生成到训练的整个工作流程整合在一起,支持桌面和云端环境 [3] 模型矩阵构建 - 公司发布的基础模型构成了物理AI的核心能力层 [2] - Cosmos Transfer 2.5和Cosmos Predict 2.5两款世界模型负责合成数据生成和机器人策略评估,可在仿真环境中验证机器人行为 [3] - Cosmos Reason 2作为推理型视觉语言模型,赋予AI系统在物理世界中观察、理解和行动的能力 [3] - Isaac GR00T N1.6是专门针对人形机器人开发的视觉语言动作模型,以Cosmos Reason作为推理核心,实现全身控制功能,使人形机器人能够同时完成移动和物体操作 [3] 降低开发门槛 - 公司深化了与Hugging Face的合作,旨在降低机器人训练的硬件门槛和技术壁垒 [1] - Jetson T4000图形卡搭载Blackwell架构,作为成本效益型设备端算力升级方案,提供1200万亿次浮点AI算力和64GB内存,功耗控制在40至70瓦之间 [4] - 公司将Isaac和GR00T技术集成到Hugging Face的LeRobot框架中,连接英伟达200万机器人开发者与Hugging Face 1300万AI构建者 [5] - 开源人形机器人Reachy 2现已直接支持英伟达Jetson Thor芯片,开发者可以测试不同AI模型而无需被锁定在专有系统中 [5] 市场影响与采用情况 - 机器人类别已成为Hugging Face平台上增长最快的领域 [1] - 波士顿动力、卡特彼勒、Franka Robots和NEURA Robotics等企业已在使用英伟达技术 [1][5] - 英伟达的模型在Hugging Face平台的下载量上处于领先地位 [5]
黄仁勋最新演讲,涉及下一代芯片和自动驾驶
Wind万得· 2026-01-06 08:20
机器人技术 - 公司宣布机器人领域迎来“ChatGPT时刻”,并发布一系列开源“物理AI”模型 [2] - 展示了两款BDX机器人,并演示了“GR00T”模型如何学习成为机器人 [4] - 推出Nvidia Cosmos Transfer 2.5和Cosmos Predict 2.5两款完全可定制的开源“世界模型”,用于生成合成数据和模拟场景以安全评估机器人性能 [4] - 推出Cosmos Reason 2视觉语言模型,赋予机器利用先验知识和物理常识进行视觉推理与决策的能力 [4] - 针对人形机器人领域,发布Nvidia Isaac GR00T N1.6视觉语言动作模型,利用Cosmos的推理能力实现对机器人的全身精准控制 [4] 新一代AI芯片 - 新一代AI芯片已“全面量产”,算力较上一代提升5倍,专为聊天机器人等AI应用设计,预计年内上市 [6] - 性能飞跃的关键在于采用公司自研的专有数据格式,晶体管数量只增60%即实现巨大性能跃升 [8] - 新芯片加入“上下文内存存储”层,可在千万级并发长对话中让聊天机器人响应更快 [8] - 推出新一代网络交换机,首次采用共封装光学技术,用于连接数千台设备,对标博通与思科产品 [8] - 公司在CES前与专注推理的Groq达成授权协议,加码AI推理赛道 [8] AI数据中心平台Vera Rubin - 首次详解AI数据中心新平台Vera Rubin,该系统现已投产,首批产品将于2026年下半年上市 [10] - 不仅开源模型,还将训练数据一并公开,以增加透明度与信任 [10] - 演示了从“聊天机器人”到“AI智能体”的跨越,通过大模型而非传统编程实现智能助手功能 [10] - 首批用户囊括主流云服务商(微软、AWS、谷歌云、CoreWeave)、计算厂商(戴尔、思科)及AI实验室(OpenAI、Anthropic、Meta、xAI) [10] 自动驾驶 - 发布面向自动驾驶的决策软件Alpamayo,能记录完整决策过程供工程师追溯,并同步开源训练数据 [12] - 计划最早于2027年与合作伙伴启动L4级无人出租车试运营 [14] - 汽车与机器人芯片季度销售额为5.92亿美元,约占总收入1% [14] - 已与Uber宣布合作开发robotaxi [14] - 确认2026年底上市的奔驰新车型将率先在旧金山等城市使用其自动驾驶系统导航 [15] - 自动驾驶被视为继AI之后的第二大增长引擎,CEO预测未来十亿辆车都将自动驾驶 [15] - 向车企出租AI算力与仿真软件用于训练,其Drive AGX Thor车载电脑单价约3500美元 [15] - 搭载其系统的奔驰车将持续升级自动驾驶能力,初期定义为“L2++”,功能接近特斯拉FSD,安全责任仍在驾驶员 [15] - 采用双AI架构保障安全:主系统为端到端视觉-语言模型,另一套安全栈用严格规则在AI犹豫时接管 [16] - 目标2028年在消费级车型实现点对点自动驾驶,并最终让车辆能与乘客自然对话 [16]