想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下
机器之心·2026-02-10 11:46

文章核心观点 - 阿里达摩院发布了名为RynnBrain的具身智能基础模型系列,旨在解决当前通用大模型在物理世界中“纸上谈兵”的局限,通过引入时空记忆和物理空间推理等核心能力,使机器人能够更好地理解和应对复杂、动态的真实环境 [2][10][11] - RynnBrain在多项具身智能基准测试中实现了领先的性能,其独特的混合专家(MoE)架构版本在仅激活少量参数的情况下超越了更大规模的模型,并已全面开源,旨在为行业构建统一的基础设施 [2][4][24][30][36] 行业背景与挑战 - 机器人要执行如包饺子等复杂任务,面临处理柔性物体、任务中断、工具缺失等挑战,这需要超越传统移动和导航的、更聪明的“大脑” [2] - 当前基于2D世界数据训练的通用大模型(如VLM)在进入物理世界时存在根本性局限:缺乏连续的三维空间感、不懂真实的物理交互逻辑,容易产生脱离物理约束的“幻觉式”规划,导致任务失败 [10] - 行业对机器人“大脑”的研发存在两种主流思路:一种是从动作出发的VLA模型,面临高质量数据稀缺和泛化能力受限的问题;另一种是利用大模型的泛化能力先理解世界,但难以将理解准确对齐到连续物理空间 [36] RynnBrain的技术创新与架构 - 核心能力构建:模型系统性地引入了时空记忆物理空间推理能力,旨在将模型的认知“拽回”物理世界 [11][16][23] - 时空记忆:通过构建涵盖空间、位置、事件、轨迹等多维度信息的“统一表征”,使机器人能够基于完整的三维世界模型进行全局考量,而非受限于瞬时视野,从而解决目标物体在视野外的定位等痛点 [16][19][20] - 物理空间推理:采用“文本与空间定位交错”的推理策略,强制模型在生成语言指令时同步预测对应的空间坐标,将抽象逻辑与具象环境强力锁定,以消除“语义与空间解耦”导致的物理幻觉 [23] - 技术演进:RynnBrain建立在前期研究RynnEC(赋予模型细粒度的物理世界感知与理解能力,如物体属性、空间尺度判断)的基础之上,并进行了能力扩展 [13][15] 模型性能与评估 - 基准测试表现:在达摩院推出的涵盖20项任务的RynnBrain Bench及其他基准测试中,RynnBrain展现了全面能力 [25] - 其8B版本在具身认知与定位任务上全面领先于Gemini Robotics ER 1.5、Pelican-VL-72B等业内先进模型,并在许多细分能力上实现了30%以上的性能飞跃 [27] - 在总计16项具身的Benchmark上实现了SOTA(State-of-the-Art)[2][28] - 泛化能力:模型在取得具身任务SOTA的同时,继承了基座模型(Qwen3-VL)的通用视觉能力(如文档理解、图表识别),未出现明显的泛化性损失 [29] - 高效架构:开源的RynnBrain-30B-A3B是业界首个MoE具身基础模型,仅需3B的推理激活参数,就在各项指标上全面超越了当前规模最大的具身基础模型Pelican-VL-72B [4][30] - 下游任务潜力:作为基座模型,其预训练成果对下游任务有显著加持 [31] - 在导航任务中,以其为基座微调的模型(RynnBrain-Nav)比使用Qwen3-VL基座的模型能力提升5%,导航成功率比当前SOTA模型StreamVLN高出2%-3% [31] - 在操作规划方面,仅需几百条样本微调,其规划模型(RynnBrain-Plan)就在域内和域外任务上全面超越了Gemini 3 Pro,展现了极高的数据效率 [32] - 完整能力闭环:RynnBrain成为首个支持移动操作的具身基础模型,补全了从“理解”到“行动”的关键环节 [34] 公司战略与行业影响 - 基础先行战略:公司未在两种主流技术路线中急于选边,而是选择先系统性地补齐对物理世界的感知、理解、记忆、推理和规划等基础能力,为行业“打地基” [36] - 开源与生态建设:公司已将RynnBrain全系列7个模型(包括模型权重、评测基准及完整代码)向社区开放,旨在推动社区在统一底座上探索,避免重复造轮子 [4][6][36] - 平台化愿景:公司正在思考构建更统一的具身智能基础设施平台,以应对当前硬件和算法生态的碎片化问题,推动整个开源社区共同进化 [37] - 多路线并行:除RynnBrain代表的“大脑”路线外,公司也在并行推进以视觉为主导的VLA路线(如RynnVLA),并通过系统级技术(如RCP)连接模型、数据和真实机器人,形成完整的技术链路 [37]

想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下 - Reportify