想让机器人春晚包饺子？阿里达摩院：别急，先把「大脑」优化一下

文章核心观点 - 阿里达摩院发布了名为RynnBrain的具身智能基础模型系列，旨在解决当前通用大模型在物理世界中“纸上谈兵”的局限，通过引入时空记忆和物理空间推理等核心能力，使机器人能够更好地理解和应对复杂、动态的真实环境 [2][10][11] - RynnBrain在多项具身智能基准测试中实现了领先的性能，其独特的混合专家（MoE）架构版本在仅激活少量参数的情况下超越了更大规模的模型，并已全面开源，旨在为行业构建统一的基础设施 [2][4][24][30][36] 行业背景与挑战 - 机器人要执行如包饺子等复杂任务，面临处理柔性物体、任务中断、工具缺失等挑战，这需要超越传统移动和导航的、更聪明的“大脑” [2] - 当前基于2D世界数据训练的通用大模型（如VLM）在进入物理世界时存在根本性局限：缺乏连续的三维空间感、不懂真实的物理交互逻辑，容易产生脱离物理约束的“幻觉式”规划，导致任务失败 [10] - 行业对机器人“大脑”的研发存在两种主流思路：一种是从动作出发的VLA模型，面临高质量数据稀缺和泛化能力受限的问题；另一种是利用大模型的泛化能力先理解世界，但难以将理解准确对齐到连续物理空间 [36] RynnBrain的技术创新与架构 - 核心能力构建：模型系统性地引入了时空记忆和物理空间推理能力，旨在将模型的认知“拽回”物理世界 [11][16][23] - 时空记忆：通过构建涵盖空间、位置、事件、轨迹等多维度信息的“统一表征”，使机器人能够基于完整的三维世界模型进行全局考量，而非受限于瞬时视野，从而解决目标物体在视野外的定位等痛点 [16][19][20] - 物理空间推理：采用“文本与空间定位交错”的推理策略，强制模型在生成语言指令时同步预测对应的空间坐标，将抽象逻辑与具象环境强力锁定，以消除“语义与空间解耦”导致的物理幻觉 [23] - 技术演进：RynnBrain建立在前期研究RynnEC（赋予模型细粒度的物理世界感知与理解能力，如物体属性、空间尺度判断）的基础之上，并进行了能力扩展 [13][15] 模型性能与评估 - 基准测试表现：在达摩院推出的涵盖20项任务的RynnBrain Bench及其他基准测试中，RynnBrain展现了全面能力 [25] - 其8B版本在具身认知与定位任务上全面领先于Gemini Robotics ER 1.5、Pelican-VL-72B等业内先进模型，并在许多细分能力上实现了30%以上的性能飞跃 [27] - 在总计16项具身的Benchmark上实现了SOTA（State-of-the-Art）[2][28] - 泛化能力：模型在取得具身任务SOTA的同时，继承了基座模型（Qwen3-VL）的通用视觉能力（如文档理解、图表识别），未出现明显的泛化性损失 [29] - 高效架构：开源的RynnBrain-30B-A3B是业界首个MoE具身基础模型，仅需3B的推理激活参数，就在各项指标上全面超越了当前规模最大的具身基础模型Pelican-VL-72B [4][30] - 下游任务潜力：作为基座模型，其预训练成果对下游任务有显著加持 [31] - 在导航任务中，以其为基座微调的模型（RynnBrain-Nav）比使用Qwen3-VL基座的模型能力提升5%，导航成功率比当前SOTA模型StreamVLN高出2%-3% [31] - 在操作规划方面，仅需几百条样本微调，其规划模型（RynnBrain-Plan）就在域内和域外任务上全面超越了Gemini 3 Pro，展现了极高的数据效率 [32] - 完整能力闭环：RynnBrain成为首个支持移动操作的具身基础模型，补全了从“理解”到“行动”的关键环节 [34] 公司战略与行业影响 - 基础先行战略：公司未在两种主流技术路线中急于选边，而是选择先系统性地补齐对物理世界的感知、理解、记忆、推理和规划等基础能力，为行业“打地基” [36] - 开源与生态建设：公司已将RynnBrain全系列7个模型（包括模型权重、评测基准及完整代码）向社区开放，旨在推动社区在统一底座上探索，避免重复造轮子 [4][6][36] - 平台化愿景：公司正在思考构建更统一的具身智能基础设施平台，以应对当前硬件和算法生态的碎片化问题，推动整个开源社区共同进化 [37] - 多路线并行：除RynnBrain代表的“大脑”路线外，公司也在并行推进以视觉为主导的VLA路线（如RynnVLA），并通过系统级技术（如RCP）连接模型、数据和真实机器人，形成完整的技术链路 [37]