文章核心观点 - 阿里巴巴达摩院发布并开源了具身智能大脑基础模型RynnBrain,该模型通过引入时空记忆和物理世界推理能力,显著提升了机器人的智能水平,在16项具身开源评测中刷新纪录,超越了谷歌、英伟达等公司的顶尖模型,有望成为具身智能行业的基础模型 [1][2][4][6][7] 技术突破与核心能力 - RynnBrain模型创造性地引入了时空记忆和物理世界推理两项基本能力,解决了现有模型泛化能力差、缺乏记忆、存在物理幻觉等问题 [1][2] - 时空记忆能力让机器人能在完整历史记忆中定位物体、目标区域并预测运动轨迹,具备全局时空回溯能力,例如任务被中断后能记住原任务状态并恢复 [2] - 物理空间推理采用文本与空间定位交错的策略,使推理过程紧密扎根于物理环境,大大减弱了幻觉问题 [2] 模型性能与评测结果 - RynnBrain在16项具身开源评测榜单上刷新纪录(SOTA),超越了谷歌Gemini Robotics ER 1.5、英伟达Cosmos Reason 2等行业顶尖模型 [1][4][6] - RynnBrain在多个评测基准上表现领先,例如:在VSI-Bench上其30B模型得分为74.5,高于对比模型Qwen3VL 30B的65.8;在EgoTaskQA上其30B模型得分为78.9,显著高于Qwen3VL 30B的64.2* [5] - 其30B MoE模型仅需激活3B参数,推理效果即超越业界的72B模型,能使机器人动作更快、更丝滑 [7] 模型架构与训练 - RynnBrain基于Qwen3-VL训练,使用自研的RynnScale架构进行优化,同等资源下训练速度加速两倍,训练数据超过2000万对 [4] - 模型具备良好的可拓展性,能够快速通过后训练产出导航、规划、动作等多种具身模型 [7] - 以具身规划模型为例,基于RynnBrain仅需几百条数据微调,效果即能超越Gemini 3 Pro,达到SOTA水平 [7] 开源内容与行业贡献 - 公司一次性开源了包括30B MoE在内的7个全系列RynnBrain模型,包含全尺寸基础模型与后训练专有模型,并开源了完整的推理与训练代码 [1][7] - 同时开源了全新的评测基准RynnBrain-Bench,用于评测时空细粒度具身任务,填补了行业空白 [7] - 此次开源是公司构建可部署、可扩展、可进化具身智能系统的一部分,公司此前已开源WorldVLA、RynnEC等模型及机器人上下文协议RynnRCP [9] 行业背景与意义 - 具身模型的智能水平,尤其是泛化能力,是行业发展的重要瓶颈 [1] - 当前业界主要探索动作模型(VLA)和大脑模型(VLM)两条技术路线,前者受限于数据稀缺难以泛化,后者普遍缺乏记忆、动态认知受限且存在物理幻觉 [1] - RynnBrain首次实现了大脑对物理世界的深度理解与可靠规划,为通用具身智能迈出关键一步,有望加速AI从数字世界走向真实物理场景的落地进程 [9]
达摩院开源具身大脑基模RynnBrain,登顶16项榜单,超越Gemini
金融界·2026-02-10 10:56