文章核心观点 - 阿里达摩院开源了业界首个拥有时空记忆的具身大脑基础模型RynnBrain,旨在解决当前具身智能机器人因缺乏对三维物理世界的深刻理解而导致的执行任务失败问题 [5][7] - RynnBrain通过引入时空记忆、物理空间推理和良好的可拓展性三大关键能力,为机器人提供了理解物理世界连续性与深度的认知基础,在多项基准测试中超越了包括英伟达、谷歌在内的顶尖模型 [7][32] - 达摩院通过开源模型、代码及评测基准,旨在降低行业研发、系统与协作门槛,推动构建具身智能生态,其技术路线倾向于采用“大脑”(认知规划)与“小脑”(动作执行)分层架构 [54][59][64] 技术突破与模型性能 - 模型发布与规模:达摩院开源了RynnBrain具身大脑基础模型全系列,共计7个,参数规模从2B到30B [7] - 核心架构创新:RynnBrain-30B-A3B是首个采用MoE(混合专家)架构的具身基础模型,仅需激活3B参数进行推理,性能却超越了72B规模的Pelican-VL模型,实现了高效率 [10] - 性能领先:在20项具身Benchmark上,RynnBrain全面超越了英伟达的Cosmos-reason2和谷歌的Gemini Robotics ER 1.5等顶尖模型,实现了16个SOTA(State-of-the-Art)[7] - 训练效率:通过自研的RynnScale架构,在同等计算资源下,模型训练速度提升至200%,实现了快速迭代 [14][15] 关键能力与设计特点 - 时空记忆:模型能够在其完整的历史记忆中定位物体、目标区域并预测运动轨迹,赋予机器人“全局时空回溯能力”,这对于长程任务和任务中断后恢复至关重要 [33][34][39][40] - 物理空间推理:采用“文本与空间定位交错”的推理策略,在生成语言判断时同步输出空间指向信息(如区域坐标、边界框),将推理与物理世界约束绑定,大幅降低任务幻觉 [41][42][43] - 灵活的多模态输入输出:输入端可接受任意分辨率的图片、多图和视频;输出端能输出区域、轨迹、点集、夹爪位姿、文本等多种模态,为导航、规划与操作提供统一认知接口 [25][26][28] - 强大的基础数据:训练使用了超过2000万对高质量语料,包括通用多模态数据、开源视频问答数据,并针对性引入了物体与空间认知数据,以及自生成的100万对“自我为中心”的OCR问答数据,以帮助机器人理解现实世界中的文字标签 [18][19][21][23] 可拓展性与应用验证 - 作为强大基座:在RynnBrain基础模型上微调的视觉语言导航模型(RynnBrain-Nav)和操作规划模型(RynnBrain-Plan)展现出卓越性能 [46][47] - 导航任务提升:使用SOTA模型StreamVLN的数据微调后,RynnBrain-Nav的导航成功率比StreamVLN直接提高了2%-3%;若将RynnBrain作为基础模型训练,能使微调出的导航模型能力提升5% [49] - 操作规划领先:仅用几百条数据微调后,RynnBrain-Plan-30B(A3B)在域内和域外的任务上全面超越了Gemini 3 Pro [48] 行业影响与生态建设 - 系统性开源:不仅开源了RynnBrain模型,还配套开放了完整的推理训练代码以及全新的评测基准RynnBrain-Bench,该基准涵盖22项细粒度指标,聚焦视频序列理解与时空定位能力 [59][60] - 降低行业门槛: - 研发门槛:将物理常识打包成公共基础设施,避免重复造轮子 [65][66] - 系统门槛:提供统一的世界表征,使导航、规划与操作模块理解一致,提升系统效率 [67][68] - 协作门槛:通过统一评测基准,使不同团队能在相同参照系下评估模型,驱动良性竞争 [69] - 明确技术路线:倾向于采用“大小脑分层架构”,以RynnBrain为代表的“大脑”负责高层认知与规划,执行层“小脑”专注底层控制,该架构有利于泛化与工程化迭代 [54][55][56] - 生态愿景:公司旨在成为具身生态的建设者,通过提供通用的物理世界认知基础,推动行业百花齐放,而非追求单一模型垄断 [63][72][73]
阿里达摩院开源具身大脑基模:3B激活参数性能超越72B,转身就忘事的机器人有救了