Workflow
RynnEC
icon
搜索文档
想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下
机器之心· 2026-02-10 11:46
文章核心观点 - 阿里达摩院发布了名为RynnBrain的具身智能基础模型系列,旨在解决当前通用大模型在物理世界中“纸上谈兵”的局限,通过引入时空记忆和物理空间推理等核心能力,使机器人能够更好地理解和应对复杂、动态的真实环境 [2][10][11] - RynnBrain在多项具身智能基准测试中实现了领先的性能,其独特的混合专家(MoE)架构版本在仅激活少量参数的情况下超越了更大规模的模型,并已全面开源,旨在为行业构建统一的基础设施 [2][4][24][30][36] 行业背景与挑战 - 机器人要执行如包饺子等复杂任务,面临处理柔性物体、任务中断、工具缺失等挑战,这需要超越传统移动和导航的、更聪明的“大脑” [2] - 当前基于2D世界数据训练的通用大模型(如VLM)在进入物理世界时存在根本性局限:缺乏连续的三维空间感、不懂真实的物理交互逻辑,容易产生脱离物理约束的“幻觉式”规划,导致任务失败 [10] - 行业对机器人“大脑”的研发存在两种主流思路:一种是从动作出发的VLA模型,面临高质量数据稀缺和泛化能力受限的问题;另一种是利用大模型的泛化能力先理解世界,但难以将理解准确对齐到连续物理空间 [36] RynnBrain的技术创新与架构 - **核心能力构建**:模型系统性地引入了**时空记忆**和**物理空间推理**能力,旨在将模型的认知“拽回”物理世界 [11][16][23] - **时空记忆**:通过构建涵盖空间、位置、事件、轨迹等多维度信息的“统一表征”,使机器人能够基于完整的三维世界模型进行全局考量,而非受限于瞬时视野,从而解决目标物体在视野外的定位等痛点 [16][19][20] - **物理空间推理**:采用“文本与空间定位交错”的推理策略,强制模型在生成语言指令时同步预测对应的空间坐标,将抽象逻辑与具象环境强力锁定,以消除“语义与空间解耦”导致的物理幻觉 [23] - **技术演进**:RynnBrain建立在前期研究RynnEC(赋予模型细粒度的物理世界感知与理解能力,如物体属性、空间尺度判断)的基础之上,并进行了能力扩展 [13][15] 模型性能与评估 - **基准测试表现**:在达摩院推出的涵盖20项任务的RynnBrain Bench及其他基准测试中,RynnBrain展现了全面能力 [25] - 其**8B版本**在具身认知与定位任务上全面领先于Gemini Robotics ER 1.5、Pelican-VL-72B等业内先进模型,并在许多细分能力上实现了**30%以上的性能飞跃** [27] - 在总计**16项具身的Benchmark上实现了SOTA**(State-of-the-Art)[2][28] - **泛化能力**:模型在取得具身任务SOTA的同时,继承了基座模型(Qwen3-VL)的通用视觉能力(如文档理解、图表识别),未出现明显的泛化性损失 [29] - **高效架构**:开源的**RynnBrain-30B-A3B**是业界首个MoE具身基础模型,仅需**3B的推理激活参数**,就在各项指标上全面超越了当前规模最大的具身基础模型**Pelican-VL-72B** [4][30] - **下游任务潜力**:作为基座模型,其预训练成果对下游任务有显著加持 [31] - 在导航任务中,以其为基座微调的模型(RynnBrain-Nav)比使用Qwen3-VL基座的模型能力提升**5%**,导航成功率比当前SOTA模型StreamVLN高出**2%-3%** [31] - 在操作规划方面,仅需**几百条样本微调**,其规划模型(RynnBrain-Plan)就在域内和域外任务上全面超越了Gemini 3 Pro,展现了极高的数据效率 [32] - **完整能力闭环**:RynnBrain成为**首个支持移动操作的具身基础模型**,补全了从“理解”到“行动”的关键环节 [34] 公司战略与行业影响 - **基础先行战略**:公司未在两种主流技术路线中急于选边,而是选择先系统性地补齐对物理世界的感知、理解、记忆、推理和规划等基础能力,为行业“打地基” [36] - **开源与生态建设**:公司已将RynnBrain全系列**7个模型**(包括模型权重、评测基准及完整代码)向社区开放,旨在推动社区在统一底座上探索,避免重复造轮子 [4][6][36] - **平台化愿景**:公司正在思考构建更统一的具身智能基础设施平台,以应对当前硬件和算法生态的碎片化问题,推动整个开源社区共同进化 [37] - **多路线并行**:除RynnBrain代表的“大脑”路线外,公司也在并行推进以视觉为主导的VLA路线(如RynnVLA),并通过系统级技术(如RCP)连接模型、数据和真实机器人,形成完整的技术链路 [37]
达摩院开源具身大脑基模RynnBrain,登顶16项榜单,超越Gemini
金融界· 2026-02-10 10:56
文章核心观点 - 阿里巴巴达摩院发布并开源了具身智能大脑基础模型RynnBrain,该模型通过引入时空记忆和物理世界推理能力,显著提升了机器人的智能水平,在16项具身开源评测中刷新纪录,超越了谷歌、英伟达等公司的顶尖模型,有望成为具身智能行业的基础模型 [1][2][4][6][7] 技术突破与核心能力 - RynnBrain模型创造性地引入了时空记忆和物理世界推理两项基本能力,解决了现有模型泛化能力差、缺乏记忆、存在物理幻觉等问题 [1][2] - 时空记忆能力让机器人能在完整历史记忆中定位物体、目标区域并预测运动轨迹,具备全局时空回溯能力,例如任务被中断后能记住原任务状态并恢复 [2] - 物理空间推理采用文本与空间定位交错的策略,使推理过程紧密扎根于物理环境,大大减弱了幻觉问题 [2] 模型性能与评测结果 - RynnBrain在16项具身开源评测榜单上刷新纪录(SOTA),超越了谷歌Gemini Robotics ER 1.5、英伟达Cosmos Reason 2等行业顶尖模型 [1][4][6] - RynnBrain在多个评测基准上表现领先,例如:在VSI-Bench上其30B模型得分为74.5,高于对比模型Qwen3VL 30B的65.8;在EgoTaskQA上其30B模型得分为78.9,显著高于Qwen3VL 30B的64.2* [5] - 其30B MoE模型仅需激活3B参数,推理效果即超越业界的72B模型,能使机器人动作更快、更丝滑 [7] 模型架构与训练 - RynnBrain基于Qwen3-VL训练,使用自研的RynnScale架构进行优化,同等资源下训练速度加速两倍,训练数据超过2000万对 [4] - 模型具备良好的可拓展性,能够快速通过后训练产出导航、规划、动作等多种具身模型 [7] - 以具身规划模型为例,基于RynnBrain仅需几百条数据微调,效果即能超越Gemini 3 Pro,达到SOTA水平 [7] 开源内容与行业贡献 - 公司一次性开源了包括30B MoE在内的7个全系列RynnBrain模型,包含全尺寸基础模型与后训练专有模型,并开源了完整的推理与训练代码 [1][7] - 同时开源了全新的评测基准RynnBrain-Bench,用于评测时空细粒度具身任务,填补了行业空白 [7] - 此次开源是公司构建可部署、可扩展、可进化具身智能系统的一部分,公司此前已开源WorldVLA、RynnEC等模型及机器人上下文协议RynnRCP [9] 行业背景与意义 - 具身模型的智能水平,尤其是泛化能力,是行业发展的重要瓶颈 [1] - 当前业界主要探索动作模型(VLA)和大脑模型(VLM)两条技术路线,前者受限于数据稀缺难以泛化,后者普遍缺乏记忆、动态认知受限且存在物理幻觉 [1] - RynnBrain首次实现了大脑对物理世界的深度理解与可靠规划,为通用具身智能迈出关键一步,有望加速AI从数字世界走向真实物理场景的落地进程 [9]
机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
具身智能之心· 2025-08-12 08:03
阿里达摩院具身智能开源项目 - 阿里达摩院在世界机器人大会上宣布开源三款具身智能相关模型和协议:视觉-语言-动作模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP [1] - RynnRCP协议旨在解决具身智能开发流程碎片化问题,推动数据、模型和机器人本体的兼容适配,已支持Pi0、GR00T N1.5等多款热门模型及SO-100、SO-101等机械臂 [2] - RynnRCP包含两大模块:RCP框架(建立机器人本体与传感器连接)和RobotMotion(实现大模型与机器人控制的桥梁)[4][5] 开源模型技术细节 - RynnVLA-001是基于视频生成和人体轨迹预训练的7B参数模型,可从第一人称视频学习人类操作技能并迁移到机械臂控制 [7] - RynnEC是世界理解模型,能从11个维度解析场景物体,支持仅通过视频序列建立空间感知 [7] - 达摩院上月还开源了WorldVLA模型,首次实现世界模型与动作模型融合 [8] 具身智能产业布局 - 达摩院聚焦具身智能系统和模型研发,与产业共建基础设施包括硬件适配、数据采集和技术社区 [7] - 公司正在拓展机器人产业空间,加速场景落地 [7] 开发者生态建设 - 具身智能之心知识星球是国内首个具身智能全栈学习社区,包含30+学习路线、40+开源项目、60+数据集 [11] - 社群覆盖60+技术交流群,涉及大模型、机器人仿真、产品开发等多个方向 [12]
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-12 00:01
一、xAI开放Grok 4 - Grok 4向全球用户免费开放但限制每12小时使用5次 达到限制后完全不可用 [1] - 该策略被视为对标GPT-5发布 引发付费用户对订阅价值的质疑 [1] - Grok Imagine视频生成服务新增分享功能 修复下载问题并强化图片审核机制 [1] 二、浪潮发布元脑SD200服务器 - 元脑SD200将64张GPU卡融合为统一内存节点 支持四大国产开源模型并行运行 [2] - 采用3D Mesh架构与GPU虚拟映射技术 显存达4TB 内存64TB 满足万亿参数模型推理需求 [2] - 64卡运行DeepSeek R1性能提升3.7倍 Kimi K2提升1.7倍 专为Agentic AI计算需求设计 [2] 三、智谱GLM-4.5技术突破 - GLM-4.5公开预训练与后训练细节 首创单模型融合推理、编码与智能体能力 [3] - 基于MoE架构与15T通用+7T专业数据训练 强化长上下文与智能体性能 [3] - 在12项ARC测试中超越Claude Opus 4 部分指标超过OpenAI o3 [3] 四、昆仑万维SkyReels-A3视频模型 - SkyReels-A3基于DiT架构生成1分钟数字人视频 优化手部动作与运镜控制 [4] - 采用改进插帧方法与ControlNet模块 解决长视频稳定性与多视角切换问题 [4] - 作为五天技术发布周首款产品 已上线Talking Avatar工具 [4] 五、腾讯混元3D生成能力升级 - 创想三维MakeNow平台接入腾讯混元 增强CubeMe等工具的3D生成能力 [5] - 混元3D v2.5采用稀疏原生架构 几何分辨率达1024³ 纹理贴图4K级 [6] - 用户上传照片5分钟内可生成可打印Q版手办 支持三种风格个性化调整 [6] 六、阿里开源具身智能组件 - 开源RynnVLA-001视觉-语言-动作模型 能从第一人称视频学习人类操作 [7] - RynnRCP协议打通传感器到执行的机器人工作流 支持多款热门模型 [7] - RynnEC模型通过视频序列建立连续空间感知 引入多模态世界理解能力 [7] 七、百川医疗大模型Baichuan-M2 - 32B参数Baichuan-M2在HealthBench评测中仅次于GPT-5 超越所有开源模型 [8] - 集成验证系统与患者模拟器 严格遵循中国医疗指南并适配临床场景 [8] - 4bit量化后单卡RTX4090可部署 成本较DeepSeek-R1 H20降低57倍 [8] 八、灵巧智能机器人手技术 - DexHand021 Pro拥有22自由度 双绳驱动实现拇指对指等精细操作 [9] - 串并混联设计解决摩擦损耗问题 四指负载>1kg 整手抓握>5kg [9] - 集成12个电机与多传感器 成本仅为同类产品十分之一 [9] 九、Scaling Law行业观点 - Scaling Law反映数据内在幂律特性 模型能力非线性增长源于数据结构 [10] - 需通过强化学习将计算转化为新知识 建立生成-验证-学习的进化飞轮 [11] 十、2025大模型应用趋势 - 45%企业已部署大模型至生产环境 32%定制模型 27%采用API服务 [12] - 用户平均使用4.7家不同产品 ChatGPT领先但Gemini与DeepSeek增速显著 [12] - 55%接受中国模型但要求海外部署 英伟达占据78%训练硬件市场份额 [12]
达摩院开源具身智能“三大件” 机器人上下文协议首次开源
环球网· 2025-08-11 12:17
阿里达摩院开源具身智能技术 核心观点 - 公司在世界机器人大会上宣布开源三款具身智能技术产品:视觉-语言-动作模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP 旨在解决开发流程碎片化及数据模型适配难题 [1] - 通过MCP理念和RCP协议推动数据模型与机器人本体的标准化对接 建立从传感器到动作执行的完整工作流 [1][2] - 开源模型聚焦第一人称视角技能迁移和物理世界理解能力 提升机械臂操控连贯性与场景解析精度 [3] 技术架构 - **RynnRCP协议** - 包含RCP框架和RobotMotion模块 前者实现本体-传感器连接与标准化接口 后者将低频推理转为高频连续控制信号 [2] - 已支持Pi0 GR00T N1 5等模型及SO-100 SO-101机械臂 提供仿真-真机一体化工具降低迁移难度 [1][2] - 协议分层处理传感器数据(RCP框架)与动作执行(Action Server) 支持遥操数据回流和推理服务 [2] - **开源模型特性** - RynnVLA-001-7B基于视频生成和人体轨迹预训练 实现第一人称视角操作技能向机械臂的隐式迁移 [3] - RynnEC模型通过11维度场景解析(位置/功能/数量等) 仅凭视频序列建立空间感知 支持复杂环境目标定位 [3] 行业布局 - 公司持续投入具身智能系统研发 已构建WorldVLA等融合世界模型与动作模型的技术体系 [3] - 联合产业方推进硬件适配 数据采集和技术社区(DAMO开发者矩阵)建设 加速机器人场景落地 [3]
机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
机器之心· 2025-08-11 11:19
阿里达摩院开源具身智能技术 - 公司在世界机器人大会上宣布开源三款具身智能相关技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP [2] - 开源技术旨在解决行业开发流程碎片化、数据模型与机器人适配难等挑战,推动具身智能全流程开发 [3] - 公司将MCP理念引入具身智能领域,首次提出并开源RCP协议以标准化数据模型与机器人本体的对接 [3] RynnRCP协议框架 - 协议包含两大模块:RCP框架负责机器人本体与传感器的标准化连接,RobotMotion实现大模型与机器人控制的桥梁作用 [5][6][7] - RobotMotion能将低频推理指令实时转换为高频控制信号,支持仿真-真机一体化工具,降低策略迁移难度 [7] - 当前已兼容Pi0、GR00T N1.5等热门模型及SO-100、SO-101等机械臂 [3] 开源模型技术特性 - RynnVLA-001基于视频生成和人体轨迹预训练,可从第一人称视频学习人类操作技能并迁移至机械臂控制 [8] - RynnEC模型通过11维度场景解析能力,在复杂环境中实现目标定位分割,仅需视频序列即可建立空间感知 [8] - 公司此前开源的WorldVLA模型首次实现世界模型与动作模型融合,提升图像与动作的联合理解能力 [9] 行业布局与生态建设 - 公司聚焦具身智能系统与模型研发,联合产业方共建硬件适配、数据采集、开发者社区等基础设施 [8] - 技术开源覆盖从传感器数据采集、模型推理到动作执行的全流程,加速机器人场景落地 [3][8]