文章核心观点 - 国产具身智能基础模型WALL-OSS在RoboChallenge真机评测中,以46.43分的总成绩超越美国明星公司Physical Intelligence的pi0模型,位列全球第二 [1] - WALL-OSS是一个彻底开源的端到端具身智能基础模型,其成绩建立在完全透明的代码与参数之上,可被复现和检验,代表了开源模型在推动具身智能前沿发展中的关键作用 [7][9] - 该模型通过创新的“共享注意力+专家分流”架构和“启发→整合”的阶段式训练范式,有效解决了模态解耦和灾难性遗忘等核心挑战,在认知深度与动作精度之间取得了平衡 [41][43][48] - 自变量机器人团队将开源视为对“行业基础设施”的长期投入,旨在通过降低行业创新门槛,在同一个高起点上推动真正的技术创新 [57][60] 模型性能与评测表现 - 总体排名:在RoboChallenge真机评测榜单上,WALL-OSS以46.43分排名第二,仅次于61.84分的pi0.5,但以微弱优势(0.02分)超越46.41分的pi0 [2] - 单项任务优势:在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等多个单任务中,WALL-OSS均拿下单项第一 [2] - 具体任务示例: - “叠抹布”任务:WALL-OSS以41分位列第一,任务成功率为10%,而pi0的成功率为0% [12][13] - “连续按下三个按钮”任务:WALL-OSS得分82.00,成功率为60.00%,显著领先于其他模型(如cogact/hsk得分18.00,成功率0.00%) [22][23] - “将不同形状杂物收纳至筐中”任务:WALL-OSS的得分和成功率均高于pi0 [26][28] - 评测基准特点:RoboChallenge是首个在真实物理环境中由真实机器人执行操作的大规模、多任务基准测试,其Table 30任务集包含30个真实日常操作任务,远超行业常见的3–5个任务数量 [4][11] 技术架构与训练创新 - 核心挑战应对:针对VLM向VLA迁移过程中的“灾难性遗忘”和“模态解耦”两大挑战,WALL-OSS在架构和训练上进行了创新 [38] - 模型架构:采用“共享注意力+专家分流(FFN)”的架构设计,将语言、视觉与动作信息嵌入同一表示空间,实现深度跨模态交互与高效任务分流,形成紧耦合的认知—行动闭环 [41][42] - 训练策略:设计了“启发阶段→整合阶段”的阶段式训练范式 [43] - 启发阶段:通过具身VQA、指令跟随等任务强化空间推理,结合FAST tokenization离散动作训练,保留原有认知能力并建立空间与动作基础认知 [43] - 整合阶段:先冻结VLM仅训练Action FFN下的流匹配头以精修高频动作生成,最终解冻VLM进行联合优化 [44][45] - 这种“先离散、后连续、再联合”的路径避免了能力塌缩,实现了认知能力向动作层面的无损迁移 [47] - 决策能力增强:构建了统一的跨层级思维链框架,将思维链能力内化到具身决策过程中,使模型能够自主拆解问题、逐步思考并动态调整策略,从而具备承担长程、复杂具身任务的能力 [49][50][51] 开源属性与行业意义 - 彻底开源:WALL-OSS不仅开放了预训练模型权重、完整训练代码和数据集接口,还提供了详尽的部署文档,仅需RTX 4090级别的消费级显卡即可完成从训练到推理部署的完整流程 [7] - 榜单开源趋势:当前RoboChallenge榜单前三名(pi0.5, WALL-OSS, pi0)均来自开源体系,表明具身智能的前沿发展正由开源模型共同推动 [8][9] - 评测透明性:RoboChallenge平台公开了所有任务演示数据及测试中间结果,包括多视角执行视频、机械臂关节角度与夹爪状态图表等,使评测过程完全透明可追溯 [16][17][19] - 降低行业门槛:一个可在消费级显卡上训练和部署的开源具身模型,弥补了行业空白,实质性地降低了整个行业的创新门槛,使研究者和创业团队能将精力投入到提升泛化能力、处理复杂任务等更有价值的问题上 [57] - 推动生态创新:开源生态使行业能在同一个高起点上竞争真正的创新,而非重复进行基础设施建设 [57] 公司背景与融资情况 - 团队背景:自变量机器人核心团队长期深耕机器人与多模态智能方向,明确以构建“通用具身智能基座”为长期目标 [54] - 创始人兼CEO王潜:清华大学本硕,南加州大学博士,从事Robotics Learning研究,是较早将Attention思想引入神经网络体系的研究者之一 [54] - 联合创始人兼CTO王昊:北京大学计算物理博士,前IDEA研究院大模型团队负责人,曾带领团队发布多个开源大模型 [54] - 融资情况:公司已完成多轮融资,几个月前宣布了近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉、渶策、美团、联想之星、君联资本等参与 [54] - 发展理念:公司更关注如何构建一个可被反复验证、持续演化的“机器人通用大脑”,并将WALL-OSS定位为面向真实物理世界、端到端统一的基座模型,而非为特定Demo或任务定制的解法 [55][56]
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
量子位·2026-01-08 19:07