机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛
机器之心·2025-09-24 10:31

文章核心观点 - 具身智能与机器人领域可能正迎来一个类似ImageNet的“拐点时刻”,其标志是李飞飞团队与斯坦福AI实验室在NeurIPS 2025推出的首届BEHAVIOR挑战赛 [2] - BEHAVIOR挑战赛是一个为具身智能量身定制的综合性研究资源与基准测试,旨在通过大规模、高保真的家庭任务,推动机器人完成贴近人类生活的复杂操作,并探索该领域的核心科学问题 [2][12][19] - 此次挑战赛不仅是一次学术竞技,更是一场社区实验,旨在集体评估当前技术离实现真正实用的“家庭机器人”还有多远,并可能推动该领域性能的跃升 [19][21][22] BEHAVIOR挑战赛概况与意义 - 挑战赛由李飞飞团队与斯坦福AI实验室官宣,将于NeurIPS 2025举办 [2] - 它被设计为具身智能的“超级benchmark”,涵盖真实家庭场景下最关键的1000个日常任务,并首次以50个完整长时段任务作为核心赛题 [2] - 其目标在于考验机器人能否在逼真的虚拟环境中完成真正贴近人类生活的操作 [2] - 挑战赛旨在探索当前具身智能发展距离独立完成以人为本的家务任务还有多远、机器人跨场景泛化能力以及数据规模扩大是否会带来性能跃升等核心科学问题 [19] 挑战赛的核心特点与资源 - 任务规模前所未有:覆盖1000个家庭活动,包含50个完整长程挑战,平均单个任务需要6.6分钟连续操作 [5] - 高保真环境仿真:基于NVIDIA Omniverse的高保真模拟器OmniGibson,支持衣物折叠、液体倒水、加热/冷冻等复杂物理交互 [5] - 数据史无前例:提供10,000条专家遥操作示范,总计1,200+小时,并细致标注物体状态、空间关系和自然语言描述,为模仿学习和强化学习提供“黄金数据集” [7] - 平台统一:采用星海图R1 Pro机器人作为默认机器人本体,其双手协调与稳定导航能力让研究成果更具可迁移性 [10] - 资源全面:提供从仿真器设置、下载3D资源与模型、加载数据集到示例训练脚本和评估例程的详细指南与入门套件,方便快速入门与创新 [15][16] 挑战赛的赛制与安排 - 赛题:完成50个来自真实家庭场景复杂活动的BEHAVIOR任务 [18] - 平台:统一使用星海图R1 Pro本体(双手操作+轮式移动) [18] - 基准方法:官方提供模仿学习(如ACT、Diffusion Policy)与视觉语言行动模型(如OpenVLA、π0)的完整训练评估流程 [18] - 评估标准: - 主要指标:任务成功率(完全达成 vs 部分达成) [18] - 辅助指标:效率(用时、路径、动作)、数据利用率(示范数量 vs 成效) [18] - 时间线: - 2025年9月2日:开放报名与数据下载,进入开发与公开排行榜阶段 [18] - 2025年11月15日:最终评估,隐藏测试集统一运行 [18] - 2025年12月6-7日:NeurIPS 2025公布结果与获奖方案 [18] - 奖项价值:最高奖金1000美元,但真正的价值在于能在NeurIPS舞台与全球顶尖团队交流与展示 [14]