超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结
机器之心·2026-04-01 13:04

赛事概况与核心理念 - 全球首届具身智能开发者大会(EAIDC)暨“具亮计划”黑客松决赛于3月30日收官,是全球首个将“真实环境+真实任务”同时写入赛制的大规模具身智能赛事[11] - 赛事旨在通过真实世界的随机性、多样性与复杂性检验具身智能模型能力,认为最好的测评不在榜单而在现实世界[8][9] - 赛事为期72小时,20支队伍现场使用真机完成数据采集、模型训练和系统部署,模型、算力、硬件等基础设施由主办方统一提供[3][4][5][7] 赛事组织与基础设施 - 主办方为降低上手难度,打造了“顶配考场”,提供超过100 PFLOPs算力、近百台高性能六轴机械臂、开源基础模型、数据集及完整的数据采集、训练和推理基础设施[16][17] - 比赛采用24小时轮转评测并实时出分以保证公平[33] - 在统一基础设施下,外部变量被抹平,核心考察点在于模型能否在真实世界快速落地[18] 赛题设计与技术挑战 - 决赛设置四道任务,难度递增,对应具身智能落地的真实痛点[20] - 前两题“套圆环”和“分水果”是基础能力测试,分别考察精细操作和语言到动作的映射能力[21] - 后两题“插电源线”和“拼单词”是拉开差距的关键,权重更高,重点考察在不确定环境中完成精细对齐的能力,以及长时序、多步骤的任务规划与执行能力[23][25] - 赛题设计指向从Robotics到Embodied AI的转变,强调“脑力”是决定能力上限的关键[23] 比赛结果与技术洞察 - 参赛队伍来自清华、北大等顶尖高校与科研机构,初始任务成功率仅在20%–30%左右,通过调参和优化,成功率显著提升,例如套圆环任务可达60%–70%,拼单词任务可达40%–50%,证明模型在真实环境中能被快速调优并实际工作[30] - 比赛也暴露出模型泛化能力不足、训练范式和数据利用效率不高等问题[31] 行业痛点与开源必要性 - 行业长期缺乏在真实物理环境中检验技术成熟度的统一评测体系[11] - 具身智能已演变为从数据采集、模型训练到真机部署的系统工程,门槛极高,不开源则大多数开发者无法入场,高校也难以培养落地人才,行业易陷入少数团队内部循环[37] - 当前技术路线无标准答案,需通过开源吸引更多人参与试错,加速技术收敛,开源的意义在于“制造共识”并定义未来技术路径[37] - 具身智能开源与大模型不同,需平衡数据隐私、硬件绑定和核心竞争力保护等问题,寻求开放与保护的平衡点[37] 开源实践与生态建设 - 自变量机器人通过赛事实践了“真开源”,不仅开放代码,更开放“能跑通的能力”,包括数据、流程及真实环境,其开源模型WALL-OSS可通过标准工具链在几小时内完成从模型加载到机械臂执行的闭环部署[38] - 开源生态旨在吸引大量开发者(包括非科班出身者)参与,通过社区力量扩展模型能力边界,构建中国自己的“具身智能大脑”[39] - 表现突出的方案可进入WALL-OSS官方示例库获得行业认可,企业可站在社区肩膀上发展,社区反馈能暴露问题,推动技术体系进化,形成“开源—创新—回馈”的闭环[45][46] 未来路径:真泛化与生态驱动 - 实现真泛化要求具身智能必须走进真实家庭与生活等随机场景,大规模持续采集数据开展训练[40] - 技术路径必须从通用基础模型出发,向具体场景高效迁移,实现规模化落地[41] - 行业进化将不再依赖少数公司,而是依靠由生态驱动的、持续加速的系统,赛事通过降低门槛、吸引开发者参与,加速生态形成[44][45][48] - 未来EAIDC将持续举办,旨在成为具身智能领域的“真实世界评测场”和行业观察窗口[50][51]

超百万算力、72小时、近百台真机:具身智能的刷分时代,被一场「裸考」终结 - Reportify