Workflow
GROOT
icon
搜索文档
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 10:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
机器之心· 2025-05-13 15:08
核心观点 - 通用人工智能研究院与北京大学联合开发了Minecraft Universe (MCU)平台,旨在解决开放世界AI智能体评测的三大瓶颈:任务多样化不足、环境单一、评测效率低下 [1][3][6] - MCU通过3,452个原子任务的无限组合生成、GPT-4o驱动的全自动任务配置、多模态智能评测三大突破,构建了维度丰富的综合评测框架 [6][11][14] - 实验显示当前SOTA模型(GROOT/STEVE-I/VPT系列)在组合任务中的完成率较原子任务下降50%以上,创造性得分普遍低于0.3分(满分1分),揭示泛化能力存在显著缺陷 [17][18][21] 技术架构 任务生成系统 - 支持11大类41子类任务类型(挖矿/合成/战斗/建造等),每个任务可分解为原子级粒度测试控制/规划/推理能力 [13] - 基于GPT-4o实现一句话生成复杂世界场景(含天气/生物群系/初始道具),自动校验任务逻辑可行性(如避免"木镐挖钻石"类错误) [11][14] - 示例任务包括"沙漠建水上屋"、"熔岩坑边缘造瀑布"等,通过调整环境变量(昼夜/地形)生成不同难度版本 [7][20] 评测体系创新 - 引入VLM驱动的多模态评分系统,覆盖任务进度/材料利用率/执行效率等6大维度,评分准确率达91.5% [14] - 采用动态任务进度指标替代传统0/1完成率,可量化阶段性表现(如GROOT在"屋内睡觉"任务中误判率达83%) [21] - 评测效率较人工提升8.1倍,成本仅为1/5,支持单日处理超10万次任务验证 [14] 实验结果 模型性能短板 - 导航类任务:GROOT在熟悉场景平均得分0.72,但环境微调后(草地→屋内)得分骤降至0.33 [18][21] - 组合任务:VPT(RL)在采矿+建造的复合任务中成功率仅23%,较单一采矿任务下降41个百分点 [18] - 创造性缺陷:所有模型在建造类任务的创新得分均未超过0.38分(STEVE-I在"瀑布建造"中得分为0.05) [18][21] 行业启示 - 现有模型过度依赖预设环境(如VPT在陌生生物群系中错误识别率达65%),暴露语义理解不足 [17][22] - 长周期任务(持续数小时)的完成率普遍低于20%,反映长期规划能力缺失 [6][21] - 评测结果指明研发方向:需提升任务本质理解能力而非表面指令执行 [22]