研究背景与核心问题 - 当前AI智能体存在领域割裂问题,网络智能体擅长数字信息处理,具身智能体专注于物理交互,二者协同不足[4] - 人类智能天然融合物理与数字领域,而现有AI缺乏这种跨域协同能力[4] - 研究团队提出Embodied Web Agents (EWA)新范式,旨在构建可无缝桥接物理具身与网络推理的智能体[4] 统一仿真环境 - 开发集成式任务环境,整合户外环境、室内环境和网络环境三大模块[5][8][10] - 户外环境基于Google街景/地球API构建真实城市导航图[5] - 室内环境采用AI2-THOR高拟真厨房场景[8] - 网络环境自建5功能网站,包括食谱、购物、地图、维基和主页[10] - 状态空间融合物理与数字状态,动作空间支持跨域操作,观测空间包含具身观测与网络感知[7] 基准测试EWA-Bench - 构建包含1.5K任务的评测集,涵盖烹饪、导航、购物、旅游和地理定位5大领域[11] - 任务类型包括烹饪(911条)、导航(144条)、购物(216条)、旅游(110条)和地理定位(142条)[11] - 75%任务需多次环境切换,强制考察跨域协调能力[11] 实验结果与发现 - 主流模型性能差距显著,GPT-4o整体准确率34.72%,Gemini 30.56%,Qwen 15.97%,Intern 13.19%,人类90.28%[14] - 导航任务中,GPT-4o完成率52.08%,Gemini 48.96%,Qwen 36.81%,Intern 26.04%,人类91.32%[14] - 购物任务中,GPT-4o整体准确率25.46%,Gemini 23.61%,Qwen 13.89%,Intern 10.65%,人类92.59%[14] - 旅游任务中,GPT-4o整体准确率30.91%,Gemini 25.45%,Qwen 11.82%,Intern 9.09%,人类91.82%[14] 错误根因分析 - 失败主因是跨域协同问题,占比66.6%[15] - 模型在纯网络任务表现尚可(57-69%),但涉及物理交互时暴跌至≤10%[15] - 烹饪任务中文本输入显著优于视觉输入[15] - 单域循环陷阱占比36.8%,指令-动作错位占比11.8%,无效环境切换占比16.7%[19] 地理定位任务启示 - 具身探索显著提升定位精度,GPT-4o街道级识别从1.41%提升至3.52%[20] - 查询行为本身可强化推理置信度,即使检索结果噪声大[20] 贡献与未来方向 - 首次形式化"具身网络智能体"概念框架[21] - 发布首个物理-数字融合仿真环境[21] - 构建多领域任务集EWA-Bench[21] - 揭示当前LLM跨域协同是主要瓶颈[22]
EMBODIED WEB AGENTS:融合物理与数字领域以实现综合智能体智能
具身智能之心·2025-06-20 08:44