Workflow
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
量子位·2025-08-26 07:05

核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架 在手机端和电脑端多个核心榜单取得开源最佳性能 实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同 在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法 构建自动化数据生产闭环 在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施 构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环 包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法 解决稀疏奖励和信用分配难题 在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位:整合开源数据集和无障碍树数据合成 采用SAM模型进行PC端密集定位 过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位:支持单词和单字符级精确定位 可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划:从历史轨迹提炼执行手册 通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解:构建操作前后截图对 建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色 均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线 在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分 超越同类开源模型 [41]