最新智能体自动操作手机电脑，10个榜单开源SOTA全拿下｜通义实验室

核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架在手机端和电脑端多个核心榜单取得开源最佳性能实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法构建自动化数据生产闭环在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法解决稀疏奖励和信用分配难题在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位：整合开源数据集和无障碍树数据合成采用SAM模型进行PC端密集定位过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位：支持单词和单字符级精确定位可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划：从历史轨迹提炼执行手册通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解：构建操作前后截图对建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分超越同类开源模型 [41]