给GUI Agent装上「世界模型」:阿里通义用混合数据+统一思维链,让模型学会预判屏幕变化
量子位·2026-03-04 10:44

行业背景与技术趋势 - 伴随多模态大模型发展,GUI Agent正成为人机交互新范式[1] - 构建高可用、跨平台GUI Agent面临真实环境数据难收集、多平台动作空间差异导致梯度冲突、以及需要长程记忆与多Agent协作等工程与算法挑战[2] 公司发布的核心产品 - 阿里巴巴通义实验室开源了新一代多平台GUI Agent框架Mobile-Agent-v3.5,并同步发布了原生基座模型家族GUI-Owl-1.5[2] - 该模型家族在20多个主流GUI Benchmark上取得开源领域领先的测试结果,实现了跨桌面、手机、浏览器等多端的统一控制[6] - 项目开放了从2B到32B的多种参数尺寸,并针对实际部署需求解耦出Instruct和Thinking两种模型变体[6] 产品架构与核心能力设计 - GUI-Owl-1.5提供Instruct和Thinking两种模型变体,以兼顾响应延迟与推理深度[9] - Instruct模型专注极速响应与轻量化执行,适合部署在算力受限的端侧设备[9] - Thinking模型专攻长程复杂任务,具备完整的思维链能力,能够进行规划、反思与纠错[9] - 两种形态为端云协同提供基础架构,云端Thinking模型作为规划者,端侧Instruct模型作为执行者,可构建高效多Agent协作系统[9] - Mobile-Agent-v3.5在动作空间上原生支持外部工具调用与MCP协议,可实现工作流闭环[9] 核心技术突破:数据管线与训练方法 - 构建混合数据生产管线,解决高质量Grounding和长轨迹数据合成难题[12] - 在Grounding数据层面,利用多模态模型结合参考界面进行多轮校验,合成高分辨率复杂UI截图[13] - 通过轨迹挖掘和App教程字幕解析抽取海量交互问答,并引入大规模Infeasible Query负样本,让模型学会主动拒绝不可行操作[13] - 在轨迹数据生产上,引入基于有向无环图的任务合成机制,并设计截断与任务修复机制,将部分正确轨迹转化为高质量前缀监督数据[15] - 基于Web渲染构建虚拟环境,低成本生成海量专家轨迹以应对验证码等高频场景[15] 核心技术突破:世界模型与思维链 - 在训练阶段抓取全网软件官方文档和问答论坛数据,使模型掌握软件常识[18] - 利用轨迹记录训练模型进行状态转移预测,要求模型预判下一屏UI变化,以降低长程决策试错成本[18] - 建立统一的思维链合成流水线,将所有多端轨迹数据进行思维扩充,要求模型输出结构化的中间状态,从而获得优秀的全局任务规划能力[18] 核心技术突破:强化学习算法创新 - 提出MRPO算法,精准解决多平台端到端强化学习训练中的工程痛点[20] - 设计在线过采样与条件替换机制,克服GRPO训练中的结果坍塌问题,将非坍塌训练组的出现概率大幅提升至接近1,显著提高训练效率[22][23][24][25][26][27][28] - 采用Token-ID传输机制,保证环境端采样与训练端概率计算的严格一致性,解决因分词器不一致导致的训练不稳定问题[29][30] - 采用交替多平台优化策略,按阶段从单一平台采样并更新模型,解耦平台间梯度干扰,提升训练稳定性同时保留跨设备泛化能力[31][32][33] 模型性能评测结果 - 在桌面端环境OSWorld-Verified基准测试中,GUI-Owl-1.5-32B-Instruct取得56.5分,设定整体性能天花板[36][38] - 模型展现出高参数效率:8B-Thinking变体达到52.9分,超越同等规模的UI-TARS-2以及参数量大数倍的Qwen3-VL-235B-A22B-Think[38] - 在移动端AndroidWorld基准测试中,8B-Thinking取得71.6分[36][38] - 在浏览器端WebArena与VisualWebArena基准测试中,32B-Thinking分别达到48.4分和46.6分,大幅领先多数开源基座模型[37][38] - 在需要长程规划的网页任务WebVoyager中,32B-Thinking变体分数达到82.1,显著高于Instruct变体,证明思维链对复杂决策的增益[37][38] 专项能力评测结果 - 在考验超高分辨率定位的ScreenSpot-Pro基准中,GUI-Owl-1.5-32B-Instruct在Base设置下达到72.9分,超越包括Gemini-3-Pro在内的所有对比方案[39][41] - 结合Zoom-In策略后,其准确率进一步提升至80.3分,实现断层式领先[39][41] - 在需要混合GUI操作与工具调用的OSWorld-MCP榜单中,32B-Instruct取得47.6分,优于部分专攻单平台的垂类模型及主流闭源模型[36][43] - 在GUI Knowledge Bench和MemGUI-Bench等考察界面解析与长程历史追溯的基准中,该模型同样稳居Native Agent模型第一梯队[43] 复杂场景应用案例 - 在移动端,模型成功执行跨应用信息提取与计算任务:先后唤起小红书和抖音App,搜索指定账号、提取粉丝数据、存入记忆、最终汇总输出,验证了跨步信息保持与逻辑推理能力[46][47] - 在Windows桌面端,模型独立完成“网页搜索+资料整理”综合任务,在浏览器与记事本等多个独立窗口间进行焦点切换、文本复制与编辑,并基于世界模型先验知识预判系统反馈,保持低操作错误率[49][50]

给GUI Agent装上「世界模型」:阿里通义用混合数据+统一思维链,让模型学会预判屏幕变化 - Reportify