给GUI Agent装上「世界模型」：阿里通义用混合数据+统一思维链，让模型学会预判屏幕变化

行业背景与技术趋势 - 伴随多模态大模型发展，GUI Agent正成为人机交互新范式[1] - 构建高可用、跨平台GUI Agent面临真实环境数据难收集、多平台动作空间差异导致梯度冲突、以及需要长程记忆与多Agent协作等工程与算法挑战[2] 公司发布的核心产品 - 阿里巴巴通义实验室开源了新一代多平台GUI Agent框架Mobile-Agent-v3.5，并同步发布了原生基座模型家族GUI-Owl-1.5[2] - 该模型家族在20多个主流GUI Benchmark上取得开源领域领先的测试结果，实现了跨桌面、手机、浏览器等多端的统一控制[6] - 项目开放了从2B到32B的多种参数尺寸，并针对实际部署需求解耦出Instruct和Thinking两种模型变体[6] 产品架构与核心能力设计 - GUI-Owl-1.5提供Instruct和Thinking两种模型变体，以兼顾响应延迟与推理深度[9] - Instruct模型专注极速响应与轻量化执行，适合部署在算力受限的端侧设备[9] - Thinking模型专攻长程复杂任务，具备完整的思维链能力，能够进行规划、反思与纠错[9] - 两种形态为端云协同提供基础架构，云端Thinking模型作为规划者，端侧Instruct模型作为执行者，可构建高效多Agent协作系统[9] - Mobile-Agent-v3.5在动作空间上原生支持外部工具调用与MCP协议，可实现工作流闭环[9] 核心技术突破：数据管线与训练方法 - 构建混合数据生产管线，解决高质量Grounding和长轨迹数据合成难题[12] - 在Grounding数据层面，利用多模态模型结合参考界面进行多轮校验，合成高分辨率复杂UI截图[13] - 通过轨迹挖掘和App教程字幕解析抽取海量交互问答，并引入大规模Infeasible Query负样本，让模型学会主动拒绝不可行操作[13] - 在轨迹数据生产上，引入基于有向无环图的任务合成机制，并设计截断与任务修复机制，将部分正确轨迹转化为高质量前缀监督数据[15] - 基于Web渲染构建虚拟环境，低成本生成海量专家轨迹以应对验证码等高频场景[15] 核心技术突破：世界模型与思维链 - 在训练阶段抓取全网软件官方文档和问答论坛数据，使模型掌握软件常识[18] - 利用轨迹记录训练模型进行状态转移预测，要求模型预判下一屏UI变化，以降低长程决策试错成本[18] - 建立统一的思维链合成流水线，将所有多端轨迹数据进行思维扩充，要求模型输出结构化的中间状态，从而获得优秀的全局任务规划能力[18] 核心技术突破：强化学习算法创新 - 提出MRPO算法，精准解决多平台端到端强化学习训练中的工程痛点[20] - 设计在线过采样与条件替换机制，克服GRPO训练中的结果坍塌问题，将非坍塌训练组的出现概率大幅提升至接近1，显著提高训练效率[22][23][24][25][26][27][28] - 采用Token-ID传输机制，保证环境端采样与训练端概率计算的严格一致性，解决因分词器不一致导致的训练不稳定问题[29][30] - 采用交替多平台优化策略，按阶段从单一平台采样并更新模型，解耦平台间梯度干扰，提升训练稳定性同时保留跨设备泛化能力[31][32][33] 模型性能评测结果 - 在桌面端环境OSWorld-Verified基准测试中，GUI-Owl-1.5-32B-Instruct取得56.5分，设定整体性能天花板[36][38] - 模型展现出高参数效率：8B-Thinking变体达到52.9分，超越同等规模的UI-TARS-2以及参数量大数倍的Qwen3-VL-235B-A22B-Think[38] - 在移动端AndroidWorld基准测试中，8B-Thinking取得71.6分[36][38] - 在浏览器端WebArena与VisualWebArena基准测试中，32B-Thinking分别达到48.4分和46.6分，大幅领先多数开源基座模型[37][38] - 在需要长程规划的网页任务WebVoyager中，32B-Thinking变体分数达到82.1，显著高于Instruct变体，证明思维链对复杂决策的增益[37][38] 专项能力评测结果 - 在考验超高分辨率定位的ScreenSpot-Pro基准中，GUI-Owl-1.5-32B-Instruct在Base设置下达到72.9分，超越包括Gemini-3-Pro在内的所有对比方案[39][41] - 结合Zoom-In策略后，其准确率进一步提升至80.3分，实现断层式领先[39][41] - 在需要混合GUI操作与工具调用的OSWorld-MCP榜单中，32B-Instruct取得47.6分，优于部分专攻单平台的垂类模型及主流闭源模型[36][43] - 在GUI Knowledge Bench和MemGUI-Bench等考察界面解析与长程历史追溯的基准中，该模型同样稳居Native Agent模型第一梯队[43] 复杂场景应用案例 - 在移动端，模型成功执行跨应用信息提取与计算任务：先后唤起小红书和抖音App，搜索指定账号、提取粉丝数据、存入记忆、最终汇总输出，验证了跨步信息保持与逻辑推理能力[46][47] - 在Windows桌面端，模型独立完成“网页搜索+资料整理”综合任务，在浏览器与记事本等多个独立窗口间进行焦点切换、文本复制与编辑，并基于世界模型先验知识预判系统反馈，保持低操作错误率[49][50]