霸榜SOTA，蚂蚁开源UI-Venus-1.5，GUI智能体办事时代加速到来

文章核心观点 - 蚂蚁集团发布了新一代端到端GUI智能体模型UI-Venus-1.5，旨在解决当前GUI智能体面临的三大现实难题，即“知识缺失”、“纸上谈兵”和“多模型协同”障碍 [2][3] - 该模型遵循“高性能，实战派”设计理念，通过一条清晰、系统的训练路径，最终实现用一个统一模型处理定位、移动端和网页端三大场景，并全面支持40余款主流中文App [2][7][32] 技术路径与核心创新 - 中期训练：为弥补基础大模型在GUI领域的认知短板，公司构建了包含30多个数据源、总计10B tokens的GUI中期训练语料库，系统性地塑造模型的四项核心基础能力 [9][10][12] - 打造领域专家：在UI-Venus-1.0已达到SOTA水平的基础上，UI-Venus-1.5进一步优化专家模型，专注于精准导航与定位、严谨的顺序推理、GUI-VQA以及敏锐的精细感知能力 [13] - 在线强化学习：为解决离线训练与在线执行脱节的问题，公司引入在线强化学习，在真实环境中以“任务是否成功”为核心优化目标，直接提升端到端的轨迹级任务成功率，而非仅优化单步动作准确率 [15][19] - 模型融合：采用“先分后合”策略，先分别训练Grounding、Mobile、Web三个领域的专家模型，再通过TIES-Merging技术将它们融合为一个统一的端到端模型，以降低部署成本并保持各领域性能 [20][21] - 设备即服务：为支撑大规模在线训练，公司搭建了统一的设备即服务层，实现了千台级异构设备的稳定接入，支持超千并发的在线强化学习任务 [24][25] 性能表现与评测结果 - 定位能力：在VenusBench-GD、ScreenSpot-Pro、UI-Vision等7个标准基准测试中，UI-Venus-1.5相比1.0版本有显著提升，并全面超越同规模模型 [27][28] - 移动端与网页端：在AndroidWorld、AndroidLab、VenusBench-Mobile等真实场景的在线评测中，UI-Venus-1.5在多样化任务上取得了全面SOTA的性能 [29][31] - 具体数据： - 定位基准：UI-Venus-1.5-8B模型在VenusBench-GD上得分为72.3，在ScreenSpot-Pro上为68.4，在UI-Vision上为46.5 [28] - 移动端任务成功率：UI-Venus-1.5-8B模型在真实环境中的任务成功率为73.7%，其30B-A3B版本达到77.6% [29] - 网页端任务成功率：UI-Venus-1.5-8B模型在WebVoyager基准上的成功率为70.8%，其30B-A3B版本为76.0% [30] 产品化与落地应用 - 广泛的应用支持：模型深度适配40余款主流中文App，覆盖出行、社交、娱乐、购物、生活服务等核心场景，能理解并执行用户复杂的自然语言指令 [32][33] - 实战任务示例：模型能完成诸如在高德地图叫车、在携程订机票、在微博搜索并评论天气、在网易云音乐播放指定歌曲等一系列真实、复杂的多步骤操作 [33][34][35] - 系统价值：UI-Venus-1.5的价值在于构建了一个更可训练、可部署、可扩展的端到端系统，标志着向成为真正“可用的智能助手”迈出了关键一步 [34][36]