霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来
机器之心·2026-02-18 20:51

文章核心观点 - 蚂蚁集团发布了新一代端到端GUI智能体模型UI-Venus-1.5,旨在解决当前GUI智能体面临的三大现实难题,即“知识缺失”、“纸上谈兵”和“多模型协同”障碍 [2][3] - 该模型遵循“高性能,实战派”设计理念,通过一条清晰、系统的训练路径,最终实现用一个统一模型处理定位、移动端和网页端三大场景,并全面支持40余款主流中文App [2][7][32] 技术路径与核心创新 - 中期训练:为弥补基础大模型在GUI领域的认知短板,公司构建了包含30多个数据源、总计10B tokens的GUI中期训练语料库,系统性地塑造模型的四项核心基础能力 [9][10][12] - 打造领域专家:在UI-Venus-1.0已达到SOTA水平的基础上,UI-Venus-1.5进一步优化专家模型,专注于精准导航与定位、严谨的顺序推理、GUI-VQA以及敏锐的精细感知能力 [13] - 在线强化学习:为解决离线训练与在线执行脱节的问题,公司引入在线强化学习,在真实环境中以“任务是否成功”为核心优化目标,直接提升端到端的轨迹级任务成功率,而非仅优化单步动作准确率 [15][19] - 模型融合:采用“先分后合”策略,先分别训练Grounding、Mobile、Web三个领域的专家模型,再通过TIES-Merging技术将它们融合为一个统一的端到端模型,以降低部署成本并保持各领域性能 [20][21] - 设备即服务:为支撑大规模在线训练,公司搭建了统一的设备即服务层,实现了千台级异构设备的稳定接入,支持超千并发的在线强化学习任务 [24][25] 性能表现与评测结果 - 定位能力:在VenusBench-GD、ScreenSpot-Pro、UI-Vision等7个标准基准测试中,UI-Venus-1.5相比1.0版本有显著提升,并全面超越同规模模型 [27][28] - 移动端与网页端:在AndroidWorld、AndroidLab、VenusBench-Mobile等真实场景的在线评测中,UI-Venus-1.5在多样化任务上取得了全面SOTA的性能 [29][31] - 具体数据: - 定位基准:UI-Venus-1.5-8B模型在VenusBench-GD上得分为72.3,在ScreenSpot-Pro上为68.4,在UI-Vision上为46.5 [28] - 移动端任务成功率:UI-Venus-1.5-8B模型在真实环境中的任务成功率为73.7%,其30B-A3B版本达到77.6% [29] - 网页端任务成功率:UI-Venus-1.5-8B模型在WebVoyager基准上的成功率为70.8%,其30B-A3B版本为76.0% [30] 产品化与落地应用 - 广泛的应用支持:模型深度适配40余款主流中文App,覆盖出行、社交、娱乐、购物、生活服务等核心场景,能理解并执行用户复杂的自然语言指令 [32][33] - 实战任务示例:模型能完成诸如在高德地图叫车、在携程订机票、在微博搜索并评论天气、在网易云音乐播放指定歌曲等一系列真实、复杂的多步骤操作 [33][34][35] - 系统价值:UI-Venus-1.5的价值在于构建了一个更可训练、可部署、可扩展的端到端系统,标志着向成为真正“可用的智能助手”迈出了关键一步 [34][36]

霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来 - Reportify