GUI智能体
搜索文档
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决
量子位· 2026-04-19 09:09
文章核心观点 - ZJU-REAL团队推出了名为ClawGUI的开源框架,该框架首次实现了GUI智能体从在线强化学习训练、标准化评测到真机部署的端到端完整生命周期闭环,旨在解决该领域长期存在的训练、评测、部署环节割裂的挑战 [2] - 基于该框架训练的ClawGUI-2B小模型在MobileWorld基准上取得了17.1的成功率,显著超越基线模型MAI-UI-2B的11.1,提升幅度达6%,且性能接近参数量更大的8B模型水平 [3][11] - 文章认为,尽管CLI智能体近期备受关注,但GUI智能体因其与人类主要交互方式(图形界面)的天然契合、对无API应用的支持以及操作过程的可视化与可控性,仍具有不可替代的价值,CLI与GUI的融合可能是通往通用智能体的重要路径 [25] ClawGUI框架概述 - ClawGUI是一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架,由ClawGUI-RL、ClawGUI-Eval和OpenClaw-GUI三个打通的部分组成,形成一条端到端的验证流水线 [2] - 该框架旨在解决GUI智能体研究领域长期存在的结构性挑战:训练、评测、部署三个环节彼此割裂,难以形成闭环,导致整体推进成本极高 [2] ClawGUI-RL:在线强化学习训练模块 - ClawGUI-RL是一个经过端到端验证的GUI智能体在线强化学习解决方案,将训练基础设施拆解为环境管理、奖励设计、策略优化三层 [5][6] - 在环境层面,它将所有设备后端统一抽象为同一套接口,支持Docker虚拟机和物理手机,并采用Spare Server轮转和周期性重启机制保证长时间训练的稳定性 [6][8] - 在奖励层面,它创新性地采用了二元结果奖励与过程奖励模型相结合的双层设计,为每一步操作提供稠密的逐步反馈,有效缓解了GUI长序列决策中的奖励稀疏问题 [6][9] - 在策略优化层面,它支持GRPO、GiGPO等主流强化学习算法,并提供统一训练接口 [6] ClawGUI-2B模型性能表现 - 以MAI-UI-2B为基座,使用ClawGUI-RL训练得到的ClawGUI-2B模型,在MobileWorld基准上取得了17.1的成功率 [10][11] - 该成绩大幅超越了基线模型MAI-UI-2B的11.1,提升幅度达6%,并且达到了接近MAI-UI-8B模型19.7的水平 [11] - 作为对比,其他先进模型如Gemini-3-Pro + UI-Ins-7B在该基准上的成功率为55.6,GPT-5 + UI-Ins-7B为54.0,Doubao-1.5-UI-TARS为26.3 [11] ClawGUI-Eval:标准化评测套件 - ClawGUI-Eval通过标准化的Infer→Judge→Metric三阶段流水线,系统性地解决了GUI模型评测领域复现一致性差的问题 [12][13] - 该套件覆盖了ScreenSpot-Pro、ScreenSpot-V2等6大主流评测基准,支持Qwen3-VL、Gemini等11个以上模型 [15] - 在48个有官方基准的评测项中,成功复现了46个,总体复现率达到95.8%,其中对Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上的复现率达到100% [15] - 团队总结了关键的复现经验,包括坐标系统必须严格匹配、图文输入顺序对部分模型影响巨大、系统提示词需严格对齐、推理温度建议设为0.0等,这些细节差异可能导致数个百分点甚至灾难性的结果偏差 [16][17][18][19] OpenClaw-GUI:真机部署与控制 - OpenClaw-GUI旨在将GUI智能体部署到真实设备上运行,基于nanobot框架构建,实现了通过自然语言控制真实手机 [21][23] - 它接入了飞书、QQ、Telegram等超过12个聊天平台,用户可通过聊天窗口发送指令,由智能体自动完成截屏、理解、规划和执行操作 [23] - 该平台集成了评测功能,可通过自然语言指令自动完成环境检测、多GPU推理、判分、指标计算和结果对比的全流程 [24] - 其核心能力包括跨平台支持Android、鸿蒙、iOS;支持接入AutoGLM、MAI-UI、Qwen-VL等多种模型;具备个性化记忆和任务执行记录回放功能;并提供了基于Gradio的Web用户界面 [24] GUI智能体的行业前景与挑战 - 行业认为,尽管CLI智能体是当前热点,但GUI智能体远未过时,因为人类在可预见的未来仍将主要通过图形界面与数字世界交互,且大量应用没有提供API [25] - GUI操作的可视化特性提供了一种独特的信任机制,允许用户在关键步骤进行监督和介入,这种可控性是纯CLI方案难以提供的 [25] - GUI智能体的在线强化学习训练仍面临巨大工程挑战,包括需要与真实App交互、应对登录验证和动态UI变化等,大规模训练的稳定性仍是行业难题 [26] - ClawGUI-RL的Spare Server轮转等机制是初步探索,距离大规模生产级训练仍有很长的路要走 [26] 未来路线图 - 团队计划推进OpenClaw-GUI在手机端的直接部署,以避免云端隐私泄露问题 [27] - 计划将在线强化学习训练能力从移动端扩展至桌面和网页环境 [27] - 后续将探索基于OPD算法的实时强化学习 [27]
霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来
机器之心· 2026-02-18 20:51
文章核心观点 - 蚂蚁集团发布了新一代端到端GUI智能体模型UI-Venus-1.5,旨在解决当前GUI智能体面临的三大现实难题,即“知识缺失”、“纸上谈兵”和“多模型协同”障碍 [2][3] - 该模型遵循“高性能,实战派”设计理念,通过一条清晰、系统的训练路径,最终实现用一个统一模型处理定位、移动端和网页端三大场景,并全面支持40余款主流中文App [2][7][32] 技术路径与核心创新 - **中期训练**:为弥补基础大模型在GUI领域的认知短板,公司构建了包含30多个数据源、总计10B tokens的GUI中期训练语料库,系统性地塑造模型的四项核心基础能力 [9][10][12] - **打造领域专家**:在UI-Venus-1.0已达到SOTA水平的基础上,UI-Venus-1.5进一步优化专家模型,专注于精准导航与定位、严谨的顺序推理、GUI-VQA以及敏锐的精细感知能力 [13] - **在线强化学习**:为解决离线训练与在线执行脱节的问题,公司引入在线强化学习,在真实环境中以“任务是否成功”为核心优化目标,直接提升端到端的轨迹级任务成功率,而非仅优化单步动作准确率 [15][19] - **模型融合**:采用“先分后合”策略,先分别训练Grounding、Mobile、Web三个领域的专家模型,再通过TIES-Merging技术将它们融合为一个统一的端到端模型,以降低部署成本并保持各领域性能 [20][21] - **设备即服务**:为支撑大规模在线训练,公司搭建了统一的设备即服务层,实现了千台级异构设备的稳定接入,支持超千并发的在线强化学习任务 [24][25] 性能表现与评测结果 - **定位能力**:在VenusBench-GD、ScreenSpot-Pro、UI-Vision等7个标准基准测试中,UI-Venus-1.5相比1.0版本有显著提升,并全面超越同规模模型 [27][28] - **移动端与网页端**:在AndroidWorld、AndroidLab、VenusBench-Mobile等真实场景的在线评测中,UI-Venus-1.5在多样化任务上取得了全面SOTA的性能 [29][31] - **具体数据**: - **定位基准**:UI-Venus-1.5-8B模型在VenusBench-GD上得分为72.3,在ScreenSpot-Pro上为68.4,在UI-Vision上为46.5 [28] - **移动端任务成功率**:UI-Venus-1.5-8B模型在真实环境中的任务成功率为73.7%,其30B-A3B版本达到77.6% [29] - **网页端任务成功率**:UI-Venus-1.5-8B模型在WebVoyager基准上的成功率为70.8%,其30B-A3B版本为76.0% [30] 产品化与落地应用 - **广泛的应用支持**:模型深度适配40余款主流中文App,覆盖出行、社交、娱乐、购物、生活服务等核心场景,能理解并执行用户复杂的自然语言指令 [32][33] - **实战任务示例**:模型能完成诸如在高德地图叫车、在携程订机票、在微博搜索并评论天气、在网易云音乐播放指定歌曲等一系列真实、复杂的多步骤操作 [33][34][35] - **系统价值**:UI-Venus-1.5的价值在于构建了一个更可训练、可部署、可扩展的端到端系统,标志着向成为真正“可用的智能助手”迈出了关键一步 [34][36]
阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%
量子位· 2025-12-31 08:55
文章核心观点 - 阿里通义实验室发布了名为MAI-UI的GUI智能体系统,该系统通过开源方式提供了从2B到235B的四个尺寸模型,旨在解决当前AI手机智能体落地的核心痛点,并实现了端云协同、主动交互、工具调用等关键能力,在多项基准测试中刷新了性能纪录 [1][3][13][33][34][35][36][37][38][39] 产品发布与核心特性 - 阿里通义实验室发布了MAI-UI系统,包含论文、代码和模型,并开源了从2B(端侧小模型)到235B(云端大模型)的四个尺寸版本,以满足全场景部署需求 [3] - 该系统不仅能执行基础的屏幕点击操作,还能主动追问用户未说清楚的需求,并直接调用外部API以绕过繁琐的界面操作 [4] - 系统设计了一套端云协同机制,将隐私敏感的操作留在本地处理,复杂任务则交由云端大模型处理 [5] 解决的核心痛点与方案 - **痛点一:交互缺失** - 现有系统多为端到端执行,无法处理用户指令不完整的情况(如“帮我订个机票”但未说明目的地、时间等),MAI-UI能够主动追问以澄清需求 [14][15][16] - **痛点二:纯UI操作的局限性** - 完全依赖界面点击容易因步骤出错导致任务失败,且无法完成某些手机界面不支持的功能(如查询GitHub提交记录)[17] - **痛点三:端云割裂** - 现有方案要么是能力有限的端侧模型,要么是存在隐私和成本问题的云端大模型,缺乏原生协作机制 [18] - **痛点四:动态环境下的脆弱性** - 在静态数据上训练的模型难以应对真实世界千变万化的界面布局和弹窗 [19][20] - **解决方案** - MAI-UI通过一条能自动生成用户交互和MCP工具调用数据的自演化数据管线、一套根据任务状态和数据敏感度动态切换端云执行的协同系统,以及一套支持500多个并行环境、最长50步交互的在线强化学习框架来解决上述问题 [21][24][25] 端云协同与隐私保护 - 系统由三部分组成:运行在手机本地的轻量级智能体(负责执行和监控)、云端大容量智能体(处理复杂任务)、本地统一轨迹记忆模块(保证信息一致)[28] - 工作流程中,本地监控模块会定期检查任务轨迹,若发现偏离且不涉及敏感数据,则将任务移交云端处理,并生成错误摘要以帮助云端模型快速恢复 [30] - 相比纯端侧执行,端云协同使2B模型的成功率提升了33%;相比纯云端执行,云端调用次数减少了40%以上,超过40%的任务完全在本地完成 [30] - 系统具备隐私保护机制,当检测到当前界面涉及敏感凭证(如密码输入)时,会阻止任务切换到云端,确保敏感信息不离开本地设备 [31] 性能表现与基准测试 - **GUI元素定位** - MAI-UI-32B在ScreenSpot-Pro基准上达到73.5%的准确率,超过了Gemini-3-Pro的72.7%和Seed1.8的73.1% [33][34] - **UI视觉理解** - MAI-UI-32B在UI-Vision基准上取得49.2%的准确率,比之前最强的UI-Venus-72B(36.8%)高出12.4个百分点 [34][35] - **综合GUI任务** - MAI-UI-32B在MMBench GUI L2基准上达到91.3%的准确率,刷新了纪录 [35][36] - **手机导航任务** - MAI-UI-235B-A22B在AndroidWorld基准上取得76.7%的成功率,超过了UI-Tars-2的73.3%和Gemini-2.5-Pro的69.7% [36][38] - **端侧模型表现** - 最小的MAI-UI-2B模型在AndroidWorld上成功率为49.1%,比之前最强的端侧模型Ferret-UI Lite(28.0%)高出21个百分点,相对提升75.4% [37][38] - **真实场景任务** - 在更接近真实场景的MobileWorld测试集上,MAI-UI-235B-A22B整体成功率为41.7%,比其他端到端模型高出20.8个百分点 [39] - **细分任务能力** - 在MobileWorld测试中,MAI-UI-235B-A22B在需要主动询问用户的任务上成功率为37.5%,在需要调用MCP工具的任务上成功率为51.1%,分别比之前最好的成绩高出32.1和18.7个百分点 [39] 应用案例展示 - **案例一:比较房源距离** - 用户收到两套房源地址,想比较哪套离公司更近并将地址发给朋友。传统方式需在短信和地图APP间反复切换。MAI-UI通过调用高德地图API直接查询驾车距离,一次性获得结构化结果,大幅压缩操作步骤 [7][8] - **案例二:查询GitHub提交记录** - 用户想在手机上查看GitHub仓库最近三次提交的作者和信息并发邮件。通过MCP调用GitHub API,智能体可直接获取结构化数据并切换到邮件APP发送,实现了桌面端工作流向手机的迁移 [9] - **案例三:主动询问需求** - 用户让智能体发送最近一个月的简历文件给HR,但未提供收件人邮箱和邮件正文。智能体检测到信息缺失后主动暂停并询问用户,获得完整信息后再执行任务 [11]
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
机器之心· 2025-09-02 11:44
文章核心观点 - 通义实验室发布全新Mobile-Agent-v3开源解决方案,包含GUI-Owl模型和配套框架,在桌面、移动和Web端实现全链路GUI自动化能力 [1] - GUI-Owl-7B模型在多项基准测试中超越同类开源模型,32B版本性能接近甚至超越GPT-4o和Claude 3.7等顶级闭源模型 [1][21][29] - 通过自我进化数据生产系统和可扩展强化学习体系,实现模型在真实环境中的持续优化和稳定运行 [11][13][23][26] 技术架构创新 - 基于云环境的全链路开源解决方案,支持Android、Ubuntu、macOS、Windows多操作系统云环境基础设施 [11] - 创新性采用自我进化GUI轨迹生产链路系统,自动化生成和筛选训练数据,将人工参与降至最低 [11][13] - 通过轨迹正确性评估模块(Step-Level Critic和Trajectory-Level Critic)实现双重校验机制 [13] - 针对困难任务生成指南生成模块,通过VLM提炼关键动作描述,LLM总结成通关攻略 [14] 性能表现数据 - GUI-Owl-7B在AndroidWorld基准测试中成功率达到59.5%,超越UI-TARS-72B的14.8%和Qwen2.5-VL-72B的52.6% [21] - GUI-Owl-32B在OSWorld-Verified子集测试中达到48.4%成功率,显著超过Seed-1.5-VL的39.7%和Qwen2.5-VL-72B的38.6% [21] - 32B版本在多项评测中展现超越闭源顶级模型的实力 [29] 核心能力构建 - 极致UI元素定位能力:构建复合型Grounding数据集,融合功能、外观、布局等多维信息 [16] - 深度长任务规划与动作语义理解:从历史成功轨迹中蒸馏经验,并从Qwen3-235B等大模型中学习通用规划知识 [19] - 强大稳健推理与泛化适配能力:从Mobile-Agent-v3多智能体框架中蒸馏推理数据,学会多角色视角思考 [20] - 采用SAM对PC界面进行子区域分割,MLLM进行精细定位,解决元素密集界面定位难题 [16] 强化学习体系 - 设计可扩展的环境级强化学习体系,采用统一任务插件接口支持长短任务 [23] - 引入Trajectory-aware Relative Policy Optimization算法,解决奖励信号稀疏和延迟问题 [26] - 采用Replay Buffer机制缓存成功案例,确保模型始终获得正向反馈 [26] - 经验生成与策略更新完全解耦,优化训练效率与成本平衡 [23] 应用价值 - 单一模型即可胜任复杂单体任务与多智能体协作中的不同角色,显著降低部署和资源开销 [29] - 天然具备跨环境、跨角色泛化能力,即插即用到第三方Agent框架仍保持优异性能 [20] - 通过云端沙箱灵活性,能够快速适应并解决各类新场景下的自动化难题 [29]