教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决
量子位·2026-04-19 09:09

文章核心观点 - ZJU-REAL团队推出了名为ClawGUI的开源框架,该框架首次实现了GUI智能体从在线强化学习训练、标准化评测到真机部署的端到端完整生命周期闭环,旨在解决该领域长期存在的训练、评测、部署环节割裂的挑战 [2] - 基于该框架训练的ClawGUI-2B小模型在MobileWorld基准上取得了17.1的成功率,显著超越基线模型MAI-UI-2B的11.1,提升幅度达6%,且性能接近参数量更大的8B模型水平 [3][11] - 文章认为,尽管CLI智能体近期备受关注,但GUI智能体因其与人类主要交互方式(图形界面)的天然契合、对无API应用的支持以及操作过程的可视化与可控性,仍具有不可替代的价值,CLI与GUI的融合可能是通往通用智能体的重要路径 [25] ClawGUI框架概述 - ClawGUI是一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架,由ClawGUI-RL、ClawGUI-Eval和OpenClaw-GUI三个打通的部分组成,形成一条端到端的验证流水线 [2] - 该框架旨在解决GUI智能体研究领域长期存在的结构性挑战:训练、评测、部署三个环节彼此割裂,难以形成闭环,导致整体推进成本极高 [2] ClawGUI-RL:在线强化学习训练模块 - ClawGUI-RL是一个经过端到端验证的GUI智能体在线强化学习解决方案,将训练基础设施拆解为环境管理、奖励设计、策略优化三层 [5][6] - 在环境层面,它将所有设备后端统一抽象为同一套接口,支持Docker虚拟机和物理手机,并采用Spare Server轮转和周期性重启机制保证长时间训练的稳定性 [6][8] - 在奖励层面,它创新性地采用了二元结果奖励与过程奖励模型相结合的双层设计,为每一步操作提供稠密的逐步反馈,有效缓解了GUI长序列决策中的奖励稀疏问题 [6][9] - 在策略优化层面,它支持GRPO、GiGPO等主流强化学习算法,并提供统一训练接口 [6] ClawGUI-2B模型性能表现 - 以MAI-UI-2B为基座,使用ClawGUI-RL训练得到的ClawGUI-2B模型,在MobileWorld基准上取得了17.1的成功率 [10][11] - 该成绩大幅超越了基线模型MAI-UI-2B的11.1,提升幅度达6%,并且达到了接近MAI-UI-8B模型19.7的水平 [11] - 作为对比,其他先进模型如Gemini-3-Pro + UI-Ins-7B在该基准上的成功率为55.6,GPT-5 + UI-Ins-7B为54.0,Doubao-1.5-UI-TARS为26.3 [11] ClawGUI-Eval:标准化评测套件 - ClawGUI-Eval通过标准化的Infer→Judge→Metric三阶段流水线,系统性地解决了GUI模型评测领域复现一致性差的问题 [12][13] - 该套件覆盖了ScreenSpot-Pro、ScreenSpot-V2等6大主流评测基准,支持Qwen3-VL、Gemini等11个以上模型 [15] - 在48个有官方基准的评测项中,成功复现了46个,总体复现率达到95.8%,其中对Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上的复现率达到100% [15] - 团队总结了关键的复现经验,包括坐标系统必须严格匹配、图文输入顺序对部分模型影响巨大、系统提示词需严格对齐、推理温度建议设为0.0等,这些细节差异可能导致数个百分点甚至灾难性的结果偏差 [16][17][18][19] OpenClaw-GUI:真机部署与控制 - OpenClaw-GUI旨在将GUI智能体部署到真实设备上运行,基于nanobot框架构建,实现了通过自然语言控制真实手机 [21][23] - 它接入了飞书、QQ、Telegram等超过12个聊天平台,用户可通过聊天窗口发送指令,由智能体自动完成截屏、理解、规划和执行操作 [23] - 该平台集成了评测功能,可通过自然语言指令自动完成环境检测、多GPU推理、判分、指标计算和结果对比的全流程 [24] - 其核心能力包括跨平台支持Android、鸿蒙、iOS;支持接入AutoGLM、MAI-UI、Qwen-VL等多种模型;具备个性化记忆和任务执行记录回放功能;并提供了基于Gradio的Web用户界面 [24] GUI智能体的行业前景与挑战 - 行业认为,尽管CLI智能体是当前热点,但GUI智能体远未过时,因为人类在可预见的未来仍将主要通过图形界面与数字世界交互,且大量应用没有提供API [25] - GUI操作的可视化特性提供了一种独特的信任机制,允许用户在关键步骤进行监督和介入,这种可控性是纯CLI方案难以提供的 [25] - GUI智能体的在线强化学习训练仍面临巨大工程挑战,包括需要与真实App交互、应对登录验证和动态UI变化等,大规模训练的稳定性仍是行业难题 [26] - ClawGUI-RL的Spare Server轮转等机制是初步探索,距离大规模生产级训练仍有很长的路要走 [26] 未来路线图 - 团队计划推进OpenClaw-GUI在手机端的直接部署,以避免云端隐私泄露问题 [27] - 计划将在线强化学习训练能力从移动端扩展至桌面和网页环境 [27] - 后续将探索基于OPD算法的实时强化学习 [27]

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决 - Reportify