教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决

文章核心观点 - ZJU-REAL团队推出了名为ClawGUI的开源框架，该框架首次实现了GUI智能体从在线强化学习训练、标准化评测到真机部署的端到端完整生命周期闭环，旨在解决该领域长期存在的训练、评测、部署环节割裂的挑战 [2] - 基于该框架训练的ClawGUI-2B小模型在MobileWorld基准上取得了17.1的成功率，显著超越基线模型MAI-UI-2B的11.1，提升幅度达6%，且性能接近参数量更大的8B模型水平 [3][11] - 文章认为，尽管CLI智能体近期备受关注，但GUI智能体因其与人类主要交互方式（图形界面）的天然契合、对无API应用的支持以及操作过程的可视化与可控性，仍具有不可替代的价值，CLI与GUI的融合可能是通往通用智能体的重要路径 [25] ClawGUI框架概述 - ClawGUI是一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架，由ClawGUI-RL、ClawGUI-Eval和OpenClaw-GUI三个打通的部分组成，形成一条端到端的验证流水线 [2] - 该框架旨在解决GUI智能体研究领域长期存在的结构性挑战：训练、评测、部署三个环节彼此割裂，难以形成闭环，导致整体推进成本极高 [2] ClawGUI-RL：在线强化学习训练模块 - ClawGUI-RL是一个经过端到端验证的GUI智能体在线强化学习解决方案，将训练基础设施拆解为环境管理、奖励设计、策略优化三层 [5][6] - 在环境层面，它将所有设备后端统一抽象为同一套接口，支持Docker虚拟机和物理手机，并采用Spare Server轮转和周期性重启机制保证长时间训练的稳定性 [6][8] - 在奖励层面，它创新性地采用了二元结果奖励与过程奖励模型相结合的双层设计，为每一步操作提供稠密的逐步反馈，有效缓解了GUI长序列决策中的奖励稀疏问题 [6][9] - 在策略优化层面，它支持GRPO、GiGPO等主流强化学习算法，并提供统一训练接口 [6] ClawGUI-2B模型性能表现 - 以MAI-UI-2B为基座，使用ClawGUI-RL训练得到的ClawGUI-2B模型，在MobileWorld基准上取得了17.1的成功率 [10][11] - 该成绩大幅超越了基线模型MAI-UI-2B的11.1，提升幅度达6%，并且达到了接近MAI-UI-8B模型19.7的水平 [11] - 作为对比，其他先进模型如Gemini-3-Pro + UI-Ins-7B在该基准上的成功率为55.6，GPT-5 + UI-Ins-7B为54.0，Doubao-1.5-UI-TARS为26.3 [11] ClawGUI-Eval：标准化评测套件 - ClawGUI-Eval通过标准化的Infer→Judge→Metric三阶段流水线，系统性地解决了GUI模型评测领域复现一致性差的问题 [12][13] - 该套件覆盖了ScreenSpot-Pro、ScreenSpot-V2等6大主流评测基准，支持Qwen3-VL、Gemini等11个以上模型 [15] - 在48个有官方基准的评测项中，成功复现了46个，总体复现率达到95.8%，其中对Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上的复现率达到100% [15] - 团队总结了关键的复现经验，包括坐标系统必须严格匹配、图文输入顺序对部分模型影响巨大、系统提示词需严格对齐、推理温度建议设为0.0等，这些细节差异可能导致数个百分点甚至灾难性的结果偏差 [16][17][18][19] OpenClaw-GUI：真机部署与控制 - OpenClaw-GUI旨在将GUI智能体部署到真实设备上运行，基于nanobot框架构建，实现了通过自然语言控制真实手机 [21][23] - 它接入了飞书、QQ、Telegram等超过12个聊天平台，用户可通过聊天窗口发送指令，由智能体自动完成截屏、理解、规划和执行操作 [23] - 该平台集成了评测功能，可通过自然语言指令自动完成环境检测、多GPU推理、判分、指标计算和结果对比的全流程 [24] - 其核心能力包括跨平台支持Android、鸿蒙、iOS；支持接入AutoGLM、MAI-UI、Qwen-VL等多种模型；具备个性化记忆和任务执行记录回放功能；并提供了基于Gradio的Web用户界面 [24] GUI智能体的行业前景与挑战 - 行业认为，尽管CLI智能体是当前热点，但GUI智能体远未过时，因为人类在可预见的未来仍将主要通过图形界面与数字世界交互，且大量应用没有提供API [25] - GUI操作的可视化特性提供了一种独特的信任机制，允许用户在关键步骤进行监督和介入，这种可控性是纯CLI方案难以提供的 [25] - GUI智能体的在线强化学习训练仍面临巨大工程挑战，包括需要与真实App交互、应对登录验证和动态UI变化等，大规模训练的稳定性仍是行业难题 [26] - ClawGUI-RL的Spare Server轮转等机制是初步探索，距离大规模生产级训练仍有很长的路要走 [26] 未来路线图 - 团队计划推进OpenClaw-GUI在手机端的直接部署，以避免云端隐私泄露问题 [27] - 计划将在线强化学习训练能力从移动端扩展至桌面和网页环境 [27] - 后续将探索基于OPD算法的实时强化学习 [27]