阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%

文章核心观点 - 阿里通义实验室发布了名为MAI-UI的GUI智能体系统,该系统通过开源方式提供了从2B到235B的四个尺寸模型,旨在解决当前AI手机智能体落地的核心痛点,并实现了端云协同、主动交互、工具调用等关键能力,在多项基准测试中刷新了性能纪录 [1][3][13][33][34][35][36][37][38][39] 产品发布与核心特性 - 阿里通义实验室发布了MAI-UI系统,包含论文、代码和模型,并开源了从2B(端侧小模型)到235B(云端大模型)的四个尺寸版本,以满足全场景部署需求 [3] - 该系统不仅能执行基础的屏幕点击操作,还能主动追问用户未说清楚的需求,并直接调用外部API以绕过繁琐的界面操作 [4] - 系统设计了一套端云协同机制,将隐私敏感的操作留在本地处理,复杂任务则交由云端大模型处理 [5] 解决的核心痛点与方案 - 痛点一:交互缺失 - 现有系统多为端到端执行,无法处理用户指令不完整的情况(如“帮我订个机票”但未说明目的地、时间等),MAI-UI能够主动追问以澄清需求 [14][15][16] - 痛点二:纯UI操作的局限性 - 完全依赖界面点击容易因步骤出错导致任务失败,且无法完成某些手机界面不支持的功能(如查询GitHub提交记录)[17] - 痛点三:端云割裂 - 现有方案要么是能力有限的端侧模型,要么是存在隐私和成本问题的云端大模型,缺乏原生协作机制 [18] - 痛点四:动态环境下的脆弱性 - 在静态数据上训练的模型难以应对真实世界千变万化的界面布局和弹窗 [19][20] - 解决方案 - MAI-UI通过一条能自动生成用户交互和MCP工具调用数据的自演化数据管线、一套根据任务状态和数据敏感度动态切换端云执行的协同系统,以及一套支持500多个并行环境、最长50步交互的在线强化学习框架来解决上述问题 [21][24][25] 端云协同与隐私保护 - 系统由三部分组成:运行在手机本地的轻量级智能体(负责执行和监控)、云端大容量智能体(处理复杂任务)、本地统一轨迹记忆模块(保证信息一致)[28] - 工作流程中,本地监控模块会定期检查任务轨迹,若发现偏离且不涉及敏感数据,则将任务移交云端处理,并生成错误摘要以帮助云端模型快速恢复 [30] - 相比纯端侧执行,端云协同使2B模型的成功率提升了33%;相比纯云端执行,云端调用次数减少了40%以上,超过40%的任务完全在本地完成 [30] - 系统具备隐私保护机制,当检测到当前界面涉及敏感凭证(如密码输入)时,会阻止任务切换到云端,确保敏感信息不离开本地设备 [31] 性能表现与基准测试 - GUI元素定位 - MAI-UI-32B在ScreenSpot-Pro基准上达到73.5%的准确率,超过了Gemini-3-Pro的72.7%和Seed1.8的73.1% [33][34] - UI视觉理解 - MAI-UI-32B在UI-Vision基准上取得49.2%的准确率,比之前最强的UI-Venus-72B(36.8%)高出12.4个百分点 [34][35] - 综合GUI任务 - MAI-UI-32B在MMBench GUI L2基准上达到91.3%的准确率,刷新了纪录 [35][36] - 手机导航任务 - MAI-UI-235B-A22B在AndroidWorld基准上取得76.7%的成功率,超过了UI-Tars-2的73.3%和Gemini-2.5-Pro的69.7% [36][38] - 端侧模型表现 - 最小的MAI-UI-2B模型在AndroidWorld上成功率为49.1%,比之前最强的端侧模型Ferret-UI Lite(28.0%)高出21个百分点,相对提升75.4% [37][38] - 真实场景任务 - 在更接近真实场景的MobileWorld测试集上,MAI-UI-235B-A22B整体成功率为41.7%,比其他端到端模型高出20.8个百分点 [39] - 细分任务能力 - 在MobileWorld测试中,MAI-UI-235B-A22B在需要主动询问用户的任务上成功率为37.5%,在需要调用MCP工具的任务上成功率为51.1%,分别比之前最好的成绩高出32.1和18.7个百分点 [39] 应用案例展示 - 案例一:比较房源距离 - 用户收到两套房源地址,想比较哪套离公司更近并将地址发给朋友。传统方式需在短信和地图APP间反复切换。MAI-UI通过调用高德地图API直接查询驾车距离,一次性获得结构化结果,大幅压缩操作步骤 [7][8] - 案例二:查询GitHub提交记录 - 用户想在手机上查看GitHub仓库最近三次提交的作者和信息并发邮件。通过MCP调用GitHub API,智能体可直接获取结构化数据并切换到邮件APP发送,实现了桌面端工作流向手机的迁移 [9] - 案例三:主动询问需求 - 用户让智能体发送最近一个月的简历文件给HR,但未提供收件人邮箱和邮件正文。智能体检测到信息缺失后主动暂停并询问用户,获得完整信息后再执行任务 [11]

阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33% - Reportify