告别GUI Agent工程基建噩梦：阶跃开源4B Agent模型，跑通所有安卓设备，手搓党一键部署

公司核心产品发布 - 阶跃星辰开源了名为GELab-Zero的GUI Agent模型及其完整配套基础设施，支持一键部署[1] - 该产品包含三个主要部分：一个能在本地运行的GUI Agent模型（GELab-Zero-4B-preview）、一套即插即用的完整推理工程基建、以及基于真实业务场景的自建评测标准AndroidDaily[14] 模型性能与优势 - 其4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录，取得SOTA成绩[2] - 该4B预览版模型在多项开源基准测试中超越其他主流模型，拿下同尺寸SOTA，其表现甚至超越了参数量更大的GUI-Owl-32B等模型，性能更优且更易部署[11][13] - GUI Agent基于视觉理解即可适配几乎所有App，无需厂商额外改造，接入成本极低[4] 产品能力与场景应用 - 模型能够很好地执行复杂任务和模糊指令，可以准确、流畅地执行涉及多步骤、多主体、重复操作的任务，也能对偏笼统和主观性的指令进行自主拆解并确定执行路径[24] - 示例场景显示，模型能在外卖平台完成同时采购跨品类、不同规格和数量商品的复杂任务，也能在企业福利APP中领取餐券，展示了其在国民级APP和小众平台上的任务泛化能力[17][18][19] - 对于模糊指令，如“找个周末能带孩子去玩的地方”，模型能自主搜索、判断衡量标准并为用户推荐地点及提炼亮点[22][23][24] 技术架构与基础设施 - 针对GUI智能体构建了一整套完整的技术架构体系，可以一键拉起获得类似开源GUI Agent MCP的体验[25] - 具体能力包括：支持4B模型在消费级硬件上运行的轻量级本地推理、提供统一部署流水线的一键任务启动、可分发到多台手机并记录交互轨迹的多设备任务分发、以及涵盖ReAct闭环、多智能体协作和定时任务等多种工作模式[26] - 这套基础设施旨在降低开发与使用门槛，让开发者专注于创造价值，而非重复搭建底层设施，以推动移动端Agent真正规模化[7][30] 评测基准创新 - 公司同步开源了基于真实业务场景的自建评测标准AndroidDaily，以期推动GUI领域模型评测向消费级、规模化应用发展[5] - AndroidDaily是一个面向真实世界、动态演进的多维基准体系，聚焦现代生活六大核心维度：饮食、出行、购物、居住、信息消费、娱乐，并优先选择高频使用、日活排名靠前的代表性主流应用进行测试，高度还原真实任务执行流程[33] - 该基准采用静态评测和端到端评测双轨评估体系，其中静态测试包含3146个actions评估数值准确率，端到端测试包含235个任务以整体任务成功率作为评价指标，能真实反映智能体在复杂环境中的综合能力[35][37][38]