公司核心产品发布 - 阶跃星辰开源了名为GELab-Zero的GUI Agent模型及其完整配套基础设施,支持一键部署[1] - 该产品包含三个主要部分:一个能在本地运行的GUI Agent模型(GELab-Zero-4B-preview)、一套即插即用的完整推理工程基建、以及基于真实业务场景的自建评测标准AndroidDaily[14] 模型性能与优势 - 其4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩[2] - 该4B预览版模型在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA,其表现甚至超越了参数量更大的GUI-Owl-32B等模型,性能更优且更易部署[11][13] - GUI Agent基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低[4] 产品能力与场景应用 - 模型能够很好地执行复杂任务和模糊指令,可以准确、流畅地执行涉及多步骤、多主体、重复操作的任务,也能对偏笼统和主观性的指令进行自主拆解并确定执行路径[24] - 示例场景显示,模型能在外卖平台完成同时采购跨品类、不同规格和数量商品的复杂任务,也能在企业福利APP中领取餐券,展示了其在国民级APP和小众平台上的任务泛化能力[17][18][19] - 对于模糊指令,如“找个周末能带孩子去玩的地方”,模型能自主搜索、判断衡量标准并为用户推荐地点及提炼亮点[22][23][24] 技术架构与基础设施 - 针对GUI智能体构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验[25] - 具体能力包括:支持4B模型在消费级硬件上运行的轻量级本地推理、提供统一部署流水线的一键任务启动、可分发到多台手机并记录交互轨迹的多设备任务分发、以及涵盖ReAct闭环、多智能体协作和定时任务等多种工作模式[26] - 这套基础设施旨在降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施,以推动移动端Agent真正规模化[7][30] 评测基准创新 - 公司同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展[5] - AndroidDaily是一个面向真实世界、动态演进的多维基准体系,聚焦现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择高频使用、日活排名靠前的代表性主流应用进行测试,高度还原真实任务执行流程[33] - 该基准采用静态评测和端到端评测双轨评估体系,其中静态测试包含3146个actions评估数值准确率,端到端测试包含235个任务以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力[35][37][38]
告别GUI Agent工程基建噩梦:阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
量子位·2025-11-30 14:45