行业趋势与竞争格局 - 移动智能技术迭代推动手机端AI"超级入口"成为行业竞争新焦点,GUI Agent技术具备重塑流量分发格局的潜力,催生千亿级市场机遇[1] - 苹果、华为、字节跳动、美团、智谱AI等多家企业已积极布局该赛道,行业进入快速发展阶段[1] - 美团于2025年9月14日率先推出首个AI Agent,支持平台内"一句话点餐",标志着技术从研发走向实用化[1] 中兴通讯技术表现与商业化进展 - 在2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,中兴通讯Nebula-GUI模型以7B参数量获得总榜银牌,总分84.38分,UI元素定位得分93.17分[1][2] - 该模型在自动点餐、订票等复杂任务中,准确率与操作速度远超业界其他模型,具备手机端侧部署落地能力[1] - Nebula-GUI的"一句话订票"、"一句话拍照"功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用[3] - 截至当前,该模型已覆盖30余款主流APP,常用场景平均准确率超90%,未来计划进一步覆盖手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级服务[3] 核心技术优势:数据制备系统 - 中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统,显著提升数据标注效率与质量[8] - 基于该系统生成的数据占训练数据的90%,整体覆盖出行、社交、生活服务等多元场景下的主流APP[8] - 通过引入GUI数据标注工具,数据标注效率实现了3倍提升,解决了中文GUI数据稀缺(公开英文数据集达百万级,中文数据仅数千组)、标注粒度粗、跨APP操作复杂任务轨迹数据不足等行业难题[9][12] 模型训练与优化方法论 - 公司通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,使通用多模态模型进化为具备"感知-理解-执行-规划-纠错"能力的GUI操作智能体[22] - 自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,同时整合了数百万条以英文为主的GUI样本,显著提升模型基础感知与语义理解能力[25][26] - 通过大量指令数据和精确思维链引导,模型单步操作平均准确率超过95%,部分简单指令操作达到99%准确率[31] - 引入双层强化学习范式,通过离线步骤级连续奖励与在线任务级强化的协同训练,设计了基于目标控件边界框的自适应空间感知连续奖励函数、基于概率模型的推理质量评估奖励及逻辑一致性奖励,提升模型决策效率与泛化能力[43][46][48]
聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?