行业趋势与市场格局 - 智能体行业的叙事焦点正从通用智能体转向更具体的端侧智能体,即部署在手机、电脑、汽车等个人设备上,能操作本地环境和工具的智能体 [1] - 行业共识认为,未来智能体的壁垒在于能打通多少个人设备、互联多少服务,其目标是成为新的能力层,重组用户与设备、App的连接方式,改变行业生态格局 [2] - 端侧智能体正从云端落入个人终端,国内手机厂商已完成一轮市场铺陈,根据Quest Mobile在2025年9月的测算,国内六家手机厂商的智能体用户规模在一年内合计增长6500万,整体用户规模达到5.35亿 [3] - 在手机厂商中,OPPO、vivo、荣耀是积极发力者,2025年6月,OPPO小布助手月活用户达1.6亿,vivo蓝心小v为5500万,荣耀YOYO助理为4200万,三者跻身上半年增速最快的AI应用行列 [3] - “AI即操作系统”是主流手机厂商的战略想法,例如vivo基于蓝心大模型重构OriginOS 5,OPPO提出AI OS战略并为智能体配置独立物理唤醒键 [5] 产品性能与技术现状 - 手机智能体的实际体验与宣传存在落差,在一项针对7款手机智能体的总计70次任务的新一轮测试中,整体成功率仅有两成,39%的任务启动后中断,24%直接失败降级为信息问答 [5] - 手机智能体的“接管能力”甚至出现退化,例如在点外卖任务中,多数智能体只能完成打开App的第一步,无法进行后续搜索、筛选和下单操作 [7] - 任务规划和App版本更新是当前主要技术短板,智能体常将用户指令原封不动复制进搜索框,而非进行逻辑分解;同时难以适应App名称变更等更新 [7] - 根据专家划分,手机智能体能力分为三档:基础能力(识别屏幕、调节系统设置)已普及;进阶能力各有所长;真正拉开差距的是深度操作App的高阶能力,目前仅豆包手机助手在此类跨App任务中成功率较高 [8] - 目前手机智能体整体仍停留在L1到L2阶段,只能在有限场景和App中进行演示,豆包手机助手被视为“智能体第一次真正产品化”,但如同第一辆在园区内测试的全自动驾驶汽车,尚未能开上公共道路 [8] - 除了操作App,记忆功能是另一条被押注的方向,豆包、vivo、OPPO已上线“闪记”类功能,目标是让AI理解模糊指令,更加“个人化”,厂商预计未来1~2年内用户体验将有巨大变化 [9] 技术路径与模型能力 - 几乎所有手机智能体都采用GUI Agent(视觉路线) 为底层模型,其工作流程为理解、感知、执行三步 [9] - 豆包手机助手采用未公开的闭源版模型,其技术基础可追溯至字节与清华大学联合推出的开源UI-TARS原生智能体,后续版本强调需通过SDK接入外部系统以突破纯GUI操作的局限 [10] - 国内不少手机智能体的基模来自阿里通义实验室的Qwen系列,该实验室后续发布了专用于GUI自动化任务的GUI-Owl模型和集成多种能力的MAI-UI模型 [10] - 在Android World基准测试(覆盖20个安卓应用、116项任务)中,字节得分73.7分,阿里得分76.7分,智谱、阶跃星辰和OPPO的自评分数在70到80分之间,但仍未稳定达到人类平均水准(80分),该榜单最高分为一家美国硅谷初创公司获得的97.4分 [11] - 智谱开源的AutoGLM据披露在常见国内App中的任务成功率可达89.7% [14] - 学术指标与产业目标存在差距,许多落地障碍是工程问题,如多轮对话中的信息补充、上下文记忆、以及真实场景中不可预测的干扰(如广告弹窗) [15] 系统权限与安全风险 - 手机智能体需要极高系统权限,测评发现几乎所有预装智能体的权限总量都超过100个,远超微信等超级App [17] - 其中,高敏感权限平均占比接近40%,包括获取精确定位、读取短信与录音、静默安装应用等,而普通App的高敏感权限占比通常控制在30%以下 [17] - 智能体通过读屏与自动操作两项核心能力接管手机,实现技术路径存在差异:为读屏,荣耀、小米、vivo主要用无障碍权限;豆包和OPPO则利用更底层的系统服务(如WindowManagerService),后者能直接获取像素级屏幕内容并截屏Secure安全窗口 [20] - 在自动操作层面,豆包和荣耀申请了inject_events权限,该权限相当于设备的完全控制权,能力远超无障碍权限,且只对厂商级预装应用开放 [21][22] - 高权限带来巨大安全风险,智能体在截屏、分析、数据上云过程中不可避免接触敏感信息,隐私暴露风险客观存在,同时存在误操作风险 [23] - 数据上云是核心争议环节,测试显示除了系统原生功能外,大多数任务都会触发云端传输,且黑盒测试表明敏感信息(如未脱敏的身份证号)大概率被上传至云端处理 [27][28] - 现有GUI Agent的隐私识别能力很弱,一篇论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息,离合格的数据保护还很远 [28] 商业博弈与生态冲突 - 豆包手机助手发售次日,即遭遇微信强制下线用户账号,随后阿里系、美团系等App集体“限制”了豆包操作,导致来自努比亚设备的账号无法正常登录,核心卖点塌缩 [29] - App厂商的防御动机包括可能影响平台安全运行,以及担忧智能体完全替代真人操作会冲击活跃度、使用时长、广告曝光等核心商业指标,长期可能导致App被管道化(OTT化) [30] - 第三方智能体(如豆包、智谱、阶跃星辰)要上路,必须与手机厂商谈拢系统权限,字节跳动曾向手机厂商提出以免除托管费、承担Token成本等条件换取入口和流量,但除中兴外未打动其他厂商 [31] - 手机厂商拒绝的深层原因在于,字节的方案不符合其自身AI战略,主流厂商都有自己的AI团队,不愿让渡系统AI助手这一核心入口,且将产品稳定性置于AI创新之上 [32] - 行业正在探索“双轨并行”的落地路线:高频、标准化场景通过A2A等合作协议完成;非标准化的长尾场景再用GUI Agent的视觉识别路线 [33] - 部分App与字节跳动已达成停火协议,例如阿里系App允许努比亚设备正常登录,而豆包主动限制AI操作相关App,双方回到“井水不犯河水”状态 [35] - 腾讯系仍是坚定的防守阵营,对接入Agent尤其谨慎;而阿里系因自身推进智能体战略,可能更愿意探索合作 [35] 合规框架与未来挑战 - 围绕平台边界的争议,合规从业者认为应以“互操作性”为概念锚点,让各方在同一法律框架下对话 [36] - 欧盟已针对谷歌启动互操作性程序,要求其履行DMA义务,向第三方AI提供与Gemini同等的系统访问权,并为第三方搜索引擎提供FRAND(公平、合理和非歧视)条款 [37] - 一种理想化的参考方案是苹果的生态模式,通过App Intents框架,Siri只调度开发者授权的功能接口,并通过“阅后即焚”的私有云处理保护数据,但这建立在自研芯片和绝对生态霸主基础上,难以复制 [38] - 端侧智能体落地面临硬件工程挑战,复杂AI模型在手机上运行会导致能力降低、耗电快、发热、内存不足等问题 [39] - 当前矛盾在于,似乎没有一家公司同时具备硬件供应链、隐私技术与生态号召力,去引领安全方案与商业步伐 [39]
万字详解智能体2.0:手机里的“互联互通”新战场