万字详解智能体2.0：手机里的“互联互通”新战场

行业趋势与市场格局 - 智能体行业的叙事焦点正从通用智能体转向更具体的端侧智能体，即部署在手机、电脑、汽车等个人设备上，能操作本地环境和工具的智能体 [1] - 行业共识认为，未来智能体的壁垒在于能打通多少个人设备、互联多少服务，其目标是成为新的能力层，重组用户与设备、App的连接方式，改变行业生态格局 [2] - 端侧智能体正从云端落入个人终端，国内手机厂商已完成一轮市场铺陈，根据Quest Mobile在2025年9月的测算，国内六家手机厂商的智能体用户规模在一年内合计增长6500万，整体用户规模达到5.35亿 [3] - 在手机厂商中，OPPO、vivo、荣耀是积极发力者，2025年6月，OPPO小布助手月活用户达1.6亿，vivo蓝心小v为5500万，荣耀YOYO助理为4200万，三者跻身上半年增速最快的AI应用行列 [3] - “AI即操作系统”是主流手机厂商的战略想法，例如vivo基于蓝心大模型重构OriginOS 5，OPPO提出AI OS战略并为智能体配置独立物理唤醒键 [5] 产品性能与技术现状 - 手机智能体的实际体验与宣传存在落差，在一项针对7款手机智能体的总计70次任务的新一轮测试中，整体成功率仅有两成，39%的任务启动后中断，24%直接失败降级为信息问答 [5] - 手机智能体的“接管能力”甚至出现退化，例如在点外卖任务中，多数智能体只能完成打开App的第一步，无法进行后续搜索、筛选和下单操作 [7] - 任务规划和App版本更新是当前主要技术短板，智能体常将用户指令原封不动复制进搜索框，而非进行逻辑分解；同时难以适应App名称变更等更新 [7] - 根据专家划分，手机智能体能力分为三档：基础能力（识别屏幕、调节系统设置）已普及；进阶能力各有所长；真正拉开差距的是深度操作App的高阶能力，目前仅豆包手机助手在此类跨App任务中成功率较高 [8] - 目前手机智能体整体仍停留在L1到L2阶段，只能在有限场景和App中进行演示，豆包手机助手被视为“智能体第一次真正产品化”，但如同第一辆在园区内测试的全自动驾驶汽车，尚未能开上公共道路 [8] - 除了操作App，记忆功能是另一条被押注的方向，豆包、vivo、OPPO已上线“闪记”类功能，目标是让AI理解模糊指令，更加“个人化”，厂商预计未来1～2年内用户体验将有巨大变化 [9] 技术路径与模型能力 - 几乎所有手机智能体都采用GUI Agent（视觉路线） 为底层模型，其工作流程为理解、感知、执行三步 [9] - 豆包手机助手采用未公开的闭源版模型，其技术基础可追溯至字节与清华大学联合推出的开源UI-TARS原生智能体，后续版本强调需通过SDK接入外部系统以突破纯GUI操作的局限 [10] - 国内不少手机智能体的基模来自阿里通义实验室的Qwen系列，该实验室后续发布了专用于GUI自动化任务的GUI-Owl模型和集成多种能力的MAI-UI模型 [10] - 在Android World基准测试（覆盖20个安卓应用、116项任务）中，字节得分73.7分，阿里得分76.7分，智谱、阶跃星辰和OPPO的自评分数在70到80分之间，但仍未稳定达到人类平均水准（80分），该榜单最高分为一家美国硅谷初创公司获得的97.4分 [11] - 智谱开源的AutoGLM据披露在常见国内App中的任务成功率可达89.7% [14] - 学术指标与产业目标存在差距，许多落地障碍是工程问题，如多轮对话中的信息补充、上下文记忆、以及真实场景中不可预测的干扰（如广告弹窗） [15] 系统权限与安全风险 - 手机智能体需要极高系统权限，测评发现几乎所有预装智能体的权限总量都超过100个，远超微信等超级App [17] - 其中，高敏感权限平均占比接近40%，包括获取精确定位、读取短信与录音、静默安装应用等，而普通App的高敏感权限占比通常控制在30%以下 [17] - 智能体通过读屏与自动操作两项核心能力接管手机，实现技术路径存在差异：为读屏，荣耀、小米、vivo主要用无障碍权限；豆包和OPPO则利用更底层的系统服务（如WindowManagerService），后者能直接获取像素级屏幕内容并截屏Secure安全窗口 [20] - 在自动操作层面，豆包和荣耀申请了inject_events权限，该权限相当于设备的完全控制权，能力远超无障碍权限，且只对厂商级预装应用开放 [21][22] - 高权限带来巨大安全风险，智能体在截屏、分析、数据上云过程中不可避免接触敏感信息，隐私暴露风险客观存在，同时存在误操作风险 [23] - 数据上云是核心争议环节，测试显示除了系统原生功能外，大多数任务都会触发云端传输，且黑盒测试表明敏感信息（如未脱敏的身份证号）大概率被上传至云端处理 [27][28] - 现有GUI Agent的隐私识别能力很弱，一篇论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息，离合格的数据保护还很远 [28] 商业博弈与生态冲突 - 豆包手机助手发售次日，即遭遇微信强制下线用户账号，随后阿里系、美团系等App集体“限制”了豆包操作，导致来自努比亚设备的账号无法正常登录，核心卖点塌缩 [29] - App厂商的防御动机包括可能影响平台安全运行，以及担忧智能体完全替代真人操作会冲击活跃度、使用时长、广告曝光等核心商业指标，长期可能导致App被管道化（OTT化） [30] - 第三方智能体（如豆包、智谱、阶跃星辰）要上路，必须与手机厂商谈拢系统权限，字节跳动曾向手机厂商提出以免除托管费、承担Token成本等条件换取入口和流量，但除中兴外未打动其他厂商 [31] - 手机厂商拒绝的深层原因在于，字节的方案不符合其自身AI战略，主流厂商都有自己的AI团队，不愿让渡系统AI助手这一核心入口，且将产品稳定性置于AI创新之上 [32] - 行业正在探索“双轨并行”的落地路线：高频、标准化场景通过A2A等合作协议完成；非标准化的长尾场景再用GUI Agent的视觉识别路线 [33] - 部分App与字节跳动已达成停火协议，例如阿里系App允许努比亚设备正常登录，而豆包主动限制AI操作相关App，双方回到“井水不犯河水”状态 [35] - 腾讯系仍是坚定的防守阵营，对接入Agent尤其谨慎；而阿里系因自身推进智能体战略，可能更愿意探索合作 [35] 合规框架与未来挑战 - 围绕平台边界的争议，合规从业者认为应以“互操作性”为概念锚点，让各方在同一法律框架下对话 [36] - 欧盟已针对谷歌启动互操作性程序，要求其履行DMA义务，向第三方AI提供与Gemini同等的系统访问权，并为第三方搜索引擎提供FRAND（公平、合理和非歧视）条款 [37] - 一种理想化的参考方案是苹果的生态模式，通过App Intents框架，Siri只调度开发者授权的功能接口，并通过“阅后即焚”的私有云处理保护数据，但这建立在自研芯片和绝对生态霸主基础上，难以复制 [38] - 端侧智能体落地面临硬件工程挑战，复杂AI模型在手机上运行会导致能力降低、耗电快、发热、内存不足等问题 [39] - 当前矛盾在于，似乎没有一家公司同时具备硬件供应链、隐私技术与生态号召力，去引领安全方案与商业步伐 [39]