详解智能体2.0：手机里的“互联互通”新战场

行业叙事与市场动态 - AI行业的叙事焦点正从宽泛的“智能体”收束到更具体的“端侧智能体”，其运行在手机、电脑和汽车等个人设备上，旨在重组用户与设备、App的连接方式 [1] - 字节跳动通过将豆包嵌入手机（豆包手机助手）引领了端侧智能体的破圈，其工程版样机在二手市场价格居高不下，并计划于2026年Q2发布正式版新机 [1][22] - 国内手机厂商已进行了一轮市场铺陈，据Quest Mobile 2025年9月测算，六家手机厂商的智能体用户规模在一年内合计增长6500万，整体达到5.35亿 [4] 产品性能与技术现状 - 当前手机智能体的整体实用性较低，在一项针对7款产品的70次任务测试中，整体成功率仅有两成，39%的任务启动后中断，24%直接失败降级为信息问答 [4] - 手机智能体的“接管能力”存在退化迹象，例如在点外卖等任务中，大多只能完成打开App的第一步，缺乏后续的深度操作能力 [5] - 多数智能体在任务规划上存在短板，例如无法将“找一款性价比高的抽纸”这类指令分解为“搜索抽纸”和“按价格筛选”的步骤，而是原封不动复制指令或仅用文字回答 [5] - 复旦大学专家指出，跨App任务是手机智能体能力的分水岭，当前只有豆包手机助手的成功率较高 [5] - 西湖大学专家认为，目前手机智能体整体仍停留在L1到L2阶段之间，只能在有限场景中演示，豆包手机助手意味着“智能体第一次真正产品化”，但尚不成熟 [6] 系统权限与安全风险 - 几乎所有被测评的手机预装智能体申请的权限总量都超过100项，这是一个惊人的数量级，远超微信等超级App [9] - 手机智能体申请的高敏感权限平均占比接近40%，包括获取精确定位、读取短信与录音、静默安装应用等，而普通App通常将此类权限占比控制在30%以下 [9][10] - 实现智能体核心能力（读屏与自动操作）的技术路径存在差异和风险：荣耀、小米、vivo主要依赖无障碍权限；豆包和OPPO则利用了更底层的系统服务（如WindowManagerService），后者能直接获取像素级屏幕内容并截取Secure安全窗口，但仅对厂商级预装应用开放 [11][12] - 在自动操作层面，豆包和荣耀申请了inject_events权限，该权限相当于设备的完全控制权，能力远超无障碍权限，同样只对厂商级应用开放 [13] - 系统方手机厂商在权限管理上兼具“玩家”和“裁判员”双重身份，测评发现存在原生智能体调用无障碍权限未提示或任务结束后权限未关闭等未严格遵循安全规则的情况 [13] 数据安全与隐私保护 - 所有手机智能体均采用“端云协同模式”处理数据，数据安全是整个手机安全体系中最核心、最脆弱的问题 [17] - 黑盒测试发现，当要求智能体处理屏幕上的身份证照片时，所有智能体都能完成任务且身份证号未被脱敏，意味着敏感信息大概率被上传至云端 [17] - 现有GUI Agent的隐私识别能力很弱，北京师范大学论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息 [17] - 在安全设计上，豆包、荣耀、OPPO已发布AI隐私与安全白皮书，当前措施集中在知情与控制、操作透明度、数据传输策略三个维度 [16] - 在知情控制方面，仅小米和豆包在实际操作前会单独弹窗询问“是否允许AI接管手机”；在操作留痕方面，小米和华为的基础记录存在缺失，例如调用麦克风后系统权限记录中无痕迹 [16] 商业博弈与生态合作 - 手机智能体的发展遭遇了来自App厂商的显性阻力，例如豆包手机发售后，微信曾将部分用户强制下线，触发了安全风控 [18] - App厂商的防御动机包括：可能影响平台安全运行；担心智能体替代真人操作会冲击用户活跃度、使用时长、广告曝光等核心商业指标；长期可能导致App被管道化 [19] - 手机厂商对与外部AI公司合作持谨慎态度，字节跳动曾接触中兴等厂商，提出由豆包接管手机AI助手入口并承担相关成本，但除中兴外未打动其他主流厂商，因该方案不符合手机厂商自身的AI战略，且产品稳定性是其更优先的考量 [20][21] - 行业正在探索“双轨并行”的落地路线：高频、标准化场景通过A2A等合作协议（API调用）完成；非标准化长尾场景再用GUI Agent的视觉识别路线，但合作缺乏先例和成熟标准，需解决流量分成、数据回流等核心问题 [23] - 部分App与字节跳动已达成停火协议，例如阿里系App允许努比亚设备正常登录，豆包则主动限制AI操作场景 [1][23] - 在进一步合作意愿上，阿里系因自身推进智能体战略可能更愿意探索；腾讯系（尤其是微信生态）则一直是坚定的防守阵营 [24]