测评7个手机智能体：点一杯奶茶，意味着交付40%高敏权限

行业趋势：智能体从云端走向端侧 - 智能体发展进入新阶段，从云端大模型聊天转向端侧设备替人执行任务[1] - 端侧智能体模型部署在本地设备，可操作手机、电脑、汽车里的软件与系统，执行点外卖、打游戏、炒股票等任务[2] - 国内外厂商积极布局，海外如OpenClaw在硅谷走红，国内字节跳动将豆包嵌入手机引发广泛讨论[2] 技术实现与权限架构 - 国内手机智能体普遍采用GUI Agent的“视觉识别路线”，即大模型先识别屏幕再模拟点击操作[4] - 智能体需要模型“大脑”与操作系统“手脚”协同，环境支持至关重要[5] - 测评显示，几乎所有手机智能体的申请权限总量都超过100个，远超微信等超级App[5][6] - 申请的高敏感权限平均占比接近40%，包括获取精确定位、读取短信与录音、静默安装应用等，而普通App通常控制在30%以下[7] - 系统控制、屏幕控制与注入、窗口与显示管理、隐私数据访问四类权限构成智能体接管手机的能力基石[7] 读屏技术路径与权限升级 - 为实现读屏，多数厂商采用无障碍权限，但存在限制，如需要用户手动开启、无法读取银行安全窗口等[10][11] - 部分智能体采用更底层的系统服务，如豆包使用WindowManagerService，OPPO通过SystemUI实现屏幕识别[11] - 系统框架权限无单独弹窗，可直接获取像素级屏幕内容并截屏Secure安全窗口，仅授予厂商级预装应用[12] - 技术测评显示，豆包、OPPO具备截屏Secure窗口的能力，但会加入标志提示并由调用方判断处理方式[12] - 在自动操作层面，部分厂商申请了inject_events权限，该权限提供设备的完全控制权，仅对厂商级预装应用开放，能力远超无障碍权限[17] 安全设计与行业规范进展 - 行业已形成较为一致的安全基线，豆包、荣耀、OPPO已公开各自的AI隐私与安全白皮书[20][24] - 当前安全设计主要集中在三个维度：知情与控制、操作透明度、数据传输策略[24] - 在知情和控制上，仅小米和豆包在实际操作前单独弹窗询问“是否允许AI接管手机”[24] - 敏感操作的二次确认已成行业共识，但范围不统一，豆包将发布内容、删除内容、退出账号等也纳入敏感操作[24] - OPPO建议的高风险操作包括拼接验证码、安装App、删除或修改用户数据、发起支付和转账、保存敏感个人信息[24] - AI操作日志留痕和权限记录对事后追溯与监管很重要，但测评显示小米和华为的事后记录存在缺失[25][26] - 锁屏状态下的安全防护已受重视，测评发现大多手机智能体已加强防护，仅小米默认显示详细通知信息并允许智能体播报[26] 数据上云与隐私风险 - 所有手机智能体均采用“端云协同模式”处理数据，数据上云是最有争议的环节[29] - 测评显示，除了系统原生功能外，大多数任务都会触发云端数据传输[29] - 黑盒测试要求智能体处理身份证照片时，所有智能体都能完成任务，且身份证号未被脱敏处理，意味着敏感信息大概率被上传云端[29] - 现有GUI Agent的隐私识别能力很弱，一篇论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息[30] - 开发者设想的本地摘要处理方案愿景离现实较远，数据安全是整个手机安全体系中最核心、最脆弱的问题[29][30] - 手机智能体整合全景数据，其隐私风险远超针对单个App的时代，构成技术难题与信任拷问[32]