测评7个手机智能体:点一杯奶茶,意味着交付40%高敏权限
21世纪经济报道·2026-02-24 08:23

行业趋势:智能体从云端走向端侧 - 智能体发展进入新阶段,从云端大模型聊天转向端侧设备替人执行任务[1] - 端侧智能体模型部署在本地设备,可操作手机、电脑、汽车里的软件与系统,执行点外卖、打游戏、炒股票等任务[2] - 国内外厂商积极布局,海外如OpenClaw在硅谷走红,国内字节跳动将豆包嵌入手机引发广泛讨论[2] 技术实现与权限架构 - 国内手机智能体普遍采用GUI Agent的“视觉识别路线”,即大模型先识别屏幕再模拟点击操作[4] - 智能体需要模型“大脑”与操作系统“手脚”协同,环境支持至关重要[5] - 测评显示,几乎所有手机智能体的申请权限总量都超过100个,远超微信等超级App[5][6] - 申请的高敏感权限平均占比接近40%,包括获取精确定位、读取短信与录音、静默安装应用等,而普通App通常控制在30%以下[7] - 系统控制、屏幕控制与注入、窗口与显示管理、隐私数据访问四类权限构成智能体接管手机的能力基石[7] 读屏技术路径与权限升级 - 为实现读屏,多数厂商采用无障碍权限,但存在限制,如需要用户手动开启、无法读取银行安全窗口等[10][11] - 部分智能体采用更底层的系统服务,如豆包使用WindowManagerService,OPPO通过SystemUI实现屏幕识别[11] - 系统框架权限无单独弹窗,可直接获取像素级屏幕内容并截屏Secure安全窗口,仅授予厂商级预装应用[12] - 技术测评显示,豆包、OPPO具备截屏Secure窗口的能力,但会加入标志提示并由调用方判断处理方式[12] - 在自动操作层面,部分厂商申请了inject_events权限,该权限提供设备的完全控制权,仅对厂商级预装应用开放,能力远超无障碍权限[17] 安全设计与行业规范进展 - 行业已形成较为一致的安全基线,豆包、荣耀、OPPO已公开各自的AI隐私与安全白皮书[20][24] - 当前安全设计主要集中在三个维度:知情与控制、操作透明度、数据传输策略[24] - 在知情和控制上,仅小米和豆包在实际操作前单独弹窗询问“是否允许AI接管手机”[24] - 敏感操作的二次确认已成行业共识,但范围不统一,豆包将发布内容、删除内容、退出账号等也纳入敏感操作[24] - OPPO建议的高风险操作包括拼接验证码、安装App、删除或修改用户数据、发起支付和转账、保存敏感个人信息[24] - AI操作日志留痕和权限记录对事后追溯与监管很重要,但测评显示小米和华为的事后记录存在缺失[25][26] - 锁屏状态下的安全防护已受重视,测评发现大多手机智能体已加强防护,仅小米默认显示详细通知信息并允许智能体播报[26] 数据上云与隐私风险 - 所有手机智能体均采用“端云协同模式”处理数据,数据上云是最有争议的环节[29] - 测评显示,除了系统原生功能外,大多数任务都会触发云端数据传输[29] - 黑盒测试要求智能体处理身份证照片时,所有智能体都能完成任务,且身份证号未被脱敏处理,意味着敏感信息大概率被上传云端[29] - 现有GUI Agent的隐私识别能力很弱,一篇论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息[30] - 开发者设想的本地摘要处理方案愿景离现实较远,数据安全是整个手机安全体系中最核心、最脆弱的问题[29][30] - 手机智能体整合全景数据,其隐私风险远超针对单个App的时代,构成技术难题与信任拷问[32]

测评7个手机智能体:点一杯奶茶,意味着交付40%高敏权限 - Reportify