手机智能体
搜索文档
测评7个手机智能体:点一杯奶茶,意味着交付40%高敏权限
21世纪经济报道· 2026-02-24 08:23
行业趋势:智能体从云端走向端侧 - 智能体发展进入新阶段,从云端大模型聊天转向端侧设备替人执行任务[1] - 端侧智能体模型部署在本地设备,可操作手机、电脑、汽车里的软件与系统,执行点外卖、打游戏、炒股票等任务[2] - 国内外厂商积极布局,海外如OpenClaw在硅谷走红,国内字节跳动将豆包嵌入手机引发广泛讨论[2] 技术实现与权限架构 - 国内手机智能体普遍采用GUI Agent的“视觉识别路线”,即大模型先识别屏幕再模拟点击操作[4] - 智能体需要模型“大脑”与操作系统“手脚”协同,环境支持至关重要[5] - 测评显示,几乎所有手机智能体的申请权限总量都超过100个,远超微信等超级App[5][6] - 申请的高敏感权限平均占比接近40%,包括获取精确定位、读取短信与录音、静默安装应用等,而普通App通常控制在30%以下[7] - 系统控制、屏幕控制与注入、窗口与显示管理、隐私数据访问四类权限构成智能体接管手机的能力基石[7] 读屏技术路径与权限升级 - 为实现读屏,多数厂商采用无障碍权限,但存在限制,如需要用户手动开启、无法读取银行安全窗口等[10][11] - 部分智能体采用更底层的系统服务,如豆包使用WindowManagerService,OPPO通过SystemUI实现屏幕识别[11] - 系统框架权限无单独弹窗,可直接获取像素级屏幕内容并截屏Secure安全窗口,仅授予厂商级预装应用[12] - 技术测评显示,豆包、OPPO具备截屏Secure窗口的能力,但会加入标志提示并由调用方判断处理方式[12] - 在自动操作层面,部分厂商申请了inject_events权限,该权限提供设备的完全控制权,仅对厂商级预装应用开放,能力远超无障碍权限[17] 安全设计与行业规范进展 - 行业已形成较为一致的安全基线,豆包、荣耀、OPPO已公开各自的AI隐私与安全白皮书[20][24] - 当前安全设计主要集中在三个维度:知情与控制、操作透明度、数据传输策略[24] - 在知情和控制上,仅小米和豆包在实际操作前单独弹窗询问“是否允许AI接管手机”[24] - 敏感操作的二次确认已成行业共识,但范围不统一,豆包将发布内容、删除内容、退出账号等也纳入敏感操作[24] - OPPO建议的高风险操作包括拼接验证码、安装App、删除或修改用户数据、发起支付和转账、保存敏感个人信息[24] - AI操作日志留痕和权限记录对事后追溯与监管很重要,但测评显示小米和华为的事后记录存在缺失[25][26] - 锁屏状态下的安全防护已受重视,测评发现大多手机智能体已加强防护,仅小米默认显示详细通知信息并允许智能体播报[26] 数据上云与隐私风险 - 所有手机智能体均采用“端云协同模式”处理数据,数据上云是最有争议的环节[29] - 测评显示,除了系统原生功能外,大多数任务都会触发云端数据传输[29] - 黑盒测试要求智能体处理身份证照片时,所有智能体都能完成任务,且身份证号未被脱敏处理,意味着敏感信息大概率被上传云端[29] - 现有GUI Agent的隐私识别能力很弱,一篇论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息[30] - 开发者设想的本地摘要处理方案愿景离现实较远,数据安全是整个手机安全体系中最核心、最脆弱的问题[29][30] - 手机智能体整合全景数据,其隐私风险远超针对单个App的时代,构成技术难题与信任拷问[32]
一条视频看懂手机智能体的来龙去脉
21世纪经济报道· 2025-12-12 09:13
文章核心观点 - 2025年被认为是AI智能体元年,手机智能体在过去一年中经历了从宣传噱头到能力快速迭代的发展,目前主流手机厂商及部分第三方公司均已推出相关产品,但行业在技术路线、商业生态、合规安全等方面仍面临挑战 [1] 技术路线发展 - 手机智能体技术发展出三条主要路线:意图框架路线(通过与应用合作,效率高但需广泛合作)、GUI Agent路线(模拟真人操作屏幕,技术复杂且易触及隐私红线)、云手机路线(解决权限调用问题但仍需读屏)[2][3] - 年初行业能力有限,测试的六款AI手机中,能成功点外卖的智能体不超过3家,技术局限与工程问题是主要障碍 [1] - “无障碍权限”是智能体操作手机的核心权限,可读取屏幕所有信息,但此前存在使用混乱的情况,相关倡议已被纳入行业协会标准 [3] 商业生态博弈 - 手机智能体能替代真人操作手机,对用户是效率革命,但对互联网App意味着权力让渡和优势降级,引发生态摩擦 [5] - 豆包手机助手上线一周后,接连被微信、支付宝等头部App限制操作,平台与智能体之间的争端已上升到法规层面,类似亚马逊与AI公司Perplexity的授权争端 [5] - 行业主要争议点在于:智能体代劳除用户授权外是否需App授权,以及代劳产生责任问题的归属 [6] 合规与安全挑战 - 手机智能体对普通用户的主要风险来自读取屏幕带来的隐私问题,以及AI幻觉可能导致的欺骗、误导和误操作 [3] - 对行业产业而言,智能体可能引发数据安全系统性风险,且“无障碍服务”存在被黑灰产利用形成产业链的隐患 [3] - 豆包手机助手通过将AI能力嵌入手机操作系统底层引发广泛关注,同时也引发了关于商业生态和合规风险的大讨论 [3]
合集回顾:手机智能体的来龙去脉 4个问题带你看
21世纪经济报道· 2025-12-12 08:49
核心观点 - 手机智能体正从简单的聊天助手演变为能直接操作手机的私人助理 这不仅是功能升级 更是对AI生态控制权的重新分配 其发展伴随着技术路线探索、商业博弈和显著的合规风险 [1][3] 核心能力与技术演进 - 手机智能体正改变用户围绕App行事的习惯 主流手机厂商如小米、荣耀、vivo、OPPO、华为、三星及第三方如智谱AI、字节跳动均已推出相关产品 [3] - 发展初期能力有限 今年初现实环境中能成功点外卖的手机智能体不超过3家 实验室任务成功率约70% 但面临成功率低、响应不稳定、耗时长等问题 [3] - 技术方案主要分为三种:意图框架(通过API/SDK调用App功能)、基于视觉的GUI Agent(模拟用户操作屏幕)以及云手机方案(如智谱AutoGLM 2.0的虚拟手机界面) [4][5] - 视觉路线为主流 大多依赖手机的“无障碍权限”以获取系统级控制能力 豆包手机助手通过与中兴合作工程机 探索了为智能体深度定制的AI原生手机形态 [4][5] 隐私与安全挑战 - 视觉路线的手机智能体需分析屏幕所有内容 包括聊天记录、支付密码等 存在隐私泄露风险 并可能降低电信诈骗门槛 [6] - 控制权让渡带来风险 AI幻觉可能导致错误执行 例如智谱AutoGLM被指出多买了优惠券 此外 攻击者可能通过预埋恶意指令诱导智能体泄露隐私或植入病毒 [6] - 高权限应用在缺乏外部约束下易滑向灰色地带 历史上存在利用无障碍服务形成的黑灰产业链 如自动抢红包、手游脚本等 [7] - 行业测评指出多家手机智能体存在无障碍权限使用混乱问题 如结束后权限仍保持打开、未充分提示风险或征求同意 [8] - 行业共识正在形成 倡议手机智能体需事前充分告知并征得用户同意 事中允许用户随时拒绝或终止接管 相关倡议已被吸纳进入行业协会标准 [9] 商业竞合关系 - 手机智能体与互联网App存在根本博弈 智能体若完全替代真人操作 短期将冲击App的拉新率、留存率、用户活跃时长及广告回报率 长期可能导致App被管道化(OTT化) [10] - 豆包手机助手工程机售罄后 用户将其用于在拼多多、抖音极速版等App完成任务 甚至尝试代打《王者荣耀》 直观展示了生态摩擦 [10] - 类似博弈在MCP(模型上下文协议)领域已上演 尽管各大科技公司跟进 但互联网平台因担忧失去场景控制权而抗拒 开放进展不顺利 [10][11] - 互联网App的顾虑包括:开放敏感数据(如用户地址)的安全风险 以及智能体若掌握比价、推荐权 将抽空App的算法优势和商业权力 [11] - 博弈松动的可能触发器包括:技术产品足够成熟以反向逼迫App接入 以及头部平台将争端上升到法规层面争夺“正当性” [11] 生态控制权与规则博弈 - 智能体与互联网平台的授权争端历史悠久 2017年腾讯与华为就数据权益发生冲突 当前豆包手机助手上线一周后即被微信、支付宝、淘宝、王者荣耀等App限制操作 [12] - 法律冲突升级 例如2024年11月亚马逊起诉AI公司Perplexity 指控其浏览器智能体伪装用户操控账户购物 Perplexity则辩称智能体是用户的“代理” [12] - 规则争议焦点集中在两方面:一是代理授权问题 涉及用户授权与App授权的平衡及信息不对称;二是代劳责任问题 如智谱AutoGLM2.0曾“自作主张”加购优惠券导致账单多出7.9元 [13] - 技术界提出建立规则方案 如为智能体开设独立钱包并设定消费边界 提供“撤销-追溯”保障机制 旨在通过技术规则为AI代劳划出可控边界 [14]