文章核心观点 - 技术创新必须在尊重用户权益和遵守监管要求的前提下进行,过于激进、试图绕过现有安全体系和合作模式的方案难以推进 [1][5][15] - 豆包手机助手近期对其AI操作手机能力进行规范化调整,特别是限制金融类应用的使用,姿态从强硬转向愿意与相关厂商沟通合作 [4] - 全球AI Agent(特别是GUI Agent技术路线)发展迅速,但主流厂商(如谷歌、苹果、百度、华为)普遍采取通过API与开发者合作的审慎路径,豆包的激进方案引发了关于安全、合规与责任的争议 [6][7][10] 豆包手机助手事件与方案调整 - 豆包手机助手发布说明,计划对AI操作手机能力进行规范化调整,包括进一步限制银行、互联网支付等金融类应用的使用,并暂时下线操作这类APP的能力 [4] - 调整原因是金融场景直接关联用户资金安全,虽然操作需用户授权,但为审慎起见做出此决定 [4] - 公司表示愿意与相关厂商沟通,共同制定清晰、安全的AI操作行为准则,姿态较此前更为柔软 [4] - 此次调整意味着豆包降低了其方案的激进程度,此前的方案突破了传统的用户安全体系、监管体系及厂商合作模式的边界 [5] GUI Agent技术路线与行业实践 - 豆包的方案属于GUI Agent技术路线,该技术基于多模态视觉模型驱动,能自动推理并执行图形用户界面交互以完成任务 [6] - 全球范围内,主流智能助手(如苹果Siri、谷歌Google Assistant)严格遵循API调用方式,避免直接触碰应用程序核心功能,以保证用户隐私、数据安全并避免与开发者或监管机构的冲突 [7] - 国内厂商如百度、华为在推出智能助手时,也选择与应用程序开发者合作,通过API接口实现功能对接 [7] - 大模型独角兽阶跃星辰在豆包手机助手发布两天前,开源了同类型的GUI Agent技术套组GELab-Zero [7] - 豆包手机助手选择了更为激进的路径,试图通过用户授权直接操作微信、支付宝等主流App的界面,绕过了其安全体系 [7] 豆包激进方案面临的核心挑战与风险 - 该方案挑战了互联网合作关系,并忽视了成熟的互联网账号安全体系,如登录验证、双重验证、权限控制及反欺诈检测系统 [8] - 绕过这些安全机制存在风险,可能导致用户账号被窃取、隐私信息泄露、数据被篡改,并使异常行为难以被检测 [8] - 方案核心争议在于忽略了行业在账号安全和监管方面的“防护栏”,微信、支付宝等App已建立严格机制防止第三方程序绕过官方授权 [9] - 在金融支付领域,监管对数据安全和用户隐私要求尤为严格,豆包的方案可能违反相关法律法规 [9] - 方案涉及关键责任问题:作为第三方平台,豆包是否能接过所有App的平台责任并满足监管需求,尤其是在涉及用户财产安全的金融支付领域 [10] - 从全球范围看,任何试图绕过应用开发者和监管机构的方案都难以获得广泛支持,可能引发监管审查和处罚 [10] 行业稳健发展的合作路径与参考案例 - 谷歌助手(或Gemini)在调用第三方应用时,会清晰列出需要访问的用户数据和权限,用户必须主动登录Google账号并点击授权才能继续 [11] - 在涉及用户隐私的应用如邮箱时,谷歌表现克制,Gemini只有在用户请求时才会调用相关数据,且不会进行发布邮件等敏感行为 [12] - 国内OPPO和支付宝的合作提供了参考,支付宝发布了AHA智能体互联协同解决方案,通过安全可控的方式实现智能助手与应用程序之间的高效协作 [14] - AHA方案构建了一个智能体互联枢纽,连接手机操作系统、AI大模型及第三方应用服务,并遵循严格的安全标准和透明的用户授权机制 [14] - 该方案具备开放性和兼容性,能够接入不同厂商的AI助手和各类应用,为行业提供标准化互联互通平台 [15] - 工信部、信通院等机构正在积极推进国家多智能体互联的标准,工信部牵头的《人工智能 智能体互联》系列标准已发布,蚂蚁集团作为核心参编方,AHA方案是重要业界实践参考 [15]
保守的谷歌,激进的豆包