AI手机的终局,“读屏”还是“对话”?
创业邦·2026-01-24 18:43

AI手机技术路线之争:GUI与A2A - 文章核心观点:AI手机的发展存在两条主要技术路线——GUI(图形用户界面)路线与A2A(智能体到智能体)路线,这不仅是技术选择,更是不同公司基于自身生态位对未来主导权的押注,将决定下一个十年人机交互的方式[7][17][37] 技术路线逻辑与特点 - GUI路线主打“快”,通过系统权限“读屏”并模拟操作APP,能快速验证AI手机可能性,但存在体验不稳定和安全隐私风险[7][10][14] - 实现方式包括调用安卓“无障碍服务”或获取系统签名权限进行进程注入,绕开应用厂商,快速覆盖现有生态[10] - 体验依赖应用界面稳定性,一个包含5个步骤的操作,即便每一步成功率高达90%,整体成功率也可能骤降至59%[11] - A2A路线主打“稳妥”,通过标准API接口让AI与应用直接“对话”,需要生态共识,发展缓慢但更安全[7][14][16] - 核心设计是“双重授权”,需同时获得用户和应用方授权,权责清晰,数据流动有据可查[14] - 需要操作系统厂商、应用开发者共同推进标准化协议,协调成本高[15] 海外科技巨头的选择与策略 - 海外巨头几乎都选择A2A路线,推动API集成,以维护现有秩序和生态控制力[18][21] - 苹果升级“App Intents”框架,要求接入AI功能的应用按标准提供API接口[18][20] - 谷歌推动“AppFunctions API”以统一安卓生态的AI调用标准[18][20] - 微软自研“AutoGen”多智能体对话框架,并通过API整合软件生态[19][20] - OpenAI和Anthropic推动“函数调用”和“工具使用”,Anthropic的MCP活跃服务从2025年3月的2000多个增长到12月的超过1万个[19][20] - 海外巨头对GUI尝试谨慎,主要在PC端受控环境内进行,未向普通用户大规模推广[22] - 谷歌、微软在手机上推出“屏幕共享”功能,AI只能“看”不能操作[22] - OpenAI将GUI能力限定在Atlas浏览器内,Anthropic的Computer Use API仅供开发者在虚拟环境测试[22] - 微软将“看”(Copilot Vision)和“做”(Copilot Actions)的动作拆分,后者在沙盒桌面中进行[22] 国内科技公司的布局与考量 - 国内市场格局复杂,厂商选择多样,既有“挑战者”也有“守成者”[23][27] - 字节跳动走高权限GUI路线,通过豆包大模型与中兴努比亚合作推出AI手机,争夺流量入口[23] - 阿里、华为、OPPO布局A2A路线,但各有商业考量[24][25][26][27] - 阿里通过自建API体系将“通义千问”集成到淘宝、支付宝等核心业务,保护交易生态并打造入口[24][27] - 华为在HarmonyOS 6中通过“意图框架”实现“小艺”与鸿蒙原生应用的A2A协作[25] - OPPO联合支付宝等探索A2A行业标准[26] - 国内厂商通过A2A争取话语权,并试图建立以自身OS或大模型为核心的混合生态[27] A2A路线成为主流倾向的原因 - 从技术角度看,A2A符合AI分工协作本质,让AI专注理解与调度,执行交给垂直应用智能体,更高效可靠[30] - 从监管角度看,A2A更安全合规,其明确的接口和“双重授权”机制建立了合规防火墙,而GUI的“读屏”面临严格隐私监管,例如2025年12月美国德州起诉多家智能电视制造商高频截屏收集数据[31][32] - 从商业成本角度看,A2A长期运营更经济,GUI需要持续消耗大量云端计算资源分析图像,规模化商用成本高昂,几乎不可持续[32][33] AI手机生态的未来机遇 - 协议层与中间件将成为核心,A2A、MCP等协议标准可能成为AI时代的“操作系统”,掌握标准可能成为平台级巨头[33] - “智能体工厂”与垂直Agent服务商将迎来爆发,基于标准协议为特定行业开发专属智能体将成巨大市场,可能出现“智能体商店”[35] - 云厂商将成为智能体的“训练场”,手机厂商成为智能体的承载终端,都将获得新增长[35] - 对于中国科技公司,这是在底层协议和基础设施上与全球巨头同台竞技的机会[36]

AI手机的终局,“读屏”还是“对话”? - Reportify