Workflow
GUI Agent
icon
搜索文档
给GUI Agent装上「世界模型」:阿里通义用混合数据+统一思维链,让模型学会预判屏幕变化
量子位· 2026-03-04 10:44
行业背景与技术趋势 - 伴随多模态大模型发展,GUI Agent正成为人机交互新范式[1] - 构建高可用、跨平台GUI Agent面临真实环境数据难收集、多平台动作空间差异导致梯度冲突、以及需要长程记忆与多Agent协作等工程与算法挑战[2] 公司发布的核心产品 - 阿里巴巴通义实验室开源了新一代多平台GUI Agent框架Mobile-Agent-v3.5,并同步发布了原生基座模型家族GUI-Owl-1.5[2] - 该模型家族在20多个主流GUI Benchmark上取得开源领域领先的测试结果,实现了跨桌面、手机、浏览器等多端的统一控制[6] - 项目开放了从2B到32B的多种参数尺寸,并针对实际部署需求解耦出Instruct和Thinking两种模型变体[6] 产品架构与核心能力设计 - GUI-Owl-1.5提供Instruct和Thinking两种模型变体,以兼顾响应延迟与推理深度[9] - Instruct模型专注极速响应与轻量化执行,适合部署在算力受限的端侧设备[9] - Thinking模型专攻长程复杂任务,具备完整的思维链能力,能够进行规划、反思与纠错[9] - 两种形态为端云协同提供基础架构,云端Thinking模型作为规划者,端侧Instruct模型作为执行者,可构建高效多Agent协作系统[9] - Mobile-Agent-v3.5在动作空间上原生支持外部工具调用与MCP协议,可实现工作流闭环[9] 核心技术突破:数据管线与训练方法 - 构建混合数据生产管线,解决高质量Grounding和长轨迹数据合成难题[12] - 在Grounding数据层面,利用多模态模型结合参考界面进行多轮校验,合成高分辨率复杂UI截图[13] - 通过轨迹挖掘和App教程字幕解析抽取海量交互问答,并引入大规模Infeasible Query负样本,让模型学会主动拒绝不可行操作[13] - 在轨迹数据生产上,引入基于有向无环图的任务合成机制,并设计截断与任务修复机制,将部分正确轨迹转化为高质量前缀监督数据[15] - 基于Web渲染构建虚拟环境,低成本生成海量专家轨迹以应对验证码等高频场景[15] 核心技术突破:世界模型与思维链 - 在训练阶段抓取全网软件官方文档和问答论坛数据,使模型掌握软件常识[18] - 利用轨迹记录训练模型进行状态转移预测,要求模型预判下一屏UI变化,以降低长程决策试错成本[18] - 建立统一的思维链合成流水线,将所有多端轨迹数据进行思维扩充,要求模型输出结构化的中间状态,从而获得优秀的全局任务规划能力[18] 核心技术突破:强化学习算法创新 - 提出MRPO算法,精准解决多平台端到端强化学习训练中的工程痛点[20] - 设计在线过采样与条件替换机制,克服GRPO训练中的结果坍塌问题,将非坍塌训练组的出现概率大幅提升至接近1,显著提高训练效率[22][23][24][25][26][27][28] - 采用Token-ID传输机制,保证环境端采样与训练端概率计算的严格一致性,解决因分词器不一致导致的训练不稳定问题[29][30] - 采用交替多平台优化策略,按阶段从单一平台采样并更新模型,解耦平台间梯度干扰,提升训练稳定性同时保留跨设备泛化能力[31][32][33] 模型性能评测结果 - 在桌面端环境OSWorld-Verified基准测试中,GUI-Owl-1.5-32B-Instruct取得56.5分,设定整体性能天花板[36][38] - 模型展现出高参数效率:8B-Thinking变体达到52.9分,超越同等规模的UI-TARS-2以及参数量大数倍的Qwen3-VL-235B-A22B-Think[38] - 在移动端AndroidWorld基准测试中,8B-Thinking取得71.6分[36][38] - 在浏览器端WebArena与VisualWebArena基准测试中,32B-Thinking分别达到48.4分和46.6分,大幅领先多数开源基座模型[37][38] - 在需要长程规划的网页任务WebVoyager中,32B-Thinking变体分数达到82.1,显著高于Instruct变体,证明思维链对复杂决策的增益[37][38] 专项能力评测结果 - 在考验超高分辨率定位的ScreenSpot-Pro基准中,GUI-Owl-1.5-32B-Instruct在Base设置下达到72.9分,超越包括Gemini-3-Pro在内的所有对比方案[39][41] - 结合Zoom-In策略后,其准确率进一步提升至80.3分,实现断层式领先[39][41] - 在需要混合GUI操作与工具调用的OSWorld-MCP榜单中,32B-Instruct取得47.6分,优于部分专攻单平台的垂类模型及主流闭源模型[36][43] - 在GUI Knowledge Bench和MemGUI-Bench等考察界面解析与长程历史追溯的基准中,该模型同样稳居Native Agent模型第一梯队[43] 复杂场景应用案例 - 在移动端,模型成功执行跨应用信息提取与计算任务:先后唤起小红书和抖音App,搜索指定账号、提取粉丝数据、存入记忆、最终汇总输出,验证了跨步信息保持与逻辑推理能力[46][47] - 在Windows桌面端,模型独立完成“网页搜索+资料整理”综合任务,在浏览器与记事本等多个独立窗口间进行焦点切换、文本复制与编辑,并基于世界模型先验知识预判系统反馈,保持低操作错误率[49][50]
详解智能体2.0:手机里的“互联互通”新战场
21世纪经济报道· 2026-02-27 07:12
行业叙事与市场动态 - AI行业的叙事焦点正从宽泛的“智能体”收束到更具体的“端侧智能体”,其运行在手机、电脑和汽车等个人设备上,旨在重组用户与设备、App的连接方式 [1] - 字节跳动通过将豆包嵌入手机(豆包手机助手)引领了端侧智能体的破圈,其工程版样机在二手市场价格居高不下,并计划于2026年Q2发布正式版新机 [1][22] - 国内手机厂商已进行了一轮市场铺陈,据Quest Mobile 2025年9月测算,六家手机厂商的智能体用户规模在一年内合计增长6500万,整体达到5.35亿 [4] 产品性能与技术现状 - 当前手机智能体的整体实用性较低,在一项针对7款产品的70次任务测试中,整体成功率仅有两成,39%的任务启动后中断,24%直接失败降级为信息问答 [4] - 手机智能体的“接管能力”存在退化迹象,例如在点外卖等任务中,大多只能完成打开App的第一步,缺乏后续的深度操作能力 [5] - 多数智能体在任务规划上存在短板,例如无法将“找一款性价比高的抽纸”这类指令分解为“搜索抽纸”和“按价格筛选”的步骤,而是原封不动复制指令或仅用文字回答 [5] - 复旦大学专家指出,跨App任务是手机智能体能力的分水岭,当前只有豆包手机助手的成功率较高 [5] - 西湖大学专家认为,目前手机智能体整体仍停留在L1到L2阶段之间,只能在有限场景中演示,豆包手机助手意味着“智能体第一次真正产品化”,但尚不成熟 [6] 系统权限与安全风险 - 几乎所有被测评的手机预装智能体申请的权限总量都超过100项,这是一个惊人的数量级,远超微信等超级App [9] - 手机智能体申请的高敏感权限平均占比接近40%,包括获取精确定位、读取短信与录音、静默安装应用等,而普通App通常将此类权限占比控制在30%以下 [9][10] - 实现智能体核心能力(读屏与自动操作)的技术路径存在差异和风险:荣耀、小米、vivo主要依赖无障碍权限;豆包和OPPO则利用了更底层的系统服务(如WindowManagerService),后者能直接获取像素级屏幕内容并截取Secure安全窗口,但仅对厂商级预装应用开放 [11][12] - 在自动操作层面,豆包和荣耀申请了inject_events权限,该权限相当于设备的完全控制权,能力远超无障碍权限,同样只对厂商级应用开放 [13] - 系统方手机厂商在权限管理上兼具“玩家”和“裁判员”双重身份,测评发现存在原生智能体调用无障碍权限未提示或任务结束后权限未关闭等未严格遵循安全规则的情况 [13] 数据安全与隐私保护 - 所有手机智能体均采用“端云协同模式”处理数据,数据安全是整个手机安全体系中最核心、最脆弱的问题 [17] - 黑盒测试发现,当要求智能体处理屏幕上的身份证照片时,所有智能体都能完成任务且身份证号未被脱敏,意味着敏感信息大概率被上传至云端 [17] - 现有GUI Agent的隐私识别能力很弱,北京师范大学论文指出其只有13.3%的概率准确识别出安卓屏幕里的隐私信息 [17] - 在安全设计上,豆包、荣耀、OPPO已发布AI隐私与安全白皮书,当前措施集中在知情与控制、操作透明度、数据传输策略三个维度 [16] - 在知情控制方面,仅小米和豆包在实际操作前会单独弹窗询问“是否允许AI接管手机”;在操作留痕方面,小米和华为的基础记录存在缺失,例如调用麦克风后系统权限记录中无痕迹 [16] 商业博弈与生态合作 - 手机智能体的发展遭遇了来自App厂商的显性阻力,例如豆包手机发售后,微信曾将部分用户强制下线,触发了安全风控 [18] - App厂商的防御动机包括:可能影响平台安全运行;担心智能体替代真人操作会冲击用户活跃度、使用时长、广告曝光等核心商业指标;长期可能导致App被管道化 [19] - 手机厂商对与外部AI公司合作持谨慎态度,字节跳动曾接触中兴等厂商,提出由豆包接管手机AI助手入口并承担相关成本,但除中兴外未打动其他主流厂商,因该方案不符合手机厂商自身的AI战略,且产品稳定性是其更优先的考量 [20][21] - 行业正在探索“双轨并行”的落地路线:高频、标准化场景通过A2A等合作协议(API调用)完成;非标准化长尾场景再用GUI Agent的视觉识别路线,但合作缺乏先例和成熟标准,需解决流量分成、数据回流等核心问题 [23] - 部分App与字节跳动已达成停火协议,例如阿里系App允许努比亚设备正常登录,豆包则主动限制AI操作场景 [1][23] - 在进一步合作意愿上,阿里系因自身推进智能体战略可能更愿意探索;腾讯系(尤其是微信生态)则一直是坚定的防守阵营 [24]
字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star
量子位· 2026-02-08 15:11
文章核心观点 - 字节跳动开源的纯视觉GUI Agent模型UI-TARS登顶GitHub热榜,其作为豆包手机的核心技术,通过让AI像人类一样观察屏幕并模拟点击、输入等操作,实现了对各类软件和浏览器的自动化控制,代表了AI“动手”能力的重要突破 [1][2][3][5] UI-TARS项目概述与技术特点 - **项目构成与功能**:UI-TARS主要包含两个项目:支持CLI命令行、可在有/无界面环境运行的Agent TARS,以及用于操作本地电脑和浏览器的桌面应用程序UI-TARS-desktop [6][7][8] - **核心技术逻辑**:采用“纯视觉驱动”逻辑,依靠内置视觉大模型像人眼一样直接观察屏幕像素图像来识别界面元素,无需依赖软件API或源码,从而克服了传统RPA工具因界面改动而失效的痛点 [9][10][11][12] - **部署与使用**:部署过程简单,仅需三步:检查/安装Node.js (>=22版本)和Chrome、安装Agent TARS CLI、选择并配置兼容的AI模型(如豆包、Claude 3.7 Sonnet、GPT-4o)的API密钥 [13][14][15][16][18][20] UI-TARS的发展历程与性能突破 - **发展里程碑**:技术布局始于一年前,2025年1月与清华大学合作开源,成为国产纯视觉GUI Agent中首个在权威基准测试中超越GPT-4o的项目 [20][21][22] - **快速迭代进化**: - 初代模型通过注入600万高质量教程数据,使AI具备深度思考能力和精准的统一动作空间,在多项SOTA榜单上取得领先 [23][24] - 3个月后发布的UI-TARS-1.5,通过Inference-time Scaling让AI在操作前进行多步预判,刷新了GUI定位任务的行业纪录 [25][26] - 2025年9月推出的UI-TARS-2成为豆包手机的底层技术,通过“数据飞轮”机制解决数据瓶颈等问题,并整合了文件系统、命令行和工具调用,能力全面增强 [27][28][29] - **行业地位**:经过几轮迭代,UI-TARS已成为最火的开源多模态AI智能体之一 [30] GUI Agent行业趋势与产品分类 - **行业关注度**:理想汽车CEO李想指出,2025-2026年出现的多个现象级产品(如豆包手机、OpenClaw、Chrome Gemini、Claude Code、Manus、MoltBook)中,大部分与Agent直接相关,其中多个属于GUI Agent [31][32][33] - **技术路线分类**: - **“走前门”的纯视觉GUI Agent**:以豆包手机(移动端)、OpenClaw(电脑端)、Chrome Gemini(浏览器端)为代表,统一通过截取屏幕像素作为输入,并模拟人类点击、滑动等交互行为执行任务,不依赖软件内部API,兼容性极强 [34][35] - **其他Agent形态**:如Manus是优先调用API与工具链在云端完成复杂任务闭环的通用Agent;MoltBook则是让Agent自主产生内容、进行互动的非执行类决策层Agent [36] - **核心议题**:这些产品共同探索如何让AI真正“动手”帮人类干活,不同路径分别通过模拟操作、规划工具链或放大AI间连接来解决问题 [37] - **行业影响观察**:有观点认为,AI Agent类工具非但没有缩小,反而可能十倍、百倍地放大人与人之间的能力差距 [38]
手机厂商、应用方如何看AI手机争议?A2A协作有望破局
第一财经· 2026-01-12 21:37
AI智能体发展路径与行业观点 - 阿里研究院院长袁媛认为,一个好的智能体既要有“智慧”,又要有“执行力”,能够深度理解用户意图并据此采取行动,其落地不应颠覆既有治理界面与商业秩序,而应在安全可控前提下通过深度协作推动产业生态演进[3] - 过去一年,市场围绕“AI替人办事”出现多种探索,其中以“AI接管手机操作”为特征的GUI Agent产品形态,尝试通过“看懂屏幕、模拟操作”跨应用完成剪视频、订票、点外卖等具体任务[3] - 专家认为,GUI Agent方式在不改变既有应用生态的前提下,能让智能体较快进入真实场景,但从长期看,其在稳定性、效率和可治理性方面存在天然局限,更像是一种阶段性方案[4] GUI Agent的技术实现与治理挑战 - 从技术实现看,GUI Agent产品通常采用“让模型理解屏幕内容,再模拟人类操作界面”的方式运行,但随之带来权限授予、责任归属、服务调用范围及约束主体等必须被重构的问题[3] - 中国政法大学教授焦海涛表示,智能体授权需分场景进行,关键操作应有二次确认,涉及人身属性、主观判断或社交互动等事项不可代理,双重授权规则面临困境,并非所有场景都理应由第三方平台单独授权[4] - 智能体的真正挑战,并不只是“能不能把事做成”,而是其操作边界与管理挑战[5] 手机厂商对智能体落地的看法与策略 - OPPO ColorOS智慧产品研发总监姜昱宸表示,产业中如豆包手机的出现对行业及生态有积极作用,但它不是AI手机的最终形态,仍是操作原有GUI界面的手法[5] - OPPO认为是否采用GUI方案并非理念之争,而首先是工程与规模问题,手机厂商面对更大体量用户规模,任何不稳定的系统级能力都会被迅速放大,当前基于界面操作的智能体方案多少是一个中间形态[5] - 姜昱宸指出,未来主流形态将更多走向A2A(人工智能体与人工智能体)的协作模式,手机厂商的核心价值不在于模型参数本身,而在于对用户的长期理解,并认为“记忆”才是手机的灵魂[5] 行业对智能体未来演进路径的探讨 - 袁媛表示,现有GUI带来的“鲶鱼效应”可激活整个产业,但中国AI产业不应仅局限于GUI路线,更应探索兼顾安全与发展的更优路径,苹果公司的模式提供了可借鉴范本,其建立了智能体与App基于开放接口(API)的协同机制,并通过屏幕感知在保障安全边界的同时将用户意图精准开放给App[6] - 清华大学电子工程系副所长王钺认为,智能体意味着AI系统开始与外部环境直接交互,是关键的转折点,其不仅将改变信息系统构造方式,还将改变经济运行方式[6] - 王钺指出,“破坏性创新”可能带来系统可管理性被削弱和信任基础被破坏两个深层风险,故而需改进授权机制,引入A2A的制衡机制,走向基于市场竞争的信用机制[6]
手机厂商、应用方如何看AI手机争议?A2A协作有望破局
第一财经· 2026-01-12 20:24
行业核心观点 - 智能体的真正挑战超越了单纯的任务完成能力,核心在于其操作边界与管理挑战[4] - 智能体的发展应兼具“智慧”与“执行力”,深度理解用户意图并采取行动,同时需在安全可控前提下通过深度协作推动产业生态演进,确保各方分享技术红利[1] - 中国AI产业不应仅局限于当前主流的GUI(图形用户界面)智能体路线,而应探索兼顾安全与发展的更优路径[5] 智能体技术路径与现状 - 过去一年市场围绕“AI替人办事”出现多种探索,其中以“AI接管手机操作”为特征的GUI Agent是主流路径之一,其通过让模型理解屏幕内容并模拟人类操作来跨应用完成任务[3] - GUI路径的现实意义在于不改变既有应用生态,能让智能体较快进入真实场景,但从长期看,其在稳定性、效率和可治理性方面存在天然局限,被视为一种阶段性方案或中间形态[3][4] - 产业中如“豆包手机”的出现对行业和生态有积极作用,但它并非AI手机的最终形态,仍是操作原有GUI界面的一种手法[4] - 未来的主流形态被认为将更多走向A2A(人工智能体与人工智能体)的协作模式[4] - 苹果公司的模式提供了可借鉴范本,其建立了智能体与App基于开放接口(API)的协同机制,并通过屏幕感知在保障安全边界的同时将用户意图精准开放给App[5] 行业挑战与治理框架 - GUI智能体的技术实现引发了一系列必须被重构的治理问题,包括权限授予、责任归属、服务调用范围以及约束主体[3] - 智能体的授权需分场景进行,关键操作应有二次确认;涉及人身属性、主观判断或社交互动等事项不可代理;双重授权规则面临困境,并非所有场景都理应由第三方平台单独授权[3] - “破坏性创新”可能带来系统可管理性被削弱和信任基础被破坏两个深层风险,需改进授权机制,引入A2A的制衡机制,走向基于市场竞争的信用机制[5] - 智能体意味着AI系统开始与外部环境直接交互,不仅将改变信息系统构造方式,还将改变经济运行方式[5] 手机厂商的角色与策略 - 手机厂商正在探索智能体的落地方案,是否采用GUI方案首先被视为一个工程与规模问题,而非理念之争[4] - 手机厂商面对的是大规模用户,任何不稳定的系统级能力都会被迅速放大,因此对服务的稳定性和质量有极高要求[4] - 手机厂商在此轮演进中的核心价值不在于模型参数本身,而在于对用户的长期理解与“记忆”,这被认为是构建用户粘性的关键[4]
从豆包手机谈起:端侧智能的愿景与路线图
AI前线· 2025-12-22 13:01
豆包手机助手的技术定位与核心突破 - 字节跳动发布的豆包手机助手被定义为行业首款系统级GUI Agent,标志着大模型应用从“对话”迈向“行动”的重要跃迁,它深度耦合于操作系统底层,具备跨应用感知与操作能力,是一个“超级中枢”[2] - 豆包手机助手是强化学习驱动的视觉语言模型技术路线的集大成者,其核心技术GUI Agent在2023至2025年间经历了从“外挂式框架”到“模型原生智能体”的根本性范式转变[4][5] - 该产品在工程侧实现了关键突破,凭借定制OS优势实现了“非侵入式”的系统级接管,核心要素包括GPU Buffer直读以降低延迟,以及构建虚拟屏幕后台进程以避免抢占用户焦点[7][10] - 在模型侧采用端云协同架构:端侧模型负责意图识别与任务路由,实现毫秒级响应;云侧模型处理多步骤、跨应用的复杂任务,并区分“思考”与“非思考”两种模式以平衡速度与成功率[8] - 其核心护城河在于建立了基于强化学习的数据闭环,通过高保真OS沙盒环境,模型经历了数百万次轨迹的探索与优化,使其泛化能力显著优于学术界开源模型[10] GUI Agent的技术演进路径 - 早期阶段(2023-2024)采用外挂式框架,通过提示工程将界面转化为文本或带数字标记的截图,模型能力受限于外部工具精度,并未真正“看见”GUI环境[4] - 后续阶段(2024)转向模仿学习驱动的视觉语言模型方案,如智谱的CogAgent等,直接基于像素输入理解界面,实现了感知层面的“原生化”[5] - 当前主流(2024-2025)是强化学习驱动的视觉语言模型,如伯克利的DigiRL、智谱的AutoGLM、字节的UI-TARS等,使得智能体能在与OS环境的持续交互中优化策略,具备自主执行任务的能力[5] 当前技术面临的挑战与局限性 - **生态覆盖有限**:面对微信、淘宝、小红书等高频应用,智能体常因无法精准调起原生应用,被迫降级为网页搜索或通用问答,“服务直达”退化为“内容检索”[10][11] - **复杂任务能力不足**:测评显示,豆包手机助手在59.86%的复杂任务上取得成功,失败案例集中在复杂指令解析精度不足、动态环境执行鲁棒性缺失、长程交互上下文管理混乱等方面[10][11] - **隐私安全风险**:当前架构严重依赖云侧GUI模型处理屏幕理解与操作,相当于将用户数字生活映射至云端,触及了应用厂商的数据红线,已导致对微信、淘宝等核心应用的支持被暂停[9] - **个性化与主动服务能力不足**:本质仍是“用户下令-智能体执行”的被动工具,缺乏对用户深度理解,无法提供基于个人习惯的主动服务[12] 端侧智能的未来演进方向 - **端侧智能(隐私安全)**:未来AI手机生态必须确立“端侧原生、端云协同”原则,涉及用户隐私、实时交互的私有数据必须在端侧形成闭环,云侧则处理通用逻辑与专业需求[12][14] - **全模态智能(环境感知)**:下一代感知需从“多模态”走向“全模态”,在统一架构下融合文本、图像、视频、音频等信息,并从“静态采样”走向“动态流式”处理,实现实时增量式理解与决策[18][19][20] - **自主智能(复杂决策)**:需在泛化性、自主性与长程性三个维度实现突破,让智能体具备零样本泛化能力、应对动态环境的反思与错误恢复机制,以及管理长程交互上下文的类人记忆架构[22][24][25][27] - **主动智能(个性化服务)**:需完成从“被动响应”到“主动智能”的范式跃迁,具备基于用户历史行为和环境状态的意图预测能力,并通过“预先填充确认”等方式大幅降低用户交互成本[29][30][31] 行业竞争格局与未来展望 - **短期(1年内)**:预计更多手机助手将上市,应用厂商与操作系统厂商之间的“软硬对抗”将加剧,可能引发类似Web端“爬虫与反爬虫”的GUI层面技术对抗[35] - **中期(2~3年)**:竞争焦点将转向“个性化”,端侧模型通过持续学习用户数据,将进化成“持续成长的个人专属助手”,形成用户无法迁移的体验壁垒[36] - **长期(3-5年)**:端云协同架构走向成熟,高隐私与高频任务由端侧闭环处理,超复杂任务路由至云侧,同时将催生以智能座舱、AI眼镜为代表的AGI时代新型端侧硬件形态[38][40] - 大模型能力密度遵循“每3.5个月翻倍”的法则,技术发展正从“尺度驱动”转向“能效驱动,通过稀疏模型架构、软硬协同加速等技术,让更小模型实现更强性能,是端侧智能普及的关键[15][16]
豆包手机引发的思考:AgentVS超级App,AI公司VS手机厂商
新财富· 2025-12-16 16:22
文章核心观点 - 字节跳动推出的豆包手机助手技术预览版,通过系统级GUI Agent实现了跨应用自动操作,标志着AI手机从“以App为中心”向“以用户意图为中心”的范式转变,并引发了与超级App的生态冲突 [5][8] - 系统级Agent与超级App内Agent代表了两种不同的技术路线和商业模式,其核心冲突在于对用户意图入口和操作权限的争夺,行业可能走向重新划分权力边界的共存方案 [14][17] - 字节跳动率先推出豆包手机,是其寻找新增长入口、绕开阿里腾讯既有优势的战略实验,而华为、小米、三星、苹果等手机厂商基于各自的软硬件生态,采取了不同的Agent发展策略 [20][22] 豆包手机的突破性意义 - 技术演进:GUI Agent从依赖固定脚本的“不可理解”阶段,发展到2024年基于多模态视觉识别的“可理解”阶段,并在2025年随着OpenAI Operator等产品的推出走向实用化 [6][7] - 机制突破:豆包手机依托INJECT_EVENTS等系统级权限,实现了无需App开放API即可“看懂”屏幕并操作,其核心在于操作系统层面的高权限,而非模型本身 [8] - 优势体现:任务组织方式从“用户选App再操作”变为“Agent解析用户总任务并调度多个App完成”,理论上具有平台中立性,能缓解跨App流程割裂、操作链条过长等问题 [10][11] - 现状与挑战:当前仍处于“可用但早期”的工程机阶段,复杂链路执行效率、界面变化适应性有待提升,且用户对高权限Agent的隐私与安全存在顾虑 [13] 系统级Agent和超级App的冲突 - 路线对立:冲突本质是“操作系统+App+系统级Agent”与“超级应用+小程序+应用内Agent”两条路线的正面相遇,争夺用户意图的“总入口”地位 [14] - 超级App的反制:微信、支付宝、淘宝等超级App通过屏蔽、风控、人机验证等手段,旨在守住“账号由我监管、入口由我解释”的边界 [3][15] - 未来格局:中长期看,双方可能重新划分权力边界,形成分工合作,系统级Agent负责通用意图理解和基础编排,超级App则在高价值场景内提供标准化接口,形成新的“共存方案” [17] - 模式对比:操作系统+App模式优势在于复用现有生态、培养用户习惯,但模型通用性、本地算力、隐私保护要求高;超级应用+Agent模式优势在于云端统一运行、场景精准,但需重建以超级App为核心的生态 [18] 主要厂商在Agent方面的进展 - 华为:采用自研鸿蒙OS+自研大模型,将小艺深度写入系统,向“AI native OS”演进,致力于打造系统级、跨终端(手机、车机、穿戴、家居)的统一Agent [22][23][25] - 小米:路径是“系统助手+生态助手”结合,在HyperOS中整合AI能力,小爱同学叠加大模型,重点强化手机与AIoT设备之间的协同,打造人车家一体场景 [22][23][25] - 三星:深度绑定Google,以Google Gemini为核心打造Galaxy AI,自身侧重硬件与体验打磨,在安卓阵营中做Gemini的最佳载体 [22][24][25] - 苹果:坚持软硬一体,iOS 18的Apple Intelligence是唯一官方全局Agent(新Siri),第三方模型(如ChatGPT)只能作为可选插件接入,强调本地推理与隐私保护 [22][24][25] - 字节跳动:推出豆包手机是“重构入口的实验”,战略意图在于通过“硬件+AI模型+新入口”的组合,绕开阿里、腾讯的既有优势,寻找新增量 [20][21]
豆包手机触碰了大厂APP的“逆鳞”
36氪· 2025-12-16 07:28
文章核心观点 - 字节跳动推出的豆包手机通过GUI Agent技术实现了跨应用自动化操作,短暂成为市场焦点,但迅速遭到腾讯、阿里等互联网大厂的生态封杀,凸显了下一代AI流量入口争夺战中,互联网应用厂商与终端硬件厂商之间深刻的利益冲突[1][2][3] - 豆包手机事件将软硬件之争公开化,其背后是互联网巨头与手机厂商围绕“超级AI入口”控制权的博弈,核心矛盾在于GUI Agent可能绕过应用层,颠覆以广告为核心的现有流量与商业模式[13][15] - 智谱公司随后开源AI Agent模型“AutoGLM”,可能大幅降低技术门槛,使得巨头难以围堵未来可能出现的海量个性化Agent,从而加速手机交互革命的进程[21] 互联网巨头抢夺下一个流量入口 - 互联网行业增长乏力,陷入“流量焦虑”,当前中国移动互联网近一半行业的TOP3应用已通吃近八成的流量[4] - DeepSeek的爆火使AI to C应用成为新的增长窗口,阿里、腾讯、字节跳动等头部公司争相“抢滩”大模型,争夺AI时代的下一个流量入口[5] - 字节跳动的豆包应用增长迅猛,2025年10月日活跃用户量达到5410万,而同期腾讯元宝的日活跃用户量仅为560万,两者相差近10倍[6] - 阿里在C端入口争夺中摇摆,3月定夸克为旗舰,11月紧急重启并改名“千问”,次日蚂蚁上线“灵光”,阿里CEO吴泳铭明确表示公司必须有一个AI原生的C端超级入口,目标直指豆包[8] - 手机厂商通过AI助手成为互联网大厂在“下一代流量入口”争夺中的共同对手,其掌握的GUI Agent技术被视作针对互联网行业的“达摩克利斯之剑”[8] 手机Agent碰撞大厂APP - 手机Agent主要有API和GUI两种技术路线,API模式主动权在应用厂商,GUI模式则通过“看屏幕、点按钮”模拟用户操作,更直接但也更“野蛮”[9][10][11] - GUI Agent被类比为“外挂”,其威胁在于可能使用户无需打开App即可完成任务,导致应用广告曝光和用户停留时间等核心KPI作废,冲击互联网公司的广告收入模式[12][13] - 广告收入是互联网行业核心:2025年前三季度,阿里巴巴客户管理收入约占总营收31%;腾讯三季度广告收入达362.4亿元,连续十二个季度保持双位数增长;美团三季度在线营销服务收入占其核心本地商业板块收入的21%;字节跳动2025年上半年广告收入占总收入近60%[14][15] - GUI Agent将用户操作截留在手机系统层,可能使“下一代流量入口”变为手机Agent,导致移动互联网价值链从互联网大厂向终端硬件厂商转移[15] - 手机厂商AI助手用户增长迅速:2025年9月,六大手机厂商AI助手用户规模整体达5.35亿,是互联网/AI科技企业原生App整体用户规模2.87亿的近2倍,一年内合计增长6500万用户[16] - 具体厂商AI助手渗透率高:如OPPO小布助手渗透率达70.9%,小米超级小爱渗透率达70.8%[17] 互联网想做硬件,硬件想做爆款App - 微信对自动化工具管控严格,明确禁止通过非授权第三方工具进行自动化操作,并已封禁华为小艺、小米小爱等手机AI助手直接调用微信功能[18] - 支付宝风控逻辑类似,将AI助手行为判定为“外挂脚本”而拒绝登录[18] - 阿里高调进军硬件领域,发布首款自研AI眼镜,由“千问大模型”驱动并接入阿里系应用,旨在打造统一的C端入口链接生态[18] - 手机厂商加速“超级Agent”研发和生态布局,华为、苹果、谷歌以API为主,荣耀以GUI为主,OPPO、Vivo等采用混合路线[19] - 字节跳动对硬件侧布局由来已久,包括收编坚果手机团队、收购PICO和Oladance,并发布AI智能体耳机,豆包手机是其内部孵化的消费级产品,旨在拓展日均字符串调用量份额[20] 行业格局演变与未来展望 - 豆包手机发布后遭联合围堵,将软硬件之争彻底公开化,并催生更多连锁反应[20] - 大模型厂商智谱于2025年12月9日开源其核心AI Agent模型“AutoGLM”,旨在将该能力变为行业共同拥有的公共底座[21] - 开源举措的杀伤力在于将“大厂核武器”级技术变为开发者唾手可得的工具,技术门槛被夷平后,巨头难以围剿未来可能基于开源框架出现的海量个性化Agent[21] - 豆包手机事件带动了市场对GUI Agent的热情,可能加速一场手机交互的创新革命[21] - 市场留给巨头们一边加紧自身进度,一边防范别人取得成功的窗口期已经不多[22]
豆包“撕裂”AI手机
投中网· 2025-12-13 14:49
文章核心观点 - 豆包手机(努比亚M153技术预览版工程机)作为一款由大模型公司主导、通过系统级AI Agent重构操作系统的AI手机,其激进的技术路线和强大的通用任务能力引发了行业震动,并因触及现有移动生态的边界而与传统互联网平台发生冲突,标志着AI手机赛道两条主要技术路线的正面碰撞,加速了行业对下一代“超级入口”的争夺与重构 [6][7][22] 1. 豆包手机的产品表现与市场反响 - 豆包手机(努比亚M153技术预览版工程机)并非正式产品,是豆包与中兴旗下努比亚联合开发的AI手机技术预览版,豆包手机助手被深度嵌入操作系统 [6] - 产品在二手市场价格飙升,原价3499元的手机一度被炒至3.6万元,显示出市场的高度关注与分歧情绪 [6] - 产品功能强大,可执行跨应用连续操作,如在B站答题、在多邻国打卡、跨平台比价下单,被评价为“像人一样玩手机” [6] - 产品同时存在频繁“死机”、任务中断及隐私担忧等问题,导致大量用户保持观望 [6] 2. AI手机行业的技术路线分野 - 行业存在两条主要技术路线:一条是以传统手机厂商为代表的“软硬一体”渐进式AI升级;另一条是由大模型公司主导、通过系统级AI Agent重构操作系统的跳跃式路径,豆包手机属于后者 [7] - 2025年之前,行业普遍采用传统方案,即AI助手通过APP的SDK接口执行任务,高度依赖接口开放程度,早期语音助手如Siri、小爱同学属于此类 [9] - 当前主要方案是基于GUI Agent(图形用户界面智能体),由大模型直接识别屏幕内容并模拟人类手势操作,无需调用SDK接口,但通常需要获取系统级权限,豆包手机是典型代表 [9] - 豆包手机的技术原理是基于视觉语言模型方案,通过读取屏幕权限进行操作,该方案在行业中已有实践,并非突破性创新 [10] - 豆包手机的突出之处在于其通用任务能力,能自主进行信息检索、调用陌生APP并规划复杂任务(如结合地图应用判断会议延迟是否影响接孩子),试图构建不依赖预设场景的通用智能体,而多数厂商的AI功能仍局限于有限场景的自动化 [11] 3. 引发的冲突与核心挑战 - 豆包手机的“跨应用连续操作”能力触及了现有移动生态的边界,导致微信、支付宝、淘宝等超级APP对其自动化操作采取了技术性“封堵”,限制登录或禁止AI操作 [14] - 冲突核心在于操作权限的判定标准差异:APP端的风控机制监测到非人为操作(如利用Android的INJECT_EVENTS权限模拟输入)会触发保护;而AI方则认为这是用户授权下的人机协同 [15] - 基于GUI Agent的技术路径面临三项核心用户体验挑战:隐私安全、结果“幻觉”与执行效率 [16] - 隐私安全方面,AI执行任务时需将必要页面信息上传云端推理,但通常不会全程全量上传屏幕数据;通过功耗表现推测,AI并非“24小时窥屏”,而是“按需触发”;支付等敏感环节会中断流程由用户手动确认 [16][17][18] - “幻觉”问题指AI错误理解或执行任务,例如错误筛选商品或勾选错误商品,行业共识是在现有技术下追求100%准确率不现实 [19] - 执行效率上,AI完成复杂任务(如跨应用比价)需耗时数分钟,远慢于人工,主要因需等待界面完全加载稳定后才能识别操作,且受主流应用技术限制,实际可用范围受限 [19] 4. AI手机的战略意义与竞争格局 - AI手机赛道正成为科技公司争夺AI时代“超级入口”的核心战场,新的入口将从“用户主动点开应用”转向“智能体自动代办”,掌握入口意味着掌握用户注意力与数据流动主导权 [22] - 相比AI眼镜、耳机、智能汽车或机器人,手机拥有庞大的用户基数、极高使用频次和成熟生态,是AI时代最现实的超级入口载体 [22] - 当前大多数“AI手机”体验未达颠覆性,整体处于探索期;豆包手机的出现迫使各大科技公司重新审视布局 [23] - 竞争格局可划分为三个梯队:第一梯队是垂直整合能力极强的系统级厂商(苹果、谷歌、华为、三星),拥有从芯片到操作系统的全栈架构,能定义新标准但步伐稳健 [24] - 第二梯队是拥有大模型与服务生态的软实力企业(微软、OpenAI、字节跳动等),战略是“以软赋硬”,通过与硬件厂商合作集成模型,但需解决操作权限问题 [25] - 第三梯队是具备规模与硬件经验的终端制造商(小米、OPPO、vivo、荣耀等),优势在于硬件设计、供应链、快速响应市场,可将AI功能快速普及至中低端机型 [26] - 行业最终胜出者必须在开放生态与安全控制之间找到新平衡,博弈远未停止,演进速度将加快 [26]
AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?
36氪· 2025-12-12 16:36
文章核心观点 - 以豆包手机助手为代表的GUI Agent路线,因其模拟用户点击操作、绕过平台官方接口和监管体系,正面临主流应用平台的广泛封禁,凸显了该技术路径与现有互联网生态的冲突[1][2] - 行业正转向以MCP协议为代表的标准化、协议化路径,旨在为智能体AI建立合法、有序、可治理的跨平台互联方式,并已获得包括Anthropic、OpenAI、Google、阿里、腾讯等头部公司的共同推动,形成行业共识[4][7][9] - GUI Agent与MCP协议并非简单的替代关系,未来很可能形成互补格局:GUI作为在未改造旧生态中的过渡方案,MCP则作为构建未来智能体互联网秩序与互操作性的底层协议[12][19][20] 行业技术路径冲突与现状 - **GUI Agent路线面临广泛抵制**:豆包手机助手通过让AI“看懂”并模拟操作手机图形界面,实现了不依赖官方接口的自动化操作,但导致微信、支付宝、拼多多、淘宝及多家银行应用对其封禁[1][2] - **冲突根源在于绕过平台秩序**:GUI Agent跳过了产品的业务逻辑、商业链路和风控体系,使平台无法监管智能体与用户数据及关键操作的交互方式,导致责任边界模糊[15] - **监管层面开始明确规范**:中国信通院牵头发布安全指引,强调智能体AI需同时获得“用户授权”与“应用授权”才能合法访问第三方应用,为交互设立了双重授权门槛[15] MCP协议的兴起与行业共识 - **MCP协议旨在建立AI的开放互联协议**:该协议试图解决智能体时代互联网缺乏一套属于AI的开放互联协议的问题,其目标是为AI与外部系统集成提供类似USB-C的统一标准接口[4] - **从公司规范发展为行业事实标准**:MCP最初是Anthropic为Claude设计的统一工具接入规范,用以简化大模型调用外部工具的流程[5];到2025年,“支持MCP”已成为Agent类产品的标配,被VS Code、Cursor、OpenAI、Google以及阿里、字节、腾讯等公司的工程团队广泛采纳[7] - **捐赠至中立基金会标志新阶段**:Anthropic于12月10日将MCP正式捐赠给新成立的Agentic AI基金会,并由Linux基金会托管,标志着协议进入更中立的治理体系,不再属于任何单一公司[4][8] 行业生态的协同演进 - **巨头共同推进协议生态**:除了MCP,Agentic AI基金会的“开山项目”还包括OpenAI捐赠的AGNTS.md(为Agent写使用说明的标准)和Google捐赠的Block(构建智能体和工作流的框架)[9] - **云服务商提供MCP基础设施**:Google推出了完全托管的远程MCP服务器,便于智能体接入其云端服务(如地图、BigQuery)[9];阿里云百炼平台更早推出了全生命周期的MCP服务,包括MCP服务器[9] - **协议化改造是长期过程**:整个互联网生态需要经历“一场漫长的改造”来适配MCP,这意味着基于GUI路线的智能体体验在短期内仍不可或缺[19] 未来智能体生态的展望 - **GUI与MCP将长期共存互补**:GUI路线将继续作为“兜底”方案,在未完成协议化改造的旧生态中运行;MCP则将成为跨系统、跨平台底层互联、明确权限与秩序的主流方式[20] - **终端系统将扮演协调核心**:未来的系统级智能体将能理解用户目标,协调设备、平台与服务,并在平台规则内完成任务[20] - **实现“换大脑不拆线管”的架构**:操作系统提供统一的智能体入口和权限管理,MCP等协议负责与各服务沟通,而如Qwen、Gemini、GPT等大模型则可被灵活插拔替换[20]