GUI Agent
搜索文档
00后大模型实习生「扒光」豆包手机,千字实测揭秘
36氪· 2025-12-10 14:50
豆包手机的技术架构与核心功能 - 豆包手机的核心技术在于其并非一个简单的App,而是在Android Framework层构建了一套操作系统级的影子系统[10] - 该手机具备在锁屏状态下于后台丝滑操作的能力[5] - 在性能测试中,豆包手机展现出极高速度,例如在B站的测试中达到3秒答完1道题,5分钟完成100道题的速度[6] 双模式Agent系统设计 - 公司将Agent拆分为两套完全不同的技术栈:标准模式(快)和Pro模式(慢且鲁棒),类似于人类认知中的System 1(直觉)和System 2(推理)[10] - 标准模式主要依赖浅层视觉语言模型,响应极快,体感延迟小于500毫秒,但缺陷在于其“直觉”反应可能导致误操作,例如点击图片中的按钮而非真实按钮[14] - Pro模式则涉及深度推理与工具调用,在执行指令前有明显的“暂停+思考”过程,具备自我反思能力,并能进行复杂的多跳检索和直接调用System API[15] - 豆包手机助手实际使用了UI-TARS 2.0闭源版本,其性能大幅优于开源版,并针对手机场景专门优化[15] 混合感知与视觉理解能力 - 公司通过XML+Vision动态路由技术解决环境噪声干扰这一Agent落地核心挑战[16] - 在复杂UI场景(如地图应用)中,AI能够理解并执行包含颜色语义、空间关系和物体检测的复杂指令,例如“点击深红色最堵路段旁边的施工图标”[16][19] - 技术路线推测为:标准UI走XML解析,非标准UI则走视觉路线(通过截屏分析,但更费电)[20] - 视觉路线的存在被证实,因为VLM具备像素级的“开放词汇定位”能力,而安卓的“无障碍树”在复杂渲染界面中往往信息缺失[17][18] 操作系统级虚拟化与并行处理 - 豆包手机实现了OS级的虚拟化,采用“并行运行时”架构,允许Agent在后台执行长任务,即使用户切换至其他应用也不会中断[21] - 该架构可能基于“影子屏幕”实现“输入隔离”,即物理屏幕处理用户交互(如打电话),逻辑屏幕则运行Agent任务,形成了“双并行宇宙”结构,解决了Agent抢占前台导致手机卡顿的问题[21] 工程优化与隐私安全设计 - 在工程上,Agent会在每个操作结束后强制引入1000毫秒至5000毫秒的固定延迟,以对抗APP的异步加载或骨架屏,用时间换取操作成功率[23][25] - 在隐私安全方面,视觉管道是经过过滤的,并非持续录屏监控,这从物理层面避免了手机过热[26][27] - 其隐私设计基于“任务层级”进行针对性屏幕内容抓取,例如在测试中,AI截取的画面仅包含主应用界面,自动排除了画中画悬浮窗,实现了对视频通话、金融APP安全键盘等敏感内容的物理隔离[28] - 该设计被描述为包含了隔离机制、熔断策略和本地化处理的安全、可靠代码逻辑[28] 记忆、工具调用与系统韧性 - 在Pro模式下,数据的调用非常精准,例如在响应“验证码有什么数学特征”指令时,系统并非暴力进行全屏OCR,而是通过Client向Server发起特定请求,其系统授权部分可能形成了一个RAG-MCP架构[32] - 对于长列表内容,Agent采用类似Playwright测试框架的行为:滚屏→进行DOM差异对比→提取增量信息→拼接,以此解决跨屏上下文问题[33] - 系统展现出强大的韧性,例如在尝试读取Outlook最新邮件失败时,Agent不会报错退出,而是自动降级读取第二封邮件,并尝试合并第一封邮件的列表页预览信息进行汇报,这表明其规划器关注的是“任务目标”而非固定的操作序列[34][35][36] 底层模型:UI-TARS的演进与开放 - 豆包手机助手GUI操作能力的核心基于UI-TARS模型,其开源版本已向业界开放[43] - UI-TARS是一个将屏幕视觉理解、逻辑推理、界面元素定位和操作整合于一体的多模态模型[44] - 该模型迭代迅速,在2025年内就完成了三次主要版本更新:2025年1月发布第一代,2025年4月发布UI-TARS-1.5,2025年9月发布UI-TARS-2[46] - 其性能在AndroidWorld基准测试上持续提升:v1得分46.6,v1.5得分64.2,v2得分73.3[47] - 技术驱动不断演进:v1核心为监督微调+DPO,v1.5引入强化学习与推理扩展,v2则建立了数据飞轮与多轮强化学习的自我进化训练系统[47] - 交互能力从纯GUI界面,扩展到初步游戏场景,再到支持终端和文件系统操作[47] 行业意义与GUI Agent发展 - 豆包AI助手是当前GUI Agent浪潮的典型代表,GUI Agent代表着AI与人类交互的“新前沿”,其目标是让模型能够像人一样观看屏幕并操作[48] - 端侧小模型的出现使得GUI可以被结构化理解,再与API融合,从而形成了“统一的智能交互层”,解决了早期API路线与GUI路线难以统一的问题[48] - 近两年多模态原生大模型(如Gemini 3、GPT-5.1)的跃迁式迭代,为GUI Agent走向大众奠定了基础,使LLM能够理解图片、视频、UI元素,并具备长上下文记忆能力[50] - 高阶的GUI Agent需要深度嵌入操作系统,豆包手机证明了将AI助手作为OS级原生能力的可行性,并定义了下一代AI手机的形态[55][57] - 行业观点认为,豆包手机的出现是GUI Agent时代划时代的标志,它让Agent从可操作界面迈向了深度的系统集成[57][58]
徐新成为张一鸣“新股东”,以3.4万亿估值拿下字节跳动部分股权;任正非强调AI重在应用;理想AI眼镜重量仅36g丨AI产业周报
创业邦· 2025-12-07 09:08
文章核心观点 文章汇总了2025年11月29日至12月5日期间全球人工智能领域的重大新闻与投融资动态,核心观点在于展示AI技术在多领域(如机器人、大模型、芯片、应用)的快速迭代与商业化进程,以及资本市场对AI产业持续且高强度的关注与投入 [5][6] 行业动态与公司进展 机器人领域 - **美的集团**首次官宣布局三类机器人,包括工业机器人智能化、家电机器人化、人形机器人价值化,并特别提出“超人形机器人”概念,旨在突破人形极限以在特定场景实现最高效率和最低成本 [7][8] - **众擎**发布全尺寸人形机器人T800,身高1.73米,自重75公斤,续航4-5小时,公司称其性能超越80%的1.7米男性,综合运营成本仅为人力成本的1/3,定价18万元起 [15] - **特斯拉**人形机器人“擎天柱”团队发布了其跑步视频,刷新了实验室个人纪录 [25] - **宇树科技**已完成IPO辅导工作,该公司是全球首家公开零售高性能四足机器人并最早实现行业落地的公司 [20] - **商汤科技**联合创始人王晓刚出任大晓机器人董事长,该公司将于12月18日发布产品及国内开源商业应用的“开悟”世界模型3.0 [20] - **清华大学**正式成立具身智能与机器人研究院 [24] 大模型与AI应用 - **字节跳动**发布120亿参数视频理解大模型Vidi2,新增精细时空定位功能,能处理数小时原始素材并生成片段,其视频理解能力据称超越Gemini3 pro [18] - **OpenAI**为应对竞争进入“红色警戒”状态,推迟广告业务以集中资源改进ChatGPT,同时正在开发代号为“大蒜”的新模型,据称在编程与逻辑推理测试中优于谷歌Gemini3.0及Anthropic Opus4.5 [13][29] - **可灵**推出视频生成2.6模型,提供“音画同出”能力,能在单次生成中输出带音效的完整视频,视频长度最长可达10秒 [11][12] - **阶跃星辰**开源了GUI Agent技术套组GELab-Zero及4B参数模型,该模型在手机、电脑端GUI任务榜单上取得SOTA成绩 [18] - **豆包手机助手**计划对AI操作手机能力进行规范化调整,将限制刷分、金融类应用及部分游戏场景的使用 [9] - **蔡浩宇旗下AI公司**上线聊天软件AnuNeko,功能包括聊天、查资料、解答问题,但无法生成表格PPT且数据库停留在2023年 [11] - **京东**宣布数字人直播免费向所有商家开放 [17] - **京东、美团、拼多多等8家平台企业**签署全国首份《促进AI技术规范应用承诺书》,以规范AI技术在电商领域的应用 [21] - **小鹏汽车**就AI生成的虚假低俗视频正式报警,谴责滥用AI技术抹黑公司形象的行为 [27] 芯片与基础设施 - **亚马逊云科技**推出定制AI芯片Trainium3,运算速度是上一代的四倍,与使用同等GPU的系统相比,可将训练和操作AI模型的成本降低多达50% [30] - **清微智能**完成超20亿元人民币C轮融资,资金将投向下一代可重构芯片研发及智算场景落地 [18] - **英伟达CFO**反驳“AI泡沫论”,指出新增算力在不断叠加,全球经济处于向AI数据中心基础设施转型的“早期阶段”,并预测到2030年末全球AI投资将达3万亿至4万亿美元 [24][25] 企业战略与资本市场 - **Anthropic**已启动IPO筹备工作,最早或于2026年上市,据传其在一轮私人融资谈判中的估值将超过3000亿美元 [12] - **徐新掌管的今日资本**以约3亿美元收购字节跳动部分股权,对应估值高达4800亿美元(约合人民币3.4万亿元) [19] - **三星电子**成立AI研究院,并任命30多岁的常务李康旭为首任负责人,以引领下一代AI技术研究 [21] - **Meta**聘请了苹果资深人机界面设计负责人Alan Dye担任首席设计官 [22] - **朱啸虎**评论OpenAI上市,认为其在一级市场募资非常容易,估值3000亿美元的融资远超市,上市没有必要性 [22] - **理想汽车**发布AI眼镜Livis,重量仅36克,比行业主流轻20%,续航达18小时 [9] - **Mistral AI**正式发布基于Apache 2.0开源协议的Mistral 3模型系列 [32] - **Anthropic**收购开发工具初创公司Bun,将其作为AI编码产品的基础架构 [32] - **谷歌联合创始人布林**捐赠了价值逾11亿美元(约77亿元人民币)的Alphabet股票,主要流向其创立的非营利机构 [29] 投融资概览 整体情况 - 本周期全球披露AI融资事件22起,较上一周期减少9起,其中14起披露金额,总融资规模为76.48亿元人民币,平均融资金额为5.46亿元人民币 [35] - 融资阶段分布:早期14个、成长期4个、后期4个 [38] - 本周国内AI领域已披露融资总额为4.22亿元人民币,融资额最高的为具身智能机器人研发商**戴盟机器人**,完成1亿元人民币A轮融资 [44] - 本周海外AI领域已披露融资总额为72.27亿元人民币,融资额最高的为AI图像生成模型开发商**Black Forest Labs**,完成3亿美元B轮融资 [53] 地区分布 - 本周国内获投AI企业地区主要集中在广东(6起)、上海(2起)、安徽(2起)、北京(2起)、山东(1起) [41] 其他融资事件 - **他山科技**(AI触觉感知)在三季度连续完成A3、A4轮数亿元融资,共有13家资方入局 [19][20] - **超智**(上海智能机器人研发商)完成天使轮融资,投资方包括卡倍亿、宏润建设 [49] - **美酷瑞**(上海AI游戏开发商)完成天使+轮融资 [49]
保守的谷歌,激进的豆包
36氪· 2025-12-05 18:23
文章核心观点 - 技术创新必须在尊重用户权益和遵守监管要求的前提下进行,过于激进、试图绕过现有安全体系和合作模式的方案难以推进 [1][5][15] - 豆包手机助手近期对其AI操作手机能力进行规范化调整,特别是限制金融类应用的使用,姿态从强硬转向愿意与相关厂商沟通合作 [4] - 全球AI Agent(特别是GUI Agent技术路线)发展迅速,但主流厂商(如谷歌、苹果、百度、华为)普遍采取通过API与开发者合作的审慎路径,豆包的激进方案引发了关于安全、合规与责任的争议 [6][7][10] 豆包手机助手事件与方案调整 - 豆包手机助手发布说明,计划对AI操作手机能力进行规范化调整,包括进一步限制银行、互联网支付等金融类应用的使用,并暂时下线操作这类APP的能力 [4] - 调整原因是金融场景直接关联用户资金安全,虽然操作需用户授权,但为审慎起见做出此决定 [4] - 公司表示愿意与相关厂商沟通,共同制定清晰、安全的AI操作行为准则,姿态较此前更为柔软 [4] - 此次调整意味着豆包降低了其方案的激进程度,此前的方案突破了传统的用户安全体系、监管体系及厂商合作模式的边界 [5] GUI Agent技术路线与行业实践 - 豆包的方案属于GUI Agent技术路线,该技术基于多模态视觉模型驱动,能自动推理并执行图形用户界面交互以完成任务 [6] - 全球范围内,主流智能助手(如苹果Siri、谷歌Google Assistant)严格遵循API调用方式,避免直接触碰应用程序核心功能,以保证用户隐私、数据安全并避免与开发者或监管机构的冲突 [7] - 国内厂商如百度、华为在推出智能助手时,也选择与应用程序开发者合作,通过API接口实现功能对接 [7] - 大模型独角兽阶跃星辰在豆包手机助手发布两天前,开源了同类型的GUI Agent技术套组GELab-Zero [7] - 豆包手机助手选择了更为激进的路径,试图通过用户授权直接操作微信、支付宝等主流App的界面,绕过了其安全体系 [7] 豆包激进方案面临的核心挑战与风险 - 该方案挑战了互联网合作关系,并忽视了成熟的互联网账号安全体系,如登录验证、双重验证、权限控制及反欺诈检测系统 [8] - 绕过这些安全机制存在风险,可能导致用户账号被窃取、隐私信息泄露、数据被篡改,并使异常行为难以被检测 [8] - 方案核心争议在于忽略了行业在账号安全和监管方面的“防护栏”,微信、支付宝等App已建立严格机制防止第三方程序绕过官方授权 [9] - 在金融支付领域,监管对数据安全和用户隐私要求尤为严格,豆包的方案可能违反相关法律法规 [9] - 方案涉及关键责任问题:作为第三方平台,豆包是否能接过所有App的平台责任并满足监管需求,尤其是在涉及用户财产安全的金融支付领域 [10] - 从全球范围看,任何试图绕过应用开发者和监管机构的方案都难以获得广泛支持,可能引发监管审查和处罚 [10] 行业稳健发展的合作路径与参考案例 - 谷歌助手(或Gemini)在调用第三方应用时,会清晰列出需要访问的用户数据和权限,用户必须主动登录Google账号并点击授权才能继续 [11] - 在涉及用户隐私的应用如邮箱时,谷歌表现克制,Gemini只有在用户请求时才会调用相关数据,且不会进行发布邮件等敏感行为 [12] - 国内OPPO和支付宝的合作提供了参考,支付宝发布了AHA智能体互联协同解决方案,通过安全可控的方式实现智能助手与应用程序之间的高效协作 [14] - AHA方案构建了一个智能体互联枢纽,连接手机操作系统、AI大模型及第三方应用服务,并遵循严格的安全标准和透明的用户授权机制 [14] - 该方案具备开放性和兼容性,能够接入不同厂商的AI助手和各类应用,为行业提供标准化互联互通平台 [15] - 工信部、信通院等机构正在积极推进国家多智能体互联的标准,工信部牵头的《人工智能 智能体互联》系列标准已发布,蚂蚁集团作为核心参编方,AHA方案是重要业界实践参考 [15]
小米集团:近期豆包 AI 智能手机助手发布后的观点
2025-12-05 14:35
行业与公司 * 行业涉及智能手机与人工智能AI代理领域 公司重点关注小米集团[1][7][10][11][22] * 报告由高盛Goldman Sachs发布 涵盖对小米公司的投资评级与财务预测[23][25][33] 核心观点与论据 AI智能手机助手发展动态 * 字节跳动于12月1日发布了豆包AI智能手机助手的预览版 该系统级图形用户界面GUI代理集成豆包大模型 具备视觉屏幕内容解读和执行跨应用多步骤任务的能力[1] * 豆包AI助手采用混合处理模式 结合端侧AI用于实时任务和云侧AI用于复杂决策 并具备多模态能力[7] * 除字节跳动外 StepFun等AI初创公司也专注于硬件AI助手 并在11月底发布了首个完全开源的GUI代理GELab-Zero 其GELab-Zero-4B-preview模型在多项GUI基准测试中达到SOTA水平[2][8] * 硬件AI助手在豆包大模型上生成巨大流量 5月日均生成1.3万亿tokens 占豆包总token消耗的8%[7] 行业竞争格局与挑战 * 中国智能手机市场集中度高 前六大厂商占据90%以上的出货份额 新进入者市场空间有限[10] * AI与消费电子终端融合趋势持续 主要中国智能手机品牌年内已在操作系统升级中嵌入原生AI助手[10] * AI助手进一步集成面临三大挑战:主流手机厂商的系统级操作权限和内存能力优势 以及跨应用接口连通性问题[9] 小米公司的AI战略与进展 * 小米积极布局AI 研发端侧和云侧大模型 2025年AI研发投入预计超过70亿元人民币 占其总研发费用320亿元人民币的22%[11] * 公司已发布多个专业大模型 涵盖视觉、音频、语音等领域 并于11月21日新推出跨具身基础模型MiMo-Embodied[11][21] * 小米的AI代理"超级小爱同学"是中国市场月活跃用户数排名前三的原生AI助手之一 在小米智能手机用户中的渗透率达到71%[11][19] * "超级小爱同学"具备多场景能力 包括社交媒体互动、电商购物、生产力服务以及本地信息记忆[11] * 小米拥有全球最大规模的互联AIoT设备生态 截至2025年第三季度连接设备数约10亿台[11] 其他重要内容 投资观点与财务数据 * 高盛对小米给出"买入"评级 12个月目标股价为53.5港元 相较当前价格有33%上行空间[22][23][25] * 看好小米基于"人车家全生态"战略的长期生态系统扩张 预计2024-2027年营收和每股收益复合年增长率分别为24%和28%[22] * 财务预测显示 公司2025年预期营收为4694.089亿元人民币 每股收益为1.60元人民币[25] 市场数据对比 * 与中国智能手机市场高度集中相比 中国新能源汽车市场更为分散 前14大厂商份额总和为89% 为新进入者提供了更多机会[10][16][17] * 中国智能音箱市场也呈现高集中度 小米份额从2019年的28%扩大至2025年的45%以上[14][15]
告别GUI Agent工程基建噩梦:阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
量子位· 2025-11-30 14:45
公司核心产品发布 - 阶跃星辰开源了名为GELab-Zero的GUI Agent模型及其完整配套基础设施,支持一键部署[1] - 该产品包含三个主要部分:一个能在本地运行的GUI Agent模型(GELab-Zero-4B-preview)、一套即插即用的完整推理工程基建、以及基于真实业务场景的自建评测标准AndroidDaily[14] 模型性能与优势 - 其4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩[2] - 该4B预览版模型在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA,其表现甚至超越了参数量更大的GUI-Owl-32B等模型,性能更优且更易部署[11][13] - GUI Agent基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低[4] 产品能力与场景应用 - 模型能够很好地执行复杂任务和模糊指令,可以准确、流畅地执行涉及多步骤、多主体、重复操作的任务,也能对偏笼统和主观性的指令进行自主拆解并确定执行路径[24] - 示例场景显示,模型能在外卖平台完成同时采购跨品类、不同规格和数量商品的复杂任务,也能在企业福利APP中领取餐券,展示了其在国民级APP和小众平台上的任务泛化能力[17][18][19] - 对于模糊指令,如“找个周末能带孩子去玩的地方”,模型能自主搜索、判断衡量标准并为用户推荐地点及提炼亮点[22][23][24] 技术架构与基础设施 - 针对GUI智能体构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验[25] - 具体能力包括:支持4B模型在消费级硬件上运行的轻量级本地推理、提供统一部署流水线的一键任务启动、可分发到多台手机并记录交互轨迹的多设备任务分发、以及涵盖ReAct闭环、多智能体协作和定时任务等多种工作模式[26] - 这套基础设施旨在降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施,以推动移动端Agent真正规模化[7][30] 评测基准创新 - 公司同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展[5] - AndroidDaily是一个面向真实世界、动态演进的多维基准体系,聚焦现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择高频使用、日活排名靠前的代表性主流应用进行测试,高度还原真实任务执行流程[33] - 该基准采用静态评测和端到端评测双轨评估体系,其中静态测试包含3146个actions评估数值准确率,端到端测试包含235个任务以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力[35][37][38]
聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?
量子位· 2025-11-04 13:06
行业趋势与竞争格局 - 移动智能技术迭代推动手机端AI"超级入口"成为行业竞争新焦点,GUI Agent技术具备重塑流量分发格局的潜力,催生千亿级市场机遇[1] - 苹果、华为、字节跳动、美团、智谱AI等多家企业已积极布局该赛道,行业进入快速发展阶段[1] - 美团于2025年9月14日率先推出首个AI Agent,支持平台内"一句话点餐",标志着技术从研发走向实用化[1] 中兴通讯技术表现与商业化进展 - 在2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,中兴通讯Nebula-GUI模型以7B参数量获得总榜银牌,总分84.38分,UI元素定位得分93.17分[1][2] - 该模型在自动点餐、订票等复杂任务中,准确率与操作速度远超业界其他模型,具备手机端侧部署落地能力[1] - Nebula-GUI的"一句话订票"、"一句话拍照"功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用[3] - 截至当前,该模型已覆盖30余款主流APP,常用场景平均准确率超90%,未来计划进一步覆盖手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级服务[3] 核心技术优势:数据制备系统 - 中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统,显著提升数据标注效率与质量[8] - 基于该系统生成的数据占训练数据的90%,整体覆盖出行、社交、生活服务等多元场景下的主流APP[8] - 通过引入GUI数据标注工具,数据标注效率实现了3倍提升,解决了中文GUI数据稀缺(公开英文数据集达百万级,中文数据仅数千组)、标注粒度粗、跨APP操作复杂任务轨迹数据不足等行业难题[9][12] 模型训练与优化方法论 - 公司通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,使通用多模态模型进化为具备"感知-理解-执行-规划-纠错"能力的GUI操作智能体[22] - 自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,同时整合了数百万条以英文为主的GUI样本,显著提升模型基础感知与语义理解能力[25][26] - 通过大量指令数据和精确思维链引导,模型单步操作平均准确率超过95%,部分简单指令操作达到99%准确率[31] - 引入双层强化学习范式,通过离线步骤级连续奖励与在线任务级强化的协同训练,设计了基于目标控件边界框的自适应空间感知连续奖励函数、基于概率模型的推理质量评估奖励及逻辑一致性奖励,提升模型决策效率与泛化能力[43][46][48]