Workflow
GUI Agent
icon
搜索文档
豆包手机引发的思考:AgentVS超级App,AI公司VS手机厂商
新财富· 2025-12-16 16:22
文章核心观点 - 字节跳动推出的豆包手机助手技术预览版,通过系统级GUI Agent实现了跨应用自动操作,标志着AI手机从“以App为中心”向“以用户意图为中心”的范式转变,并引发了与超级App的生态冲突 [5][8] - 系统级Agent与超级App内Agent代表了两种不同的技术路线和商业模式,其核心冲突在于对用户意图入口和操作权限的争夺,行业可能走向重新划分权力边界的共存方案 [14][17] - 字节跳动率先推出豆包手机,是其寻找新增长入口、绕开阿里腾讯既有优势的战略实验,而华为、小米、三星、苹果等手机厂商基于各自的软硬件生态,采取了不同的Agent发展策略 [20][22] 豆包手机的突破性意义 - 技术演进:GUI Agent从依赖固定脚本的“不可理解”阶段,发展到2024年基于多模态视觉识别的“可理解”阶段,并在2025年随着OpenAI Operator等产品的推出走向实用化 [6][7] - 机制突破:豆包手机依托INJECT_EVENTS等系统级权限,实现了无需App开放API即可“看懂”屏幕并操作,其核心在于操作系统层面的高权限,而非模型本身 [8] - 优势体现:任务组织方式从“用户选App再操作”变为“Agent解析用户总任务并调度多个App完成”,理论上具有平台中立性,能缓解跨App流程割裂、操作链条过长等问题 [10][11] - 现状与挑战:当前仍处于“可用但早期”的工程机阶段,复杂链路执行效率、界面变化适应性有待提升,且用户对高权限Agent的隐私与安全存在顾虑 [13] 系统级Agent和超级App的冲突 - 路线对立:冲突本质是“操作系统+App+系统级Agent”与“超级应用+小程序+应用内Agent”两条路线的正面相遇,争夺用户意图的“总入口”地位 [14] - 超级App的反制:微信、支付宝、淘宝等超级App通过屏蔽、风控、人机验证等手段,旨在守住“账号由我监管、入口由我解释”的边界 [3][15] - 未来格局:中长期看,双方可能重新划分权力边界,形成分工合作,系统级Agent负责通用意图理解和基础编排,超级App则在高价值场景内提供标准化接口,形成新的“共存方案” [17] - 模式对比:操作系统+App模式优势在于复用现有生态、培养用户习惯,但模型通用性、本地算力、隐私保护要求高;超级应用+Agent模式优势在于云端统一运行、场景精准,但需重建以超级App为核心的生态 [18] 主要厂商在Agent方面的进展 - 华为:采用自研鸿蒙OS+自研大模型,将小艺深度写入系统,向“AI native OS”演进,致力于打造系统级、跨终端(手机、车机、穿戴、家居)的统一Agent [22][23][25] - 小米:路径是“系统助手+生态助手”结合,在HyperOS中整合AI能力,小爱同学叠加大模型,重点强化手机与AIoT设备之间的协同,打造人车家一体场景 [22][23][25] - 三星:深度绑定Google,以Google Gemini为核心打造Galaxy AI,自身侧重硬件与体验打磨,在安卓阵营中做Gemini的最佳载体 [22][24][25] - 苹果:坚持软硬一体,iOS 18的Apple Intelligence是唯一官方全局Agent(新Siri),第三方模型(如ChatGPT)只能作为可选插件接入,强调本地推理与隐私保护 [22][24][25] - 字节跳动:推出豆包手机是“重构入口的实验”,战略意图在于通过“硬件+AI模型+新入口”的组合,绕开阿里、腾讯的既有优势,寻找新增量 [20][21]
豆包手机触碰了大厂APP的“逆鳞”
36氪· 2025-12-16 07:28
文章核心观点 - 字节跳动推出的豆包手机通过GUI Agent技术实现了跨应用自动化操作,短暂成为市场焦点,但迅速遭到腾讯、阿里等互联网大厂的生态封杀,凸显了下一代AI流量入口争夺战中,互联网应用厂商与终端硬件厂商之间深刻的利益冲突[1][2][3] - 豆包手机事件将软硬件之争公开化,其背后是互联网巨头与手机厂商围绕“超级AI入口”控制权的博弈,核心矛盾在于GUI Agent可能绕过应用层,颠覆以广告为核心的现有流量与商业模式[13][15] - 智谱公司随后开源AI Agent模型“AutoGLM”,可能大幅降低技术门槛,使得巨头难以围堵未来可能出现的海量个性化Agent,从而加速手机交互革命的进程[21] 互联网巨头抢夺下一个流量入口 - 互联网行业增长乏力,陷入“流量焦虑”,当前中国移动互联网近一半行业的TOP3应用已通吃近八成的流量[4] - DeepSeek的爆火使AI to C应用成为新的增长窗口,阿里、腾讯、字节跳动等头部公司争相“抢滩”大模型,争夺AI时代的下一个流量入口[5] - 字节跳动的豆包应用增长迅猛,2025年10月日活跃用户量达到5410万,而同期腾讯元宝的日活跃用户量仅为560万,两者相差近10倍[6] - 阿里在C端入口争夺中摇摆,3月定夸克为旗舰,11月紧急重启并改名“千问”,次日蚂蚁上线“灵光”,阿里CEO吴泳铭明确表示公司必须有一个AI原生的C端超级入口,目标直指豆包[8] - 手机厂商通过AI助手成为互联网大厂在“下一代流量入口”争夺中的共同对手,其掌握的GUI Agent技术被视作针对互联网行业的“达摩克利斯之剑”[8] 手机Agent碰撞大厂APP - 手机Agent主要有API和GUI两种技术路线,API模式主动权在应用厂商,GUI模式则通过“看屏幕、点按钮”模拟用户操作,更直接但也更“野蛮”[9][10][11] - GUI Agent被类比为“外挂”,其威胁在于可能使用户无需打开App即可完成任务,导致应用广告曝光和用户停留时间等核心KPI作废,冲击互联网公司的广告收入模式[12][13] - 广告收入是互联网行业核心:2025年前三季度,阿里巴巴客户管理收入约占总营收31%;腾讯三季度广告收入达362.4亿元,连续十二个季度保持双位数增长;美团三季度在线营销服务收入占其核心本地商业板块收入的21%;字节跳动2025年上半年广告收入占总收入近60%[14][15] - GUI Agent将用户操作截留在手机系统层,可能使“下一代流量入口”变为手机Agent,导致移动互联网价值链从互联网大厂向终端硬件厂商转移[15] - 手机厂商AI助手用户增长迅速:2025年9月,六大手机厂商AI助手用户规模整体达5.35亿,是互联网/AI科技企业原生App整体用户规模2.87亿的近2倍,一年内合计增长6500万用户[16] - 具体厂商AI助手渗透率高:如OPPO小布助手渗透率达70.9%,小米超级小爱渗透率达70.8%[17] 互联网想做硬件,硬件想做爆款App - 微信对自动化工具管控严格,明确禁止通过非授权第三方工具进行自动化操作,并已封禁华为小艺、小米小爱等手机AI助手直接调用微信功能[18] - 支付宝风控逻辑类似,将AI助手行为判定为“外挂脚本”而拒绝登录[18] - 阿里高调进军硬件领域,发布首款自研AI眼镜,由“千问大模型”驱动并接入阿里系应用,旨在打造统一的C端入口链接生态[18] - 手机厂商加速“超级Agent”研发和生态布局,华为、苹果、谷歌以API为主,荣耀以GUI为主,OPPO、Vivo等采用混合路线[19] - 字节跳动对硬件侧布局由来已久,包括收编坚果手机团队、收购PICO和Oladance,并发布AI智能体耳机,豆包手机是其内部孵化的消费级产品,旨在拓展日均字符串调用量份额[20] 行业格局演变与未来展望 - 豆包手机发布后遭联合围堵,将软硬件之争彻底公开化,并催生更多连锁反应[20] - 大模型厂商智谱于2025年12月9日开源其核心AI Agent模型“AutoGLM”,旨在将该能力变为行业共同拥有的公共底座[21] - 开源举措的杀伤力在于将“大厂核武器”级技术变为开发者唾手可得的工具,技术门槛被夷平后,巨头难以围剿未来可能基于开源框架出现的海量个性化Agent[21] - 豆包手机事件带动了市场对GUI Agent的热情,可能加速一场手机交互的创新革命[21] - 市场留给巨头们一边加紧自身进度,一边防范别人取得成功的窗口期已经不多[22]
豆包“撕裂”AI手机
投中网· 2025-12-13 14:49
文章核心观点 - 豆包手机(努比亚M153技术预览版工程机)作为一款由大模型公司主导、通过系统级AI Agent重构操作系统的AI手机,其激进的技术路线和强大的通用任务能力引发了行业震动,并因触及现有移动生态的边界而与传统互联网平台发生冲突,标志着AI手机赛道两条主要技术路线的正面碰撞,加速了行业对下一代“超级入口”的争夺与重构 [6][7][22] 1. 豆包手机的产品表现与市场反响 - 豆包手机(努比亚M153技术预览版工程机)并非正式产品,是豆包与中兴旗下努比亚联合开发的AI手机技术预览版,豆包手机助手被深度嵌入操作系统 [6] - 产品在二手市场价格飙升,原价3499元的手机一度被炒至3.6万元,显示出市场的高度关注与分歧情绪 [6] - 产品功能强大,可执行跨应用连续操作,如在B站答题、在多邻国打卡、跨平台比价下单,被评价为“像人一样玩手机” [6] - 产品同时存在频繁“死机”、任务中断及隐私担忧等问题,导致大量用户保持观望 [6] 2. AI手机行业的技术路线分野 - 行业存在两条主要技术路线:一条是以传统手机厂商为代表的“软硬一体”渐进式AI升级;另一条是由大模型公司主导、通过系统级AI Agent重构操作系统的跳跃式路径,豆包手机属于后者 [7] - 2025年之前,行业普遍采用传统方案,即AI助手通过APP的SDK接口执行任务,高度依赖接口开放程度,早期语音助手如Siri、小爱同学属于此类 [9] - 当前主要方案是基于GUI Agent(图形用户界面智能体),由大模型直接识别屏幕内容并模拟人类手势操作,无需调用SDK接口,但通常需要获取系统级权限,豆包手机是典型代表 [9] - 豆包手机的技术原理是基于视觉语言模型方案,通过读取屏幕权限进行操作,该方案在行业中已有实践,并非突破性创新 [10] - 豆包手机的突出之处在于其通用任务能力,能自主进行信息检索、调用陌生APP并规划复杂任务(如结合地图应用判断会议延迟是否影响接孩子),试图构建不依赖预设场景的通用智能体,而多数厂商的AI功能仍局限于有限场景的自动化 [11] 3. 引发的冲突与核心挑战 - 豆包手机的“跨应用连续操作”能力触及了现有移动生态的边界,导致微信、支付宝、淘宝等超级APP对其自动化操作采取了技术性“封堵”,限制登录或禁止AI操作 [14] - 冲突核心在于操作权限的判定标准差异:APP端的风控机制监测到非人为操作(如利用Android的INJECT_EVENTS权限模拟输入)会触发保护;而AI方则认为这是用户授权下的人机协同 [15] - 基于GUI Agent的技术路径面临三项核心用户体验挑战:隐私安全、结果“幻觉”与执行效率 [16] - 隐私安全方面,AI执行任务时需将必要页面信息上传云端推理,但通常不会全程全量上传屏幕数据;通过功耗表现推测,AI并非“24小时窥屏”,而是“按需触发”;支付等敏感环节会中断流程由用户手动确认 [16][17][18] - “幻觉”问题指AI错误理解或执行任务,例如错误筛选商品或勾选错误商品,行业共识是在现有技术下追求100%准确率不现实 [19] - 执行效率上,AI完成复杂任务(如跨应用比价)需耗时数分钟,远慢于人工,主要因需等待界面完全加载稳定后才能识别操作,且受主流应用技术限制,实际可用范围受限 [19] 4. AI手机的战略意义与竞争格局 - AI手机赛道正成为科技公司争夺AI时代“超级入口”的核心战场,新的入口将从“用户主动点开应用”转向“智能体自动代办”,掌握入口意味着掌握用户注意力与数据流动主导权 [22] - 相比AI眼镜、耳机、智能汽车或机器人,手机拥有庞大的用户基数、极高使用频次和成熟生态,是AI时代最现实的超级入口载体 [22] - 当前大多数“AI手机”体验未达颠覆性,整体处于探索期;豆包手机的出现迫使各大科技公司重新审视布局 [23] - 竞争格局可划分为三个梯队:第一梯队是垂直整合能力极强的系统级厂商(苹果、谷歌、华为、三星),拥有从芯片到操作系统的全栈架构,能定义新标准但步伐稳健 [24] - 第二梯队是拥有大模型与服务生态的软实力企业(微软、OpenAI、字节跳动等),战略是“以软赋硬”,通过与硬件厂商合作集成模型,但需解决操作权限问题 [25] - 第三梯队是具备规模与硬件经验的终端制造商(小米、OPPO、vivo、荣耀等),优势在于硬件设计、供应链、快速响应市场,可将AI功能快速普及至中低端机型 [26] - 行业最终胜出者必须在开放生态与安全控制之间找到新平衡,博弈远未停止,演进速度将加快 [26]
AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?
36氪· 2025-12-12 16:36
文章核心观点 - 以豆包手机助手为代表的GUI Agent路线,因其模拟用户点击操作、绕过平台官方接口和监管体系,正面临主流应用平台的广泛封禁,凸显了该技术路径与现有互联网生态的冲突[1][2] - 行业正转向以MCP协议为代表的标准化、协议化路径,旨在为智能体AI建立合法、有序、可治理的跨平台互联方式,并已获得包括Anthropic、OpenAI、Google、阿里、腾讯等头部公司的共同推动,形成行业共识[4][7][9] - GUI Agent与MCP协议并非简单的替代关系,未来很可能形成互补格局:GUI作为在未改造旧生态中的过渡方案,MCP则作为构建未来智能体互联网秩序与互操作性的底层协议[12][19][20] 行业技术路径冲突与现状 - **GUI Agent路线面临广泛抵制**:豆包手机助手通过让AI“看懂”并模拟操作手机图形界面,实现了不依赖官方接口的自动化操作,但导致微信、支付宝、拼多多、淘宝及多家银行应用对其封禁[1][2] - **冲突根源在于绕过平台秩序**:GUI Agent跳过了产品的业务逻辑、商业链路和风控体系,使平台无法监管智能体与用户数据及关键操作的交互方式,导致责任边界模糊[15] - **监管层面开始明确规范**:中国信通院牵头发布安全指引,强调智能体AI需同时获得“用户授权”与“应用授权”才能合法访问第三方应用,为交互设立了双重授权门槛[15] MCP协议的兴起与行业共识 - **MCP协议旨在建立AI的开放互联协议**:该协议试图解决智能体时代互联网缺乏一套属于AI的开放互联协议的问题,其目标是为AI与外部系统集成提供类似USB-C的统一标准接口[4] - **从公司规范发展为行业事实标准**:MCP最初是Anthropic为Claude设计的统一工具接入规范,用以简化大模型调用外部工具的流程[5];到2025年,“支持MCP”已成为Agent类产品的标配,被VS Code、Cursor、OpenAI、Google以及阿里、字节、腾讯等公司的工程团队广泛采纳[7] - **捐赠至中立基金会标志新阶段**:Anthropic于12月10日将MCP正式捐赠给新成立的Agentic AI基金会,并由Linux基金会托管,标志着协议进入更中立的治理体系,不再属于任何单一公司[4][8] 行业生态的协同演进 - **巨头共同推进协议生态**:除了MCP,Agentic AI基金会的“开山项目”还包括OpenAI捐赠的AGNTS.md(为Agent写使用说明的标准)和Google捐赠的Block(构建智能体和工作流的框架)[9] - **云服务商提供MCP基础设施**:Google推出了完全托管的远程MCP服务器,便于智能体接入其云端服务(如地图、BigQuery)[9];阿里云百炼平台更早推出了全生命周期的MCP服务,包括MCP服务器[9] - **协议化改造是长期过程**:整个互联网生态需要经历“一场漫长的改造”来适配MCP,这意味着基于GUI路线的智能体体验在短期内仍不可或缺[19] 未来智能体生态的展望 - **GUI与MCP将长期共存互补**:GUI路线将继续作为“兜底”方案,在未完成协议化改造的旧生态中运行;MCP则将成为跨系统、跨平台底层互联、明确权限与秩序的主流方式[20] - **终端系统将扮演协调核心**:未来的系统级智能体将能理解用户目标,协调设备、平台与服务,并在平台规则内完成任务[20] - **实现“换大脑不拆线管”的架构**:操作系统提供统一的智能体入口和权限管理,MCP等协议负责与各服务沟通,而如Qwen、Gemini、GPT等大模型则可被灵活插拔替换[20]
00后大模型实习生「扒光」豆包手机,千字实测揭秘
36氪· 2025-12-10 14:50
豆包手机的技术架构与核心功能 - 豆包手机的核心技术在于其并非一个简单的App,而是在Android Framework层构建了一套操作系统级的影子系统[10] - 该手机具备在锁屏状态下于后台丝滑操作的能力[5] - 在性能测试中,豆包手机展现出极高速度,例如在B站的测试中达到3秒答完1道题,5分钟完成100道题的速度[6] 双模式Agent系统设计 - 公司将Agent拆分为两套完全不同的技术栈:标准模式(快)和Pro模式(慢且鲁棒),类似于人类认知中的System 1(直觉)和System 2(推理)[10] - 标准模式主要依赖浅层视觉语言模型,响应极快,体感延迟小于500毫秒,但缺陷在于其“直觉”反应可能导致误操作,例如点击图片中的按钮而非真实按钮[14] - Pro模式则涉及深度推理与工具调用,在执行指令前有明显的“暂停+思考”过程,具备自我反思能力,并能进行复杂的多跳检索和直接调用System API[15] - 豆包手机助手实际使用了UI-TARS 2.0闭源版本,其性能大幅优于开源版,并针对手机场景专门优化[15] 混合感知与视觉理解能力 - 公司通过XML+Vision动态路由技术解决环境噪声干扰这一Agent落地核心挑战[16] - 在复杂UI场景(如地图应用)中,AI能够理解并执行包含颜色语义、空间关系和物体检测的复杂指令,例如“点击深红色最堵路段旁边的施工图标”[16][19] - 技术路线推测为:标准UI走XML解析,非标准UI则走视觉路线(通过截屏分析,但更费电)[20] - 视觉路线的存在被证实,因为VLM具备像素级的“开放词汇定位”能力,而安卓的“无障碍树”在复杂渲染界面中往往信息缺失[17][18] 操作系统级虚拟化与并行处理 - 豆包手机实现了OS级的虚拟化,采用“并行运行时”架构,允许Agent在后台执行长任务,即使用户切换至其他应用也不会中断[21] - 该架构可能基于“影子屏幕”实现“输入隔离”,即物理屏幕处理用户交互(如打电话),逻辑屏幕则运行Agent任务,形成了“双并行宇宙”结构,解决了Agent抢占前台导致手机卡顿的问题[21] 工程优化与隐私安全设计 - 在工程上,Agent会在每个操作结束后强制引入1000毫秒至5000毫秒的固定延迟,以对抗APP的异步加载或骨架屏,用时间换取操作成功率[23][25] - 在隐私安全方面,视觉管道是经过过滤的,并非持续录屏监控,这从物理层面避免了手机过热[26][27] - 其隐私设计基于“任务层级”进行针对性屏幕内容抓取,例如在测试中,AI截取的画面仅包含主应用界面,自动排除了画中画悬浮窗,实现了对视频通话、金融APP安全键盘等敏感内容的物理隔离[28] - 该设计被描述为包含了隔离机制、熔断策略和本地化处理的安全、可靠代码逻辑[28] 记忆、工具调用与系统韧性 - 在Pro模式下,数据的调用非常精准,例如在响应“验证码有什么数学特征”指令时,系统并非暴力进行全屏OCR,而是通过Client向Server发起特定请求,其系统授权部分可能形成了一个RAG-MCP架构[32] - 对于长列表内容,Agent采用类似Playwright测试框架的行为:滚屏→进行DOM差异对比→提取增量信息→拼接,以此解决跨屏上下文问题[33] - 系统展现出强大的韧性,例如在尝试读取Outlook最新邮件失败时,Agent不会报错退出,而是自动降级读取第二封邮件,并尝试合并第一封邮件的列表页预览信息进行汇报,这表明其规划器关注的是“任务目标”而非固定的操作序列[34][35][36] 底层模型:UI-TARS的演进与开放 - 豆包手机助手GUI操作能力的核心基于UI-TARS模型,其开源版本已向业界开放[43] - UI-TARS是一个将屏幕视觉理解、逻辑推理、界面元素定位和操作整合于一体的多模态模型[44] - 该模型迭代迅速,在2025年内就完成了三次主要版本更新:2025年1月发布第一代,2025年4月发布UI-TARS-1.5,2025年9月发布UI-TARS-2[46] - 其性能在AndroidWorld基准测试上持续提升:v1得分46.6,v1.5得分64.2,v2得分73.3[47] - 技术驱动不断演进:v1核心为监督微调+DPO,v1.5引入强化学习与推理扩展,v2则建立了数据飞轮与多轮强化学习的自我进化训练系统[47] - 交互能力从纯GUI界面,扩展到初步游戏场景,再到支持终端和文件系统操作[47] 行业意义与GUI Agent发展 - 豆包AI助手是当前GUI Agent浪潮的典型代表,GUI Agent代表着AI与人类交互的“新前沿”,其目标是让模型能够像人一样观看屏幕并操作[48] - 端侧小模型的出现使得GUI可以被结构化理解,再与API融合,从而形成了“统一的智能交互层”,解决了早期API路线与GUI路线难以统一的问题[48] - 近两年多模态原生大模型(如Gemini 3、GPT-5.1)的跃迁式迭代,为GUI Agent走向大众奠定了基础,使LLM能够理解图片、视频、UI元素,并具备长上下文记忆能力[50] - 高阶的GUI Agent需要深度嵌入操作系统,豆包手机证明了将AI助手作为OS级原生能力的可行性,并定义了下一代AI手机的形态[55][57] - 行业观点认为,豆包手机的出现是GUI Agent时代划时代的标志,它让Agent从可操作界面迈向了深度的系统集成[57][58]
徐新成为张一鸣“新股东”,以3.4万亿估值拿下字节跳动部分股权;任正非强调AI重在应用;理想AI眼镜重量仅36g丨AI产业周报
创业邦· 2025-12-07 09:08
文章核心观点 文章汇总了2025年11月29日至12月5日期间全球人工智能领域的重大新闻与投融资动态,核心观点在于展示AI技术在多领域(如机器人、大模型、芯片、应用)的快速迭代与商业化进程,以及资本市场对AI产业持续且高强度的关注与投入 [5][6] 行业动态与公司进展 机器人领域 - **美的集团**首次官宣布局三类机器人,包括工业机器人智能化、家电机器人化、人形机器人价值化,并特别提出“超人形机器人”概念,旨在突破人形极限以在特定场景实现最高效率和最低成本 [7][8] - **众擎**发布全尺寸人形机器人T800,身高1.73米,自重75公斤,续航4-5小时,公司称其性能超越80%的1.7米男性,综合运营成本仅为人力成本的1/3,定价18万元起 [15] - **特斯拉**人形机器人“擎天柱”团队发布了其跑步视频,刷新了实验室个人纪录 [25] - **宇树科技**已完成IPO辅导工作,该公司是全球首家公开零售高性能四足机器人并最早实现行业落地的公司 [20] - **商汤科技**联合创始人王晓刚出任大晓机器人董事长,该公司将于12月18日发布产品及国内开源商业应用的“开悟”世界模型3.0 [20] - **清华大学**正式成立具身智能与机器人研究院 [24] 大模型与AI应用 - **字节跳动**发布120亿参数视频理解大模型Vidi2,新增精细时空定位功能,能处理数小时原始素材并生成片段,其视频理解能力据称超越Gemini3 pro [18] - **OpenAI**为应对竞争进入“红色警戒”状态,推迟广告业务以集中资源改进ChatGPT,同时正在开发代号为“大蒜”的新模型,据称在编程与逻辑推理测试中优于谷歌Gemini3.0及Anthropic Opus4.5 [13][29] - **可灵**推出视频生成2.6模型,提供“音画同出”能力,能在单次生成中输出带音效的完整视频,视频长度最长可达10秒 [11][12] - **阶跃星辰**开源了GUI Agent技术套组GELab-Zero及4B参数模型,该模型在手机、电脑端GUI任务榜单上取得SOTA成绩 [18] - **豆包手机助手**计划对AI操作手机能力进行规范化调整,将限制刷分、金融类应用及部分游戏场景的使用 [9] - **蔡浩宇旗下AI公司**上线聊天软件AnuNeko,功能包括聊天、查资料、解答问题,但无法生成表格PPT且数据库停留在2023年 [11] - **京东**宣布数字人直播免费向所有商家开放 [17] - **京东、美团、拼多多等8家平台企业**签署全国首份《促进AI技术规范应用承诺书》,以规范AI技术在电商领域的应用 [21] - **小鹏汽车**就AI生成的虚假低俗视频正式报警,谴责滥用AI技术抹黑公司形象的行为 [27] 芯片与基础设施 - **亚马逊云科技**推出定制AI芯片Trainium3,运算速度是上一代的四倍,与使用同等GPU的系统相比,可将训练和操作AI模型的成本降低多达50% [30] - **清微智能**完成超20亿元人民币C轮融资,资金将投向下一代可重构芯片研发及智算场景落地 [18] - **英伟达CFO**反驳“AI泡沫论”,指出新增算力在不断叠加,全球经济处于向AI数据中心基础设施转型的“早期阶段”,并预测到2030年末全球AI投资将达3万亿至4万亿美元 [24][25] 企业战略与资本市场 - **Anthropic**已启动IPO筹备工作,最早或于2026年上市,据传其在一轮私人融资谈判中的估值将超过3000亿美元 [12] - **徐新掌管的今日资本**以约3亿美元收购字节跳动部分股权,对应估值高达4800亿美元(约合人民币3.4万亿元) [19] - **三星电子**成立AI研究院,并任命30多岁的常务李康旭为首任负责人,以引领下一代AI技术研究 [21] - **Meta**聘请了苹果资深人机界面设计负责人Alan Dye担任首席设计官 [22] - **朱啸虎**评论OpenAI上市,认为其在一级市场募资非常容易,估值3000亿美元的融资远超市,上市没有必要性 [22] - **理想汽车**发布AI眼镜Livis,重量仅36克,比行业主流轻20%,续航达18小时 [9] - **Mistral AI**正式发布基于Apache 2.0开源协议的Mistral 3模型系列 [32] - **Anthropic**收购开发工具初创公司Bun,将其作为AI编码产品的基础架构 [32] - **谷歌联合创始人布林**捐赠了价值逾11亿美元(约77亿元人民币)的Alphabet股票,主要流向其创立的非营利机构 [29] 投融资概览 整体情况 - 本周期全球披露AI融资事件22起,较上一周期减少9起,其中14起披露金额,总融资规模为76.48亿元人民币,平均融资金额为5.46亿元人民币 [35] - 融资阶段分布:早期14个、成长期4个、后期4个 [38] - 本周国内AI领域已披露融资总额为4.22亿元人民币,融资额最高的为具身智能机器人研发商**戴盟机器人**,完成1亿元人民币A轮融资 [44] - 本周海外AI领域已披露融资总额为72.27亿元人民币,融资额最高的为AI图像生成模型开发商**Black Forest Labs**,完成3亿美元B轮融资 [53] 地区分布 - 本周国内获投AI企业地区主要集中在广东(6起)、上海(2起)、安徽(2起)、北京(2起)、山东(1起) [41] 其他融资事件 - **他山科技**(AI触觉感知)在三季度连续完成A3、A4轮数亿元融资,共有13家资方入局 [19][20] - **超智**(上海智能机器人研发商)完成天使轮融资,投资方包括卡倍亿、宏润建设 [49] - **美酷瑞**(上海AI游戏开发商)完成天使+轮融资 [49]
保守的谷歌,激进的豆包
36氪· 2025-12-05 18:23
文章核心观点 - 技术创新必须在尊重用户权益和遵守监管要求的前提下进行,过于激进、试图绕过现有安全体系和合作模式的方案难以推进 [1][5][15] - 豆包手机助手近期对其AI操作手机能力进行规范化调整,特别是限制金融类应用的使用,姿态从强硬转向愿意与相关厂商沟通合作 [4] - 全球AI Agent(特别是GUI Agent技术路线)发展迅速,但主流厂商(如谷歌、苹果、百度、华为)普遍采取通过API与开发者合作的审慎路径,豆包的激进方案引发了关于安全、合规与责任的争议 [6][7][10] 豆包手机助手事件与方案调整 - 豆包手机助手发布说明,计划对AI操作手机能力进行规范化调整,包括进一步限制银行、互联网支付等金融类应用的使用,并暂时下线操作这类APP的能力 [4] - 调整原因是金融场景直接关联用户资金安全,虽然操作需用户授权,但为审慎起见做出此决定 [4] - 公司表示愿意与相关厂商沟通,共同制定清晰、安全的AI操作行为准则,姿态较此前更为柔软 [4] - 此次调整意味着豆包降低了其方案的激进程度,此前的方案突破了传统的用户安全体系、监管体系及厂商合作模式的边界 [5] GUI Agent技术路线与行业实践 - 豆包的方案属于GUI Agent技术路线,该技术基于多模态视觉模型驱动,能自动推理并执行图形用户界面交互以完成任务 [6] - 全球范围内,主流智能助手(如苹果Siri、谷歌Google Assistant)严格遵循API调用方式,避免直接触碰应用程序核心功能,以保证用户隐私、数据安全并避免与开发者或监管机构的冲突 [7] - 国内厂商如百度、华为在推出智能助手时,也选择与应用程序开发者合作,通过API接口实现功能对接 [7] - 大模型独角兽阶跃星辰在豆包手机助手发布两天前,开源了同类型的GUI Agent技术套组GELab-Zero [7] - 豆包手机助手选择了更为激进的路径,试图通过用户授权直接操作微信、支付宝等主流App的界面,绕过了其安全体系 [7] 豆包激进方案面临的核心挑战与风险 - 该方案挑战了互联网合作关系,并忽视了成熟的互联网账号安全体系,如登录验证、双重验证、权限控制及反欺诈检测系统 [8] - 绕过这些安全机制存在风险,可能导致用户账号被窃取、隐私信息泄露、数据被篡改,并使异常行为难以被检测 [8] - 方案核心争议在于忽略了行业在账号安全和监管方面的“防护栏”,微信、支付宝等App已建立严格机制防止第三方程序绕过官方授权 [9] - 在金融支付领域,监管对数据安全和用户隐私要求尤为严格,豆包的方案可能违反相关法律法规 [9] - 方案涉及关键责任问题:作为第三方平台,豆包是否能接过所有App的平台责任并满足监管需求,尤其是在涉及用户财产安全的金融支付领域 [10] - 从全球范围看,任何试图绕过应用开发者和监管机构的方案都难以获得广泛支持,可能引发监管审查和处罚 [10] 行业稳健发展的合作路径与参考案例 - 谷歌助手(或Gemini)在调用第三方应用时,会清晰列出需要访问的用户数据和权限,用户必须主动登录Google账号并点击授权才能继续 [11] - 在涉及用户隐私的应用如邮箱时,谷歌表现克制,Gemini只有在用户请求时才会调用相关数据,且不会进行发布邮件等敏感行为 [12] - 国内OPPO和支付宝的合作提供了参考,支付宝发布了AHA智能体互联协同解决方案,通过安全可控的方式实现智能助手与应用程序之间的高效协作 [14] - AHA方案构建了一个智能体互联枢纽,连接手机操作系统、AI大模型及第三方应用服务,并遵循严格的安全标准和透明的用户授权机制 [14] - 该方案具备开放性和兼容性,能够接入不同厂商的AI助手和各类应用,为行业提供标准化互联互通平台 [15] - 工信部、信通院等机构正在积极推进国家多智能体互联的标准,工信部牵头的《人工智能 智能体互联》系列标准已发布,蚂蚁集团作为核心参编方,AHA方案是重要业界实践参考 [15]
小米集团:近期豆包 AI 智能手机助手发布后的观点
2025-12-05 14:35
行业与公司 * 行业涉及智能手机与人工智能AI代理领域 公司重点关注小米集团[1][7][10][11][22] * 报告由高盛Goldman Sachs发布 涵盖对小米公司的投资评级与财务预测[23][25][33] 核心观点与论据 AI智能手机助手发展动态 * 字节跳动于12月1日发布了豆包AI智能手机助手的预览版 该系统级图形用户界面GUI代理集成豆包大模型 具备视觉屏幕内容解读和执行跨应用多步骤任务的能力[1] * 豆包AI助手采用混合处理模式 结合端侧AI用于实时任务和云侧AI用于复杂决策 并具备多模态能力[7] * 除字节跳动外 StepFun等AI初创公司也专注于硬件AI助手 并在11月底发布了首个完全开源的GUI代理GELab-Zero 其GELab-Zero-4B-preview模型在多项GUI基准测试中达到SOTA水平[2][8] * 硬件AI助手在豆包大模型上生成巨大流量 5月日均生成1.3万亿tokens 占豆包总token消耗的8%[7] 行业竞争格局与挑战 * 中国智能手机市场集中度高 前六大厂商占据90%以上的出货份额 新进入者市场空间有限[10] * AI与消费电子终端融合趋势持续 主要中国智能手机品牌年内已在操作系统升级中嵌入原生AI助手[10] * AI助手进一步集成面临三大挑战:主流手机厂商的系统级操作权限和内存能力优势 以及跨应用接口连通性问题[9] 小米公司的AI战略与进展 * 小米积极布局AI 研发端侧和云侧大模型 2025年AI研发投入预计超过70亿元人民币 占其总研发费用320亿元人民币的22%[11] * 公司已发布多个专业大模型 涵盖视觉、音频、语音等领域 并于11月21日新推出跨具身基础模型MiMo-Embodied[11][21] * 小米的AI代理"超级小爱同学"是中国市场月活跃用户数排名前三的原生AI助手之一 在小米智能手机用户中的渗透率达到71%[11][19] * "超级小爱同学"具备多场景能力 包括社交媒体互动、电商购物、生产力服务以及本地信息记忆[11] * 小米拥有全球最大规模的互联AIoT设备生态 截至2025年第三季度连接设备数约10亿台[11] 其他重要内容 投资观点与财务数据 * 高盛对小米给出"买入"评级 12个月目标股价为53.5港元 相较当前价格有33%上行空间[22][23][25] * 看好小米基于"人车家全生态"战略的长期生态系统扩张 预计2024-2027年营收和每股收益复合年增长率分别为24%和28%[22] * 财务预测显示 公司2025年预期营收为4694.089亿元人民币 每股收益为1.60元人民币[25] 市场数据对比 * 与中国智能手机市场高度集中相比 中国新能源汽车市场更为分散 前14大厂商份额总和为89% 为新进入者提供了更多机会[10][16][17] * 中国智能音箱市场也呈现高集中度 小米份额从2019年的28%扩大至2025年的45%以上[14][15]
告别GUI Agent工程基建噩梦:阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
量子位· 2025-11-30 14:45
公司核心产品发布 - 阶跃星辰开源了名为GELab-Zero的GUI Agent模型及其完整配套基础设施,支持一键部署[1] - 该产品包含三个主要部分:一个能在本地运行的GUI Agent模型(GELab-Zero-4B-preview)、一套即插即用的完整推理工程基建、以及基于真实业务场景的自建评测标准AndroidDaily[14] 模型性能与优势 - 其4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩[2] - 该4B预览版模型在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA,其表现甚至超越了参数量更大的GUI-Owl-32B等模型,性能更优且更易部署[11][13] - GUI Agent基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低[4] 产品能力与场景应用 - 模型能够很好地执行复杂任务和模糊指令,可以准确、流畅地执行涉及多步骤、多主体、重复操作的任务,也能对偏笼统和主观性的指令进行自主拆解并确定执行路径[24] - 示例场景显示,模型能在外卖平台完成同时采购跨品类、不同规格和数量商品的复杂任务,也能在企业福利APP中领取餐券,展示了其在国民级APP和小众平台上的任务泛化能力[17][18][19] - 对于模糊指令,如“找个周末能带孩子去玩的地方”,模型能自主搜索、判断衡量标准并为用户推荐地点及提炼亮点[22][23][24] 技术架构与基础设施 - 针对GUI智能体构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验[25] - 具体能力包括:支持4B模型在消费级硬件上运行的轻量级本地推理、提供统一部署流水线的一键任务启动、可分发到多台手机并记录交互轨迹的多设备任务分发、以及涵盖ReAct闭环、多智能体协作和定时任务等多种工作模式[26] - 这套基础设施旨在降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施,以推动移动端Agent真正规模化[7][30] 评测基准创新 - 公司同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展[5] - AndroidDaily是一个面向真实世界、动态演进的多维基准体系,聚焦现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择高频使用、日活排名靠前的代表性主流应用进行测试,高度还原真实任务执行流程[33] - 该基准采用静态评测和端到端评测双轨评估体系,其中静态测试包含3146个actions评估数值准确率,端到端测试包含235个任务以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力[35][37][38]
聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?
量子位· 2025-11-04 13:06
行业趋势与竞争格局 - 移动智能技术迭代推动手机端AI"超级入口"成为行业竞争新焦点,GUI Agent技术具备重塑流量分发格局的潜力,催生千亿级市场机遇[1] - 苹果、华为、字节跳动、美团、智谱AI等多家企业已积极布局该赛道,行业进入快速发展阶段[1] - 美团于2025年9月14日率先推出首个AI Agent,支持平台内"一句话点餐",标志着技术从研发走向实用化[1] 中兴通讯技术表现与商业化进展 - 在2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,中兴通讯Nebula-GUI模型以7B参数量获得总榜银牌,总分84.38分,UI元素定位得分93.17分[1][2] - 该模型在自动点餐、订票等复杂任务中,准确率与操作速度远超业界其他模型,具备手机端侧部署落地能力[1] - Nebula-GUI的"一句话订票"、"一句话拍照"功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用[3] - 截至当前,该模型已覆盖30余款主流APP,常用场景平均准确率超90%,未来计划进一步覆盖手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级服务[3] 核心技术优势:数据制备系统 - 中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统,显著提升数据标注效率与质量[8] - 基于该系统生成的数据占训练数据的90%,整体覆盖出行、社交、生活服务等多元场景下的主流APP[8] - 通过引入GUI数据标注工具,数据标注效率实现了3倍提升,解决了中文GUI数据稀缺(公开英文数据集达百万级,中文数据仅数千组)、标注粒度粗、跨APP操作复杂任务轨迹数据不足等行业难题[9][12] 模型训练与优化方法论 - 公司通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,使通用多模态模型进化为具备"感知-理解-执行-规划-纠错"能力的GUI操作智能体[22] - 自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,同时整合了数百万条以英文为主的GUI样本,显著提升模型基础感知与语义理解能力[25][26] - 通过大量指令数据和精确思维链引导,模型单步操作平均准确率超过95%,部分简单指令操作达到99%准确率[31] - 引入双层强化学习范式,通过离线步骤级连续奖励与在线任务级强化的协同训练,设计了基于目标控件边界框的自适应空间感知连续奖励函数、基于概率模型的推理质量评估奖励及逻辑一致性奖励,提升模型决策效率与泛化能力[43][46][48]