AI手机
搜索文档
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
量子位· 2025-12-09 15:37
豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空,二手市场价格翻番,显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”,其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”,能跨应用自动化执行复杂任务 [3][4] 核心技术:UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上,该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本:今年1月开源初代模型;3个月后推出强化学习驱动的UI-TARS-1.5;今年9月发布能力更强的UI-TARS-2,为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**:1) 使用大规模GUI截图数据集和五大感知任务增强感知精度;2) 定义了涵盖点击、滚动、输入等跨平台(Web、Mobile、Desktop)的原子动作集;3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力;4) 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**:新增强化学习驱动的推理机制,在执行前进行思考,显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**:1) 设计可扩展的数据飞轮实现数据与模型协同进化;2) 设计在长时序设定中稳定优化的训练框架;3) 构建混合GUI中心环境,通过SDK接入文件系统、终端等,打破纯GUI操作局限;4) 开发统一的沙盒平台管理异构环境,支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**:在计算机使用基准OSworld(100步)得分42.5,优于OpenAI CUA的36.4;在Windows Agent Arena(50步)得分42.1;在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**:在ScreenSpot-V2得分94.2,在ScreenSpotPro得分61.6,均刷新SOTA [28] - **UI-TARS-1.5游戏测试**:在14款游戏测试中,UI-TARS-1.5在11款游戏上得分达到100,全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**:在15款游戏的平均标准化得分为59.77,更接近人类水平(100),显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**:与前沿模型竞争,例如在Super Mario Bros得分1783.2,高于GPT-4o的1028.3,接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**:豆包手机助手使用INJECT_EVENTS系统级权限,需用户主动授权;遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**:视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**:Agent在后台执行长链任务时,即使前台接电话或切换App也不会被挂起,推测在OS层做了并行运行的虚拟化设计,拥有独立的Virtual Display [57] - **双模式技术栈**:豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**:用户可用英语直接下达复杂指令(如找人代排队、呼叫无人车),助手能自主选择应用并完成操作,无需预先设置手机语言 [69][72][75] - **能力限制**:官方已主动限制部分能力,包括限制刷分、刷激励场景,部分游戏类场景,并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**:被评价为定义了下一代AI原生手机,展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]
智谱开源可操控手机的智能体模型:AI手机只在一家做是不够的
新浪财经· 2025-12-09 14:53
公司动态:智谱AI开源AutoGLM模型 - 智谱AI于12月9日宣布开源其核心AI Agent模型AutoGLM 旨在让AI真正学会“使用手机” [1] - 开源内容包括训练好的核心模型 Phone Use能力框架与工具链 可直接跑通的Demo 覆盖50+中文App 以及针对Android的适配层与示例工程等 [2] - 公司主动放弃了操作微信等离用户隐私较近的APP 以保障AI不会在不该点的地方胡乱操作 [1] - 通过开源和私有化部署 企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限 技术向生态开放 但数据与隐私留在使用方一侧 [2] 技术进展:AutoGLM模型发展历程与能力 - 2024年10月 智谱发布了首个可在真机上完成一条完整操作链路的AutoGLM 一个月后 AutoGLM发出了由AI完成的手机红包 [1] - 2025年 公司发布了AutoGLM 2.0 并将其置于一台跑在云端的虚拟手机中 每个动作可回放、审计、干预 并可对敏感数据加以隔离 [1] - 展示视频显示 AutoGLM可识别手机屏幕信息 通过模拟真人点击、滑动、输入等动作 完成外卖点单、机票预订、朋友圈点赞、写好评等复杂流程 [4] 公司背景与融资情况 - 智谱AI(北京智谱华章科技股份有限公司)成立于2019年 由清华大学相关技术团队孵化 凭借GLM大模型系列跻身“大模型六小虎”阵营 [4] - 公司已完成超过十轮融资 累计融资规模超过100亿人民币 投资方包括高瓴资本、启明创投、君联资本等 美团、阿里、腾讯、小米等互联网企业也是其重要股东 [5] - 2025年4月 智谱正式向北京证监局提交首次公开发行股票并上市辅导备案 [4] 行业趋势:AI手机发展与生态开放 - 智谱AI认为AI手机已是趋势 但如果“会用手机的AI能力”只掌握在极少数厂商手里 将限制开发者创新空间 并使用户设备越来越像“别人家的入口” [1] - 此次开源AutoGLM 被外界视为智谱抢占AI终端入口的关键布局 [5] - 近期 豆包和中兴旗下努比亚合作开发的AI手机成为大模型技术落地热点 努比亚总裁倪飞表示AI手机发展势不可逆 应以开放姿态打开局面 如iPhone+ChatGPT、三星+Gemini的组合 [5] - 抖音副总裁李亮转发相关文章并称AI带来的变革和用户需求真实存在 豆包和中兴的探索是一个开始 AI一定是未来 [5]
搅局者来了!智谱重磅开源AutoGLM,让“豆包手机”人人可造!官方:AI手机不该掌握在少数厂商手中
AI前线· 2025-12-09 14:26
AutoGLM模型开源发布 - 智谱于2023年4月开始研发能让AI像真人一样使用手机的技术,并在32个月后,于2025年4月将其核心AI Agent模型AutoGLM完整开源[2][3] - 开源内容包括:训练好的核心模型、手机操作能力框架与工具链、覆盖50多个高频中文App的可直接跑通的Demo、针对Android的适配层与示例工程、以及文档和快速上手指南[15] - 模型以MIT许可证开放,所有代码以Apache-2.0许可证托管在GitHub仓库中[10] AutoGLM的核心能力与技术 - AutoGLM具备手机操作能力,包括点击、滑动、输入、截图理解、流程恢复、噪声处理等,能稳定完成外卖点单、机票预订等长达数十步的复杂操作流程[5] - 模型已支持上百个主流APP[6] - 其能力基于三大核心技术突破:1) 创新的双层Agent结构,将行为拆分为负责思考的Planner和负责执行的Grounder,解决了“看得懂但点不准”的难题,使GPT-4o视觉模式的网页任务执行成功率从18%提升至36.4%[26][27];2) 自进化式的Curriculum RL强化学习框架,赋予模型错误恢复能力[29];3) 在包括上千台云端虚拟手机的大规模可控环境中训练,极大地扩展了Agent的准确性和泛化能力[9][30][31] 开源动机与行业愿景 - 智谱认为“AI手机”是大势所趋,但非一家公司能完成,也不应被极少数厂商垄断,开源旨在将AutoGLM打造成行业可共同拥有和打磨的公共底座[12][14] - 通过开源和私有化部署,企业和开发者可在自己的合规环境中完整掌控数据、日志和权限,解决AI手机面临的隐私问题[16][17] - 智谱希望分享其技术积累,将走过的路变成行业在Agent爆发时代的起跑线,自身定位为AI手机生态中开放、易集成的关键拼图,而非取代手机厂商[18][47] AI手机行业现状与前景 - 据IDC预计,2026年中国新一代AI手机出货量将达到1.47亿台,占总体市场的53%[36] - 赛迪顾问判断,2027年AI手机销量将跃升至1.86亿部,占比56.1%[36] - 2023年中国AI手机销售量为1100万部,占全球22%;2024年预计出货量超过3500万部,市场占有率约12%[41] - 目前AI手机实际体验仍处早期阶段,存在“宣传大于实际”的问题,跨App操作成功率受限于权限、界面变化等工程难题[42][43] 行业技术路线与竞争格局 - 行业技术路线主要分为两派:依赖App授权的“意图框架”和无需授权、依靠读屏与模拟操作的“视觉路线”[44] - 字节跳动的“豆包手机”尝试将GUI Agent做到系统级,其首批约3万台供内部测试,核心团队由多个硬件团队整合而来,目标是探索“大模型+超级App+硬件”的新形态[46] - 第三方AI在手机中大规模落地面临权限、数据、应用配合等挑战,手机厂商普遍倾向与可控性更强的大模型公司合作,如OPPO选择阶跃星辰,荣耀、三星采用智谱[46]
中信证券:看好手机产业的智驾时刻有望加速来临
格隆汇· 2025-12-09 14:06
行业背景与核心驱动力 - 智能手机行业创新趋缓,单纯硬件参数提升对换机的拉动力持续削弱,全球平均年换机率已从高点30%~60%逐步收敛下降至2024年的23.7%,对应换机周期约51个月[1][2] - 手机作为用户数量最多、使用频率最高的智能终端,用户存在从碎片化、繁杂流程中解放精力的迫切需求,以AI Agent改造现有交互方式成为产业期待的下一个重大变革,并有望成为拉动下一波换机潮的重要驱动力[2] 市场现状与主要参与者 - 国内外手机大厂已将AI手机作为核心战略方向,在2023至2025年间陆续推出AI助手、AI修图、智能语音、多模态交互等功能以追求差异化,但尚未实现消费者体验的突破性改善[3] - 第三方大模型厂商看好手机作为端侧AI时代核心硬件载体,正积极通过合作赋能方式参与手机AI化进程,截至2024年底,国内头部手机厂商已与豆包、文心一言等大模型展开合作[3] - 2025年12月1日,豆包与努比亚(中兴通讯)联合发布搭载豆包手机助手的AI手机产品,将大模型深度融入操作系统,具备高权限的系统级智能体,可实现跨应用长链条复杂功能执行,相较此前功能分散、执行困难等问题有明显改善[1][3] 发展模式与产业展望 - 豆包与努比亚的合作模式,可类比智驾领域华为与赛力斯合作的华为智选模式,大模型厂商有望为手机厂商提供强大的模型能力与生态助力,加速优化消费者体验的AI手机爆款产品落地[1][4][6] - AI手机有望为手机产业带来更广阔的发展空间,并可能改变商业模式、价值链及生态格局,豆包的入局意味着各大手机厂商必须加快拥抱AI以取得更有利的竞争态势[4] - 看好2026年成为AI手机元年,并带动智能手机产业链迎来新一轮重大机遇[6] 产业链投资机遇 - 建议关注与豆包等大模型深度绑定的品牌[7] - 建议关注具备自研AI大模型能力的厂商[7] - 建议关注受益于手机AI化带来的硬件升级环节,包括主芯片(高算力旗舰芯片)、存储(内存提升+3D-DRAM趋势)、散热、电源等[7] - 建议关注因手机AI化带动换机而整体受益的供应链[7]
智谱开源“会使用手机的”模型AutoGLM,人人均可打造AI手机
中证网· 2025-12-09 13:40
核心观点 - 智谱于12月9日宣布开源其核心AI Agent模型AutoGLM 此举旨在降低AI手机技术门槛 推动行业生态从封闭走向开放共创 并已支持超过50个高频中文应用的核心场景 [1] - 开源AutoGLM模型将使其成为行业公共底座 硬件厂商 手机厂商和开发者均可基于此复现能“看懂”屏幕并模拟真人操作的AI助手 同时通过私有化部署确保数据与隐私安全 [2] 技术产品进展 - 2024年10月 智谱首发能在真机上稳定完成完整操作链路的AI Agent模型AutoGLM 该模型被视为全球首个具备“Phone Use”能力的AI Agent 能稳定完成外卖点单 机票预订等长达数十步的复杂操作 [1] - 2025年 智谱发布AutoGLM 2.0版本 通过在上下个虚拟设备环境中进行强化学习 大幅扩展了Agent的准学习和泛化能力 [1] - 团队为保障用户安全 将Agent置于“虚拟手机”环境中运行 其每一步动作都可回放 审计和干预 用户敏感数据可被严格隔离 [1] - 项目支持本地与云端部署 确保数据与隐私控制权始终掌握在使用者手中 [1] 行业影响与市场反应 - 业内认为 AutoGLM的开源将大幅降低AI手机的技术门槛 推动AI手机生态从封闭走向开放共创 [1] - 通过开源和私有化部署 企业和开发者可以在自己的合规环境中完整掌控数据 日志和权限 [2] - 12月9日上午 A股AI手机 PCB等板块表现活跃 胜宏科技涨超10% 超声电子涨停 工业富联 福蓉科技 华勤技术等涨超5% [2]
努比亚总裁倪飞回应豆包手机争议:开放合作是AI手机发展的必选项
凤凰网· 2025-12-09 12:10
公司战略与AI布局 - 公司总裁倪飞表示,在手机行业缺乏颠覆式创新的背景下,AI手机是明确的发展方向 [1] - 公司选择以开放姿态与豆包手机助手合作,旨在提升用户体验 [1] - 公司早在2017年就开始布局AI,并坚持“AI for All”理念,致力于将AI技术普及化 [1] - 从首款AI手机Z17到2025年多模型协同理念,再到与豆包手机助手合作的M153,公司称其近十年来持续推进AI技术创新与全场景布局 [1] 产品与未来发展 - 公司就新品“努比亚M153豆包手机助手技术预览版”回应外界关注 [1] - 对于目前产品反馈的问题,公司表示正与合作伙伴积极沟通解决 [1] - 公司方面称未来将继续专注于用户体验相关的技术创新,并与行业及用户共同推动“AI for All”进程 [1]
人人都能打造“豆包手机”?智谱开源AutoGLM
贝壳财经· 2025-12-09 11:45
公司动态 - 智谱于12月9日宣布开源其核心AI Agent模型AutoGLM [1] - AutoGLM最初于2024年10月发布,被业界视为全球首个具备“Phone Use”(手机操作)能力的AI Agent [1] - 该模型已于今年8月20日升级至2.0版本 [1] 技术能力与特性 - AutoGLM能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程 [1] - 模型能够“看懂”屏幕,并模拟真人进行点击、输入、滑动 [1] - 目前AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景 [1] - 其自动化操作能力与近期引发热议的“豆包AI手机助手”演示相似 [1] - 项目支持本地与云端部署,确保数据与隐私控制权掌握在使用者手中 [1] 行业影响与战略意义 - 开源意味着硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现AI助手 [1] - 此举将大幅降低AI手机的技术门槛 [1] - 此举将推动AI手机生态从封闭走向开放共创 [1]
假如,字节的豆包AI手机是腾讯的 | 马上评
钛媒体APP· 2025-12-09 10:20
文章核心观点 - AI手机发展初期面临的核心挑战并非单纯的技术或隐私问题,而是现有移动互联网生态巨头为维护自身流量入口和商业利益所构筑的“生态壁垒”[1][2] - 字节跳动旗下豆包AI助手与中兴手机合作的工程样机,因系统级权限调用触发了微信等国民级应用的风控机制,暴露了“外来者”AI试图整合跨应用服务时所遭遇的信任与利益博弈困境[1][6] - 文章通过对比分析,指出若由掌握庞大自有生态(如微信)的腾讯来推进AI手机,其路径将截然不同,可能通过深度整合自有生态(如小程序)来绕开壁垒,甚至将壁垒转化为护城河,从而重塑AI时代的竞争格局与权力分配[10][16][24][26] 事件背景与直接冲突 - 字节跳动与中兴手机合作推出搭载豆包AI助手的中兴努比亚M153工程样机,试图抢占AI手机先机[1] - 该工程样机因“系统级权限调用”策略,导致以微信为代表的多款国民级应用触发风控警报,造成用户账号异常退出甚至登录受限[1] - 技术层面,系统级权限允许AI助手向系统注入模拟的用户输入事件(点击、滑动等),使其能像真人一样操作手机内的任何应用,深度介入甚至控制其他应用[4] - 这种能力的本质是手机厂商用自己的系统私钥签名,将豆包AI助手设置为操作系统的一部分,使其成为一双“上帝之手”[4] - 对于微信等社交、金融类应用,此类非官方的、异常的系统级调用被视为潜在攻击,触发封禁是其保护用户敏感数据和账号安全的本能反应[5] 冲突根源:生态位与商业利益博弈 - 冲突症结在于生态位的冲突,是AI新势力试图打破现有“围墙”时,与生态巨头之间的信任缺失与利益博弈[6] - 字节跳动与腾讯在内容、流量、用户时长上是长期直接竞争对手,让竞争对手的AI助手深度介入自身核心应用生态,在商业逻辑上难以成立[6] - 豆包作为一个新兴AI产品,其数据安全与隐私保护能力尚未经过市场长期检验,国民级应用没有理由将亿万用户信任托付给“外来者”[6] - 豆包AI助手的意图是通过一句话操作跨应用完成复杂流程,这“短路”了传统App的流量入口,旨在掌握用户注意力和流量分配的最高权限[7][8] - 这种模式对传统互联网巨头构成直接威胁,例如微信的小程序生态已形成独立闭环,而豆包的跨应用操作能力能够“穿透”这些生态壁垒[8] 腾讯AI手机的潜在破局路径推演 - 腾讯若下场做AI手机,最佳合作对象是像中兴这样有制造能力但生态话语权较弱的厂商,或联想等“有肌肉、无地盘”的玩家,甚至是渴望弯道超车的新兴品牌[11][12] - 合作模式将是“深度捆绑”式,可能通过战略投资或控股锁定利益,确保从硬件底层到操作系统定制、AI助手集成的各个环节贯彻其意志[13] - AI助手角色可能不是独立的“混元AI助手”,而是深度整合微信能力的“微信AI助手”,实现“AI即微信,微信即AI”的无感体验[14][15] - 该助手基于微信的社交图谱、支付习惯和服务历史提供“预判式”智能,利用微信作为“数字器官”的深度信任,将接受门槛降至几乎为零[16] - 竞争对手可复制算法,但无法复制微信十多年积累的社交关系链、支付数据和庞大小程序生态,从而打造出无法被轻易撼动的AI超级应用[16] 系统权限策略:从小程序构建新秩序 - 面对系统级权限调用难题,腾讯可能选择“四两拨千斤”的小程序策略,构建以我为主的“服务调度中心”,而非“硬闯”APP底层[17][18] - 当AI助手需调用第三方服务时,会向微信发出指令,由微信无缝拉起该服务在生态内的小程序,用户感知不到应用切换或权限索取[19] - 对第三方应用而言,此模式给予官方背书和流量导流(“面子”),同时其核心APP数据安全不受威胁,并能获得来自AI场景的高意向精准流量(“里子”)[19] - 这是一种受控的合作,应用交出一部分交互主导权,以换取在AI时代继续生存和发展的门票[20] - 对于微信生态内的自有服务(如微信支付、视频号),AI助手可能实现更深度的原生级调用,构建体验“护城河”,让用户更倾向于选择腾讯自家服务[25] - 小程序可能被升维成AI时代服务调度的核心协议,成为所有玩家都必须遵守的新秩序[26] 生态掌控力与合作伙伴应对 - 众多应用与微信生态深度绑定,依赖其用户账号体系、社交裂变与核心交易闭环,得罪腾讯无异于自断水源与电网[21] - 腾讯强大的商务与生态运营能力可进行“胡萝卜加大棒”式的精准合围:提供“一级推荐”流量入口、开放数据接口等诱惑,同时制造“不加入就落后”的集体焦虑[23] - 腾讯可能给应用“公平的”选择权:允许AI助手直接调用APP,或优先调用其小程序。无论哪种选择,都意味着应用从独立王国变为腾讯AI生态版图上的“诸侯”,自主权再次让渡[24] - 若腾讯AI手机成真,凭借微信的信任背书和使用惯性,其市场接受度将远超任何“外来者”,并可能引发行业对AI手机落地路径的深刻反思[26]
AI手机板块短线拉升,福蓉科技涨停
每日经济新闻· 2025-12-09 10:13
AI手机板块市场表现 - 12月9日,AI手机板块出现短线拉升行情 [1] - 福蓉科技股价涨停 [1] - 道明光学、胜宏科技、南芯科技、领益智造、帝奥微等公司股价纷纷走高 [1]
智谱开源「会操作手机的AI」AutoGLM,让人人可打造豆包手机
新浪科技· 2025-12-09 09:15
公司动态 - 智谱于12月9日上午宣布开源其核心AI Agent模型AutoGLM [1] - 该模型具备“Phone Use”(手机操作)能力,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程 [1] - AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景 [1] - 项目支持本地与云端部署,确保数据与隐私控制权始终掌握在使用者手中 [1] 产品与技术 - AutoGLM是一个能“看懂”屏幕、并模拟真人进行点击、输入、滑动的AI助手 [1] - 其自动化操作能力与此前引发热议的“豆包手机”演示相似 [1] 行业影响 - 硬件厂商、手机厂商和开发者均可基于开源的AutoGLM,在自己的设备或系统中复现AI助手 [1] - AutoGLM的开源将大幅降低AI手机的技术门槛 [1] - 此举将推动AI手机生态从封闭走向开放共创 [1]