Workflow
AI手机
icon
搜索文档
努比亚倪飞回应 “豆包手机争议”
深圳商报· 2025-12-10 07:04
核心事件与市场反应 - 字节跳动豆包团队与中兴通讯旗下努比亚合作推出首款“豆包手机”努比亚M153,该手机为首款搭载豆包手机助手技术预览版的设备 [1] - 该款手机售价3499元,发售后市场反应热烈,甚至被炒至万元高价 [1] - 部分主流App(如微信、淘宝、闲鱼、大麦等阿里系应用)及金融类App(如农行、建行App)先后出现拒绝“豆包手机”登录或要求关闭AI助手的情况 [1] 技术特点与调整 - 豆包手机助手是深度集成在手机操作系统层面的AI助手,能够通过语音指令完成跨应用复杂操作 [1] - 豆包官方对AI操作手机能力做出调整,暂时下线操作银行、互联网支付等金融类App的能力,并对限制刷分、刷激励及游戏类使用场景做出限制 [2] - 此次调整旨在对AI操作手机能力进行规范化,被认为是让技术走得更稳、更远的必要铺垫 [2] 公司回应与合作逻辑 - 努比亚总裁倪飞回应称,AI手机发展势不可逆,对于收到的问题正与合作伙伴沟通解决 [1] - 倪飞解释合作原因为手机行业缺乏颠覆式创新,认为在AI大变革时代,开放是方向,目标是实现“1+1>2”的效果,类比iPhone+ChatGPT、三星+Gemini [2] - 抖音集团副总裁李亮表示,AI带来的变革和用户需求真实存在,豆包与中兴的探索是一个开始,AI一定是未来 [2]
中兴通讯倪飞:AI手机发展趋势不可逆
北京商报· 2025-12-09 20:52
公司战略与产品发布 - 中兴通讯终端事业部总裁倪飞通过个人微博回应了关于努比亚M153豆包手机助手技术预览版的讨论,并阐述了公司在AI手机领域的布局与理念 [1] - 公司选择以开放姿态破局,此次与豆包手机助手联合,模式类似于iPhone+ChatGPT、三星+Gemini,核心目标是为用户带来更好的产品体验 [1] - 公司早在2017年便布局AI,坚持“AI for All”理念,旨在让AI成为人人可轻松享有的基础能力 [1] - 从首款AI手机Z17,到2025年的多模型协同理念,再到此次与豆包合作的M153,是公司持续主动破局的实践 [1] - 公司目前正与合作伙伴沟通解决外界反馈的问题,后续会持续与大众探讨相关进展 [1] 行业趋势与公司定位 - 手机行业已久缺颠覆性创新,在AI变革时代,AI手机发展趋势不可逆 [1] - 公司感谢用户的赞许与鞭策,并表示会继续专注于能改变用户体验的技术创新,与行业伙伴、用户共同推进“AI for All” [1]
智谱AutoGLM开源引爆AI手机生态 多只概念股大涨
证券日报网· 2025-12-09 19:46
市场表现 - 2025年12月9日,AI手机概念股拉升,胜宏科技股价领涨,收盘上涨10.81% [1] - 福蓉科技上午一度涨停,10时55分打开涨停板,最终收涨7.00% [1] - 鹏鼎控股、思泉新材等多只个股同样走高 [1] 技术进展与行业动态 - 2025年12月9日,智谱公司开源其核心AI Agent模型AutoGLM,该模型被视为全球首个具备“Phone Use”(手机操作)能力的AI Agent [1] - AutoGLM能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程 [1] - 此次开源意味着硬件厂商、手机厂商和开发者均可基于该模型,在自己的设备或系统中复现能“看懂”屏幕并模拟真人操作的AI助手 [1] - 项目支持本地与云端部署,确保数据与隐私控制权掌握在使用者手中 [1] - 智谱公司表示,开源初衷是希望将AutoGLM变成行业共同拥有的公共底座,通过私有化部署让企业和开发者完整掌控数据、日志和权限 [2] - 2025年12月1日,抖音旗下AI助手“豆包”与中兴通讯宣布,搭载豆包手机助手技术预览版的努比亚品牌工程样机启动小批量发售 [2] - 这标志着AI大模型厂商与手机硬件厂商的深度跨界合作进入实质落地阶段 [2] 行业前景与政策支持 - 中信证券研报称,AI手机是大厂高度重视的下一个重大变革,三方大模型厂商积极入局 [3] - 该机构看好2026年成为AI手机元年,并带动智能手机产业链迎来新一轮重大机遇 [3] - 2025年《政府工作报告》首次提出“人工智能手机和电脑” [3] - 2025年8月,国务院印发的《关于深入实施“人工智能+”行动的意见》提出,推动智能终端“万物智联”,培育智能产品生态,大力发展人工智能手机和电脑等新一代智能终端 [3] - 专家表示,在“人工智能+”战略引领下,我国人工智能手机与电脑产业正迎来前所未有的发展契机 [4] - 端侧AI将重构消费电子价值链,驱动终端设备从“工具型”向“智能伙伴型”跨越升级,带动全产业链步入新一轮增长周期 [4] 应用场景 - AI手机正从概念加速渗透至真实场景,例如在外卖App中智能筛选并完成下单 [2] - 能在云手机里批量处理通知与社交互动 [2] - 能替用户自动执行销售、客服、考勤等场景中重复、繁琐的日常操作 [2]
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
36氪· 2025-12-09 16:57
产品市场反响与定位 - 豆包手机首批3万台备货被一抢而空,在二手市场价格翻番,显示出极高的市场热度 [1] - 产品被用户评价为“全球第一部真正的AI智能手机”,其AI助手能跨应用自动化执行复杂任务,例如代为请假、提交差旅申请、预订高铁票等 [1][46] - 产品具备跨语言操作能力,用户无需将手机系统语言改为英语,即可直接用英语下达指令,AI助手会自动在中文应用中完成操作 [52][53] 核心技术基础:UI-TARS模型系列 - 豆包手机助手的核心是字节自研的UI-TARS模型,该模型是字节在“系统级GUI Agent”赛道布局近两年的成果 [1][3] - 初代UI-TARS模型于2025年1月由字节Seed团队与清华联手开源,性能优于当时曝光的OpenAI Operator,为系统级AI Agent奠定基础 [3][4] - 模型持续迭代,后续发布了UI-TARS-1.5和UI-TARS-2,在多项基准测试中刷新SOTA(State-of-the-Art)记录 [15][17][19] 技术架构与核心能力 - 原生Agent具备感知、动作、推理、记忆四大核心能力,UI-TARS围绕这些能力进行了关键创新 [6] - 通过大规模GUI截图数据集和五大感知任务增强GUI感知精度 [8] - 融入600万高质量GUI教程和多种推理模式,注入System-2深思型推理能力 [10] - 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈,实现模型迭代优化 [12] 模型性能表现 - 在计算机使用基准测试OSworld(100步)中,UI-TARS-1.5得分为42.5,优于OpenAI CUA的36.4和Claude 3.7的28.0 [18] - 在GUI定位任务ScreenSpot-V2中,UI-TARS-1.5得分为94.2,优于OpenAI CUA的87.9和Claude 3.7的87.6 [19] - 在14款网页游戏测试中,UI-TARS-1.5在11款游戏中得分达到100,全面优于OpenAI CUA和Claude 3.7 [22][23] - UI-TARS-2在15款游戏集合的平均标准化得分为59.77,显著高于OpenAI CUA的24.73和Claude Computer Use的21.61,更趋近人类水平(100) [32] UI-TARS-2的技术突破 - UI-TARS-2旨在实现图形界面的自主交互,解决了数据可扩展性、多轮强化学习稳定性等四大问题 [25] - 核心技术包括可扩展的数据飞轮、稳定长时序优化的训练框架、混合GUI中心环境以及统一的沙盒平台 [25][27][28] - 模型采用532M参数视觉编码器与23B激活参数的MoE LLM架构,在多场景表现全面提升 [30] - 在LMGame-Bench中,UI-TARS-2与OpenAI o3等前沿模型竞争力相当 [33] 产品化与工程实现 - 豆包手机助手是在成熟的UI-TARS技术基础上,针对手机端做了深度定制与优化形成的产品 [35] - 工程分析显示,其视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容,保护了隐私 [41] - 系统设计了OS级虚拟化,后台有独立的Virtual Display供Agent执行任务,不与用户前台界面互相干扰,实现并行运行 [41] - 产品将Agent拆分为标准模式和Pro模式两套技术栈,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [42] 安全与权限管理 - 豆包手机助手需要用户主动授权才能调用INJECT_EVENTS等系统级权限操作手机,此权限为行业AI助手提供类似服务(如语音助手定闹钟)所必需 [36] - 在遇到支付、身份验证等敏感授权时,助手会暂停任务并交由人工接管 [36] - 基于行业发展,官方主动限制了刷分、刷激励、部分游戏以及操作银行和互联网支付类APP的能力 [45] 行业影响与生态 - 相关开源项目在GitHub上已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [34][35] - 行业观点认为,该技术证明手机操作可以成为一种操作系统级的原生能力,将定义下一代AI原生手机 [53] - 该产品被视为一次技术革命,尽管目前仍是技术预览版,软件功能完善度尚有提升空间 [56][59]
搅局者入局!智谱开源AutoGLM,操作手机能力比肩豆包,AI手机战局生变
中金在线· 2025-12-09 15:50
此次开源意味着硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现一个 能"看懂"屏幕、并模拟真人进行点击、输入、滑动的AI助手。目前,AutoGLM已支持微信、淘宝、抖 音、美团等超过50个高频中文应用的核心场景,其自动化操作能力与此前引发热议的"豆包手机"演示相 似。 智谱深夜开源其核心AI Agent模型AutoGLM。该模型被业界视为全球首个具备"Phone Use"(手机操作)能 力的AI Agent,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。 AutoGLM的开源将大幅降低AI手机的技术门槛,推动AI手机生态从封闭走向开放共创。同时,项目支 持本地与云端部署,确保数据与隐私控制权始终掌握在使用者手中。 ...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
量子位· 2025-12-09 15:37
豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空,二手市场价格翻番,显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”,其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”,能跨应用自动化执行复杂任务 [3][4] 核心技术:UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上,该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本:今年1月开源初代模型;3个月后推出强化学习驱动的UI-TARS-1.5;今年9月发布能力更强的UI-TARS-2,为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**:1) 使用大规模GUI截图数据集和五大感知任务增强感知精度;2) 定义了涵盖点击、滚动、输入等跨平台(Web、Mobile、Desktop)的原子动作集;3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力;4) 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**:新增强化学习驱动的推理机制,在执行前进行思考,显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**:1) 设计可扩展的数据飞轮实现数据与模型协同进化;2) 设计在长时序设定中稳定优化的训练框架;3) 构建混合GUI中心环境,通过SDK接入文件系统、终端等,打破纯GUI操作局限;4) 开发统一的沙盒平台管理异构环境,支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**:在计算机使用基准OSworld(100步)得分42.5,优于OpenAI CUA的36.4;在Windows Agent Arena(50步)得分42.1;在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**:在ScreenSpot-V2得分94.2,在ScreenSpotPro得分61.6,均刷新SOTA [28] - **UI-TARS-1.5游戏测试**:在14款游戏测试中,UI-TARS-1.5在11款游戏上得分达到100,全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**:在15款游戏的平均标准化得分为59.77,更接近人类水平(100),显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**:与前沿模型竞争,例如在Super Mario Bros得分1783.2,高于GPT-4o的1028.3,接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**:豆包手机助手使用INJECT_EVENTS系统级权限,需用户主动授权;遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**:视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**:Agent在后台执行长链任务时,即使前台接电话或切换App也不会被挂起,推测在OS层做了并行运行的虚拟化设计,拥有独立的Virtual Display [57] - **双模式技术栈**:豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**:用户可用英语直接下达复杂指令(如找人代排队、呼叫无人车),助手能自主选择应用并完成操作,无需预先设置手机语言 [69][72][75] - **能力限制**:官方已主动限制部分能力,包括限制刷分、刷激励场景,部分游戏类场景,并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**:被评价为定义了下一代AI原生手机,展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]
智谱开源可操控手机的智能体模型:AI手机只在一家做是不够的
新浪财经· 2025-12-09 14:53
智通财经记者 | 宋佳楠 12月9日,智通财经获悉,"大模型六小虎"之一的智谱AI宣布开源核心AI Agent模型AutoGLM,称希望 通过这款模型,让AI真正学会"使用手机"。 谈及在当下这个时间节点选择开源的原因,智谱表示,"这件事(AI手机)只在一家公司做,是不够 的。"智谱认为,AI手机已经是趋势,但如果"会用手机的AI能力"只掌握在极少数厂商手里,那便意味 着两件事:一是开发者的创新空间,要看平台愿不愿意开放接口;二是用户日常生活中最重要的那台设 备,越来越像"别人家的入口"。 去年10月,智谱发布了首个可在真机上完成一条完整操作链路的AutoGLM。一个月后,AutoGLM发出 了由AI完成的手机红包。 进入2025年,该公司又发布了AutoGLM 2.0,并把它放进一台和用户真实世界脱离的虚拟手机里。基于 此,这台手机跑在云端,每一个动作都可回放、审计、干预,也可以对敏感数据加以隔离。 智谱特别提到,"让AI会用手机之前,我们要先保证,它不会在不该点的地方胡乱伸手。"为此,其主动 放弃了操作微信等这些离用户隐私较近的APP。 但智谱强调,Phone Use能力一旦做大,天然会碰到敏感信息,包括 ...
搅局者来了!智谱重磅开源AutoGLM,让“豆包手机”人人可造!官方:AI手机不该掌握在少数厂商手中
AI前线· 2025-12-09 14:26
AutoGLM模型开源发布 - 智谱于2023年4月开始研发能让AI像真人一样使用手机的技术,并在32个月后,于2025年4月将其核心AI Agent模型AutoGLM完整开源[2][3] - 开源内容包括:训练好的核心模型、手机操作能力框架与工具链、覆盖50多个高频中文App的可直接跑通的Demo、针对Android的适配层与示例工程、以及文档和快速上手指南[15] - 模型以MIT许可证开放,所有代码以Apache-2.0许可证托管在GitHub仓库中[10] AutoGLM的核心能力与技术 - AutoGLM具备手机操作能力,包括点击、滑动、输入、截图理解、流程恢复、噪声处理等,能稳定完成外卖点单、机票预订等长达数十步的复杂操作流程[5] - 模型已支持上百个主流APP[6] - 其能力基于三大核心技术突破:1) 创新的双层Agent结构,将行为拆分为负责思考的Planner和负责执行的Grounder,解决了“看得懂但点不准”的难题,使GPT-4o视觉模式的网页任务执行成功率从18%提升至36.4%[26][27];2) 自进化式的Curriculum RL强化学习框架,赋予模型错误恢复能力[29];3) 在包括上千台云端虚拟手机的大规模可控环境中训练,极大地扩展了Agent的准确性和泛化能力[9][30][31] 开源动机与行业愿景 - 智谱认为“AI手机”是大势所趋,但非一家公司能完成,也不应被极少数厂商垄断,开源旨在将AutoGLM打造成行业可共同拥有和打磨的公共底座[12][14] - 通过开源和私有化部署,企业和开发者可在自己的合规环境中完整掌控数据、日志和权限,解决AI手机面临的隐私问题[16][17] - 智谱希望分享其技术积累,将走过的路变成行业在Agent爆发时代的起跑线,自身定位为AI手机生态中开放、易集成的关键拼图,而非取代手机厂商[18][47] AI手机行业现状与前景 - 据IDC预计,2026年中国新一代AI手机出货量将达到1.47亿台,占总体市场的53%[36] - 赛迪顾问判断,2027年AI手机销量将跃升至1.86亿部,占比56.1%[36] - 2023年中国AI手机销售量为1100万部,占全球22%;2024年预计出货量超过3500万部,市场占有率约12%[41] - 目前AI手机实际体验仍处早期阶段,存在“宣传大于实际”的问题,跨App操作成功率受限于权限、界面变化等工程难题[42][43] 行业技术路线与竞争格局 - 行业技术路线主要分为两派:依赖App授权的“意图框架”和无需授权、依靠读屏与模拟操作的“视觉路线”[44] - 字节跳动的“豆包手机”尝试将GUI Agent做到系统级,其首批约3万台供内部测试,核心团队由多个硬件团队整合而来,目标是探索“大模型+超级App+硬件”的新形态[46] - 第三方AI在手机中大规模落地面临权限、数据、应用配合等挑战,手机厂商普遍倾向与可控性更强的大模型公司合作,如OPPO选择阶跃星辰,荣耀、三星采用智谱[46]
中信证券:看好手机产业的智驾时刻有望加速来临
格隆汇· 2025-12-09 14:06
行业背景与核心驱动力 - 智能手机行业创新趋缓,单纯硬件参数提升对换机的拉动力持续削弱,全球平均年换机率已从高点30%~60%逐步收敛下降至2024年的23.7%,对应换机周期约51个月[1][2] - 手机作为用户数量最多、使用频率最高的智能终端,用户存在从碎片化、繁杂流程中解放精力的迫切需求,以AI Agent改造现有交互方式成为产业期待的下一个重大变革,并有望成为拉动下一波换机潮的重要驱动力[2] 市场现状与主要参与者 - 国内外手机大厂已将AI手机作为核心战略方向,在2023至2025年间陆续推出AI助手、AI修图、智能语音、多模态交互等功能以追求差异化,但尚未实现消费者体验的突破性改善[3] - 第三方大模型厂商看好手机作为端侧AI时代核心硬件载体,正积极通过合作赋能方式参与手机AI化进程,截至2024年底,国内头部手机厂商已与豆包、文心一言等大模型展开合作[3] - 2025年12月1日,豆包与努比亚(中兴通讯)联合发布搭载豆包手机助手的AI手机产品,将大模型深度融入操作系统,具备高权限的系统级智能体,可实现跨应用长链条复杂功能执行,相较此前功能分散、执行困难等问题有明显改善[1][3] 发展模式与产业展望 - 豆包与努比亚的合作模式,可类比智驾领域华为与赛力斯合作的华为智选模式,大模型厂商有望为手机厂商提供强大的模型能力与生态助力,加速优化消费者体验的AI手机爆款产品落地[1][4][6] - AI手机有望为手机产业带来更广阔的发展空间,并可能改变商业模式、价值链及生态格局,豆包的入局意味着各大手机厂商必须加快拥抱AI以取得更有利的竞争态势[4] - 看好2026年成为AI手机元年,并带动智能手机产业链迎来新一轮重大机遇[6] 产业链投资机遇 - 建议关注与豆包等大模型深度绑定的品牌[7] - 建议关注具备自研AI大模型能力的厂商[7] - 建议关注受益于手机AI化带来的硬件升级环节,包括主芯片(高算力旗舰芯片)、存储(内存提升+3D-DRAM趋势)、散热、电源等[7] - 建议关注因手机AI化带动换机而整体受益的供应链[7]
智谱开源“会使用手机的”模型AutoGLM,人人均可打造AI手机
中证网· 2025-12-09 13:40
核心观点 - 智谱于12月9日宣布开源其核心AI Agent模型AutoGLM 此举旨在降低AI手机技术门槛 推动行业生态从封闭走向开放共创 并已支持超过50个高频中文应用的核心场景 [1] - 开源AutoGLM模型将使其成为行业公共底座 硬件厂商 手机厂商和开发者均可基于此复现能“看懂”屏幕并模拟真人操作的AI助手 同时通过私有化部署确保数据与隐私安全 [2] 技术产品进展 - 2024年10月 智谱首发能在真机上稳定完成完整操作链路的AI Agent模型AutoGLM 该模型被视为全球首个具备“Phone Use”能力的AI Agent 能稳定完成外卖点单 机票预订等长达数十步的复杂操作 [1] - 2025年 智谱发布AutoGLM 2.0版本 通过在上下个虚拟设备环境中进行强化学习 大幅扩展了Agent的准学习和泛化能力 [1] - 团队为保障用户安全 将Agent置于“虚拟手机”环境中运行 其每一步动作都可回放 审计和干预 用户敏感数据可被严格隔离 [1] - 项目支持本地与云端部署 确保数据与隐私控制权始终掌握在使用者手中 [1] 行业影响与市场反应 - 业内认为 AutoGLM的开源将大幅降低AI手机的技术门槛 推动AI手机生态从封闭走向开放共创 [1] - 通过开源和私有化部署 企业和开发者可以在自己的合规环境中完整掌控数据 日志和权限 [2] - 12月9日上午 A股AI手机 PCB等板块表现活跃 胜宏科技涨超10% 超声电子涨停 工业富联 福蓉科技 华勤技术等涨超5% [2]