文章核心观点 - 智谱公司全面开源的AutoGLM项目,通过一个手机端智能助手框架和一个9B参数模型,实现了能真正操控手机的AI智能体,这标志着AI从对话到行动的范式转变,并可能成为AI Agent领域的“安卓时刻”,为未来AI原生手机和隐私保护型智能助手奠定了开源基础 [5][6][12][35][42] 锤子科技与TNT的历史背景 - 锤子科技虽已落幕七年,但其TNT(Touch & Talk)构想通过触控加语音操作设备,在当今大模型时代被验证为高效交互方式,仍有百万日活用户怀念其产品 [3][4][5] AutoGLM项目的起源与里程碑 - 智谱是首个进行可操作智能体研究的厂商,于32个月前的2023年4月启动AutoGLM项目,旨在打造能“做”而不仅是“说”的智能体 [11][12] - 2024年10月,AutoGLM面世并被公认为全球首个可真正操控手机的Agent,也是完成度最高的GUI Phone Use模型 [12] - 该项目实现了一个关键里程碑:完成了人类历史上第一个由AI全自动发出的微信红包,象征着大模型从Chat到Act的范式转变 [13][15] AutoGLM的技术架构与核心能力 - 项目由手机端智能助手框架Phone Agent和9B大小的模型AutoGLM-Phone-9B组成 [6] - 其实现依赖于三大核心技术:1) ADB作为手机控制器;2) 视觉-语言模型作为AI的“眼睛+大脑”;3) 智能规划能力作为任务拆解的“策划师” [17][18][19] - 该模型通过理解手机屏幕内容、解析UI状态并结合智能规划,能自主完成从自然语言指令到具体操作的全套流程 [16][19] AutoGLM的实际应用表现 - 在实测中能流畅执行发微信、浏览小红书商品、更新应用宝软件、跨应用查询与播放音乐等复杂任务 [22][27][28][29] - 展现出强大的稳健性,如在操作中遭遇误触打开错误应用时,能感知错误、自我修正并回到正轨,这是Agent走向实用的关键 [30][31][40] - 具有高通用性,不局限于特定应用,甚至能调用其他AI助手(如Gemini)来完成更复杂的任务,充当连接本地应用与云端模型的“超级胶水” [31][32][33] 全面开源的意义与影响 - 智谱将AutoGLM全面开源,包括核心模型、推理代码、完整工具链、支持50多款常用中文App的Demo以及友好协议,将能力开放给整个行业 [35][41] - 开源解决了隐私问题,允许AI在本地设备运行,数据无需上云,代码透明可验证,提供了透明、可控、私有的智能管家方案 [36][37] - 此举打破了可能由单一平台独占AI手机入口的局面,为行业提供了平等的模型底座,回应了其他AI手机助手被大厂应用限制的现状 [38][39] - 开源被视作AI Agent领域的“安卓时刻”,为动嘴就能搞定一切的未来交互时代铺下了开源基石 [42]
一手实测 | 智谱AutoGLM重磅开源: AI手机的「安卓时刻」正式到来
机器之心·2025-12-10 13:10