Workflow
手机Agent
icon
搜索文档
AutoGLM深夜开源,千千万万个手机Agent要站起来了。
数字生命卡兹克· 2025-12-09 09:20
昨天深夜12点多,智谱干了个挺有意思的事。 直接把他们的手机Agent,也就是AutoGLM开源了。 开源链接在此: https://github.com/zai-org/Open-AutoGLM 挺感慨的,一年前的10月25号,AutoGLM在 CNCC上正式发布,那时候我也做了 AutoGLM的全网首发的评测 ,虽然很坦诚的讲,那时候的 AutoGLM,还不成熟,成功率也不算高,支持的APP也不算多。 但,那是 我们第一次见到了手机Agent的模样。 那个时候,真的就跟见到新世代的产物一样,疯狂卧槽。 这是一年前第一次体验AutoGLM的时候,没忍住,给智谱的朋友发的聊天记录。。。 不过因为不是系统级别的手机助手,所以豆包那样的后台虚拟屏运行就别想了,这个确实没有办法。 还有这个差旅的任务。 而且因为本地模型的限制,速度慢一点点,也笨一点点。 目前大概支持50个应用。 而现在,在豆包手机助手被全面封禁之际,这个手机Agent的鼻祖,选择用开源的方式,为这个技术世界,再添一把新的柴火。 从2023年启动研究开始,到今天,整整32个月,然后,把这个足以跟豆包掰掰手腕的模型和框架, 一把开源。 一个豆包倒下了, ...
手机Agent的两种范式:API与GUI
国盛证券· 2025-12-07 16:24
行业投资评级 - 增持(维持)[4] 报告核心观点 - 手机Agent正推动移动交互范式从GUI(图形用户界面)向Agentic(智能体)交互跃迁,用户可通过自然语言指令完成任务,无需在不同App间手动切换[1][12] - 实现手机Agent有两条主要技术路线:API范式和GUI范式,两者各有优劣,未来可能走向融合而非单选[1][24][32] - API范式(以苹果Apple Intelligence为代表)通过标准化语义接口调用App功能,强调生态整合与隐私安全[1][12][16] - GUI范式(以智谱AutoGLM、字节豆包助手为代表)利用多模态模型视觉理解屏幕并模拟点击,通用性高但面临可靠性与隐私挑战[2][13][19] - 手机Agent的发展将引发手机厂商、大模型厂商和应用厂商之间的三方博弈,重塑移动互联网流量与商业生态[3][26] 手机Agent的两种范式 API范式 - 核心是建立标准化的语义接口,需要App开发者主动适配并暴露功能,Agent通过结构化API指挥App执行任务[1][12] - 典型代表是苹果的Apple Intelligence及其App Intents框架,旨在构建“语义互联网”[12][16] - 苹果通过提供多个“助手架构”作为标准化模板,以解决不同开发者对同一功能定义差异的问题[17] - 谷歌在安卓生态中也进行了API尝试,例如推出基于Gemini Nano模型的设备生成式AI API和Prompt API[18] GUI范式 - 核心是利用多模态模型理解屏幕UI元素,并通过系统辅助服务模拟手指的点击与滑动来操作App,不依赖开发者配合[2][13] - 典型代表包括智谱AI的AutoGLM和字节跳动的豆包手机助手[2][13] - 智谱AutoGLM 2.0已面向公众开放,可操作抖音、美团等40余款应用完成点餐、订票等任务[21] - 字节豆包手机助手是与中兴手机合作的系统级服务,通过长按侧边键唤醒,可直接获取系统底层屏幕缓冲区数据以降低延迟[22] - 谷歌Gemini 3 Pro模型在多模态理解,特别是屏幕理解任务上表现突出,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5的36.2%和GPT 5.1的3.5%[19] 两种范式核心差异对比 - **通用性**:GUI Agent通用性显著更高,是其核心优势,不需要App开发者适配,理论上人类能用的App它都能用,解决了长尾应用覆盖问题[2][24][25] - **可靠性**:API Agent可靠性更高,只要API稳定即可保证任务完成;GUI Agent可靠性较低,原因包括模型对复杂界面识别能力未达100%(如Gemini 3 Pro得分72.7%)、多步骤操作导致失败率更高、UI改版时易失效[2][24][25] - **性能**:API Agent高效,可单次调用完成复杂任务;GUI Agent低效,完成简单任务可能需要多次截图分析和视觉推理,算力消耗大,且截图上传云端的数据量和延迟均高于API传输参数[2][24][25] - **隐私风险**:API Agent隐私风险低,应用端可进行精细的权限管理;GUI Agent隐私风险高,需要读取屏幕权限,可能暴露聊天记录、密码等敏感信息[2][24][25] - **商业阻力**:GUI Agent商业阻力极大,不经过应用厂商授权,易受到技术和法律手段封杀,如豆包手机助手操作微信时曾引发账号封禁和银行App强弹窗提醒[2][23][24][25] 商业形态演变与三方博弈 - **手机厂商**:角色从硬件售卖转向获取流量入口价值,操作系统成为用户意图的第一接收者,可能催生类似搜索广告的新竞价模式[3][26][27] - **大模型厂商**:愿景是打造跨越操作系统的超级助理App(如ChatGPT、豆包),将其他App变为自己的后端工具,并积极寻求与二线手机厂商合作(如字节与中兴)[3][26][28][30] - **应用厂商**:面临合作与防御的两难选择,一方面可能开放部分接口,另一方面为保护自身利益可能拒绝或限制Agent接入[3][26][31] - **法律与授权边界**:AI助手作为“用户授权的代理人”与平台权益之间存在法律争议,可能需要双重或多重授权[31] - **App自身Agent化**:微信明确表示最终会推出AI智能体,淘宝已通过“问问”功能尝试在App内实现自然语言导购[3][31][32] 未来展望与融合路径 - 手机Agent的发展不会是API或GUI的单选题,而是两者融合[3][32] - 对于高价值、涉及敏感数据的操作(如支付、通讯),API Agent因准确度高和隐私保护更优而更适用[3][32] - 对于只读、信息查询类需求以及API未覆盖的应用,GUI Agent通过视觉理解的方式运行更灵活通用[6][32] - 为解决GUI Agent的延迟和隐私问题,未来手机处理器预计将进一步优化视觉模型的端侧推理能力,使识别和决策在本地完成,无需上传云端[6][32] 建议关注的领域与公司 - **GUI Agent相关**:字节跳动、谷歌、阿里巴巴、中兴通讯[7][33] - **API Agent相关**:腾讯控股、阿里巴巴、谷歌[7][33] - **算力相关**:寒武纪、海光信息、中际旭创、中科曙光、浪潮信息等[7][33] - **其他Agent相关**:包括第四范式、360、金蝶国际、科大讯飞、恒生电子等[8][34] - **自动驾驶相关**:江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等[8][34] - **军工AI相关**:拓尔思、能科科技、普天科技、中科星图等[8][34]
智谱AutoGLM 2.0再升级:全球首个手机Agent 人人可用
凤凰网· 2025-08-20 14:35
产品核心升级 - 智谱AI宣布AutoGLM 2.0再次升级,亮点包括全球首个手机Agent,人人可用 [1] - 开创Agent+云手机/云电脑的新技术范式,不抢占用户手机和电脑资源 [1] - 突破硬件限制,可在任何设备、任何场景下运行,帮助用户代理操作 [1] - 由国产模型GLM-4.5和GLM-4.5V驱动,具备推理、代码与多模态的全能能力 [1] 技术能力突破 - 过去的AI多停留在"对话"层面,一般的智能体助手多局限于信息查询和总结 [1] - AutoGLM 2.0不再只是"说",而是真正能够"做",实现操作执行 [1] 应用场景覆盖 - 在生活场景中,用户只需一句话,AutoGLM即可操作美团、京东、小红书、抖音等几十个高频应用 [1] - 在办公场景中,能跨网站执行全流程工作,操作网页版的飞书、网易邮箱、知乎、微博等网站 [1] - 功能覆盖从信息检索到内容撰写,再到生成视频、PPT或播客,并直接完成社交媒体平台内容发布 [1]