豆包手机的技术架构与核心功能 - 豆包手机的核心技术在于其并非一个简单的App,而是在Android Framework层构建了一套操作系统级的影子系统[10] - 该手机具备在锁屏状态下于后台丝滑操作的能力[5] - 在性能测试中,豆包手机展现出极高速度,例如在B站的测试中达到3秒答完1道题,5分钟完成100道题的速度[6] 双模式Agent系统设计 - 公司将Agent拆分为两套完全不同的技术栈:标准模式(快)和Pro模式(慢且鲁棒),类似于人类认知中的System 1(直觉)和System 2(推理)[10] - 标准模式主要依赖浅层视觉语言模型,响应极快,体感延迟小于500毫秒,但缺陷在于其“直觉”反应可能导致误操作,例如点击图片中的按钮而非真实按钮[14] - Pro模式则涉及深度推理与工具调用,在执行指令前有明显的“暂停+思考”过程,具备自我反思能力,并能进行复杂的多跳检索和直接调用System API[15] - 豆包手机助手实际使用了UI-TARS 2.0闭源版本,其性能大幅优于开源版,并针对手机场景专门优化[15] 混合感知与视觉理解能力 - 公司通过XML+Vision动态路由技术解决环境噪声干扰这一Agent落地核心挑战[16] - 在复杂UI场景(如地图应用)中,AI能够理解并执行包含颜色语义、空间关系和物体检测的复杂指令,例如“点击深红色最堵路段旁边的施工图标”[16][19] - 技术路线推测为:标准UI走XML解析,非标准UI则走视觉路线(通过截屏分析,但更费电)[20] - 视觉路线的存在被证实,因为VLM具备像素级的“开放词汇定位”能力,而安卓的“无障碍树”在复杂渲染界面中往往信息缺失[17][18] 操作系统级虚拟化与并行处理 - 豆包手机实现了OS级的虚拟化,采用“并行运行时”架构,允许Agent在后台执行长任务,即使用户切换至其他应用也不会中断[21] - 该架构可能基于“影子屏幕”实现“输入隔离”,即物理屏幕处理用户交互(如打电话),逻辑屏幕则运行Agent任务,形成了“双并行宇宙”结构,解决了Agent抢占前台导致手机卡顿的问题[21] 工程优化与隐私安全设计 - 在工程上,Agent会在每个操作结束后强制引入1000毫秒至5000毫秒的固定延迟,以对抗APP的异步加载或骨架屏,用时间换取操作成功率[23][25] - 在隐私安全方面,视觉管道是经过过滤的,并非持续录屏监控,这从物理层面避免了手机过热[26][27] - 其隐私设计基于“任务层级”进行针对性屏幕内容抓取,例如在测试中,AI截取的画面仅包含主应用界面,自动排除了画中画悬浮窗,实现了对视频通话、金融APP安全键盘等敏感内容的物理隔离[28] - 该设计被描述为包含了隔离机制、熔断策略和本地化处理的安全、可靠代码逻辑[28] 记忆、工具调用与系统韧性 - 在Pro模式下,数据的调用非常精准,例如在响应“验证码有什么数学特征”指令时,系统并非暴力进行全屏OCR,而是通过Client向Server发起特定请求,其系统授权部分可能形成了一个RAG-MCP架构[32] - 对于长列表内容,Agent采用类似Playwright测试框架的行为:滚屏→进行DOM差异对比→提取增量信息→拼接,以此解决跨屏上下文问题[33] - 系统展现出强大的韧性,例如在尝试读取Outlook最新邮件失败时,Agent不会报错退出,而是自动降级读取第二封邮件,并尝试合并第一封邮件的列表页预览信息进行汇报,这表明其规划器关注的是“任务目标”而非固定的操作序列[34][35][36] 底层模型:UI-TARS的演进与开放 - 豆包手机助手GUI操作能力的核心基于UI-TARS模型,其开源版本已向业界开放[43] - UI-TARS是一个将屏幕视觉理解、逻辑推理、界面元素定位和操作整合于一体的多模态模型[44] - 该模型迭代迅速,在2025年内就完成了三次主要版本更新:2025年1月发布第一代,2025年4月发布UI-TARS-1.5,2025年9月发布UI-TARS-2[46] - 其性能在AndroidWorld基准测试上持续提升:v1得分46.6,v1.5得分64.2,v2得分73.3[47] - 技术驱动不断演进:v1核心为监督微调+DPO,v1.5引入强化学习与推理扩展,v2则建立了数据飞轮与多轮强化学习的自我进化训练系统[47] - 交互能力从纯GUI界面,扩展到初步游戏场景,再到支持终端和文件系统操作[47] 行业意义与GUI Agent发展 - 豆包AI助手是当前GUI Agent浪潮的典型代表,GUI Agent代表着AI与人类交互的“新前沿”,其目标是让模型能够像人一样观看屏幕并操作[48] - 端侧小模型的出现使得GUI可以被结构化理解,再与API融合,从而形成了“统一的智能交互层”,解决了早期API路线与GUI路线难以统一的问题[48] - 近两年多模态原生大模型(如Gemini 3、GPT-5.1)的跃迁式迭代,为GUI Agent走向大众奠定了基础,使LLM能够理解图片、视频、UI元素,并具备长上下文记忆能力[50] - 高阶的GUI Agent需要深度嵌入操作系统,豆包手机证明了将AI助手作为OS级原生能力的可行性,并定义了下一代AI手机的形态[55][57] - 行业观点认为,豆包手机的出现是GUI Agent时代划时代的标志,它让Agent从可操作界面迈向了深度的系统集成[57][58]
00后大模型实习生「扒光」豆包手机,千字实测揭秘
36氪·2025-12-10 14:50