AI手机 - 财报，业绩电话会，研报，新闻

AI手机

搜索文档

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

量子位· 2025-12-09 15:37

豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空，二手市场价格翻番，显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”，其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”，能跨应用自动化执行复杂任务 [3][4] 核心技术：UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上，该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本：今年1月开源初代模型；3个月后推出强化学习驱动的UI-TARS-1.5；今年9月发布能力更强的UI-TARS-2，为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**：1) 使用大规模GUI截图数据集和五大感知任务增强感知精度；2) 定义了涵盖点击、滚动、输入等跨平台（Web、Mobile、Desktop）的原子动作集；3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力；4) 借助数百台虚拟机自动收集交互轨迹，通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**：新增强化学习驱动的推理机制，在执行前进行思考，显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**：1) 设计可扩展的数据飞轮实现数据与模型协同进化；2) 设计在长时序设定中稳定优化的训练框架；3) 构建混合GUI中心环境，通过SDK接入文件系统、终端等，打破纯GUI操作局限；4) 开发统一的沙盒平台管理异构环境，支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**：在计算机使用基准OSworld（100步）得分42.5，优于OpenAI CUA的36.4；在Windows Agent Arena（50步）得分42.1；在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**：在ScreenSpot-V2得分94.2，在ScreenSpotPro得分61.6，均刷新SOTA [28] - **UI-TARS-1.5游戏测试**：在14款游戏测试中，UI-TARS-1.5在11款游戏上得分达到100，全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**：在15款游戏的平均标准化得分为59.77，更接近人类水平（100），显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**：与前沿模型竞争，例如在Super Mario Bros得分1783.2，高于GPT-4o的1028.3，接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star，成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**：豆包手机助手使用INJECT_EVENTS系统级权限，需用户主动授权；遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**：视觉管道经过过滤，截屏只包含目标应用界面，基于Activity Hierarchy抓取，物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**：Agent在后台执行长链任务时，即使前台接电话或切换App也不会被挂起，推测在OS层做了并行运行的虚拟化设计，拥有独立的Virtual Display [57] - **双模式技术栈**：豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline，标准模式依赖浅层视觉响应极快，Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**：用户可用英语直接下达复杂指令（如找人代排队、呼叫无人车），助手能自主选择应用并完成操作，无需预先设置手机语言 [69][72][75] - **能力限制**：官方已主动限制部分能力，包括限制刷分、刷激励场景，部分游戏类场景，并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**：被评价为定义了下一代AI原生手机，展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]