产品市场反响与定位 - 豆包手机首批3万台备货被一抢而空,在二手市场价格翻番,显示出极高的市场热度 [1] - 产品被用户评价为“全球第一部真正的AI智能手机”,其AI助手能跨应用自动化执行复杂任务,例如代为请假、提交差旅申请、预订高铁票等 [1][46] - 产品具备跨语言操作能力,用户无需将手机系统语言改为英语,即可直接用英语下达指令,AI助手会自动在中文应用中完成操作 [52][53] 核心技术基础:UI-TARS模型系列 - 豆包手机助手的核心是字节自研的UI-TARS模型,该模型是字节在“系统级GUI Agent”赛道布局近两年的成果 [1][3] - 初代UI-TARS模型于2025年1月由字节Seed团队与清华联手开源,性能优于当时曝光的OpenAI Operator,为系统级AI Agent奠定基础 [3][4] - 模型持续迭代,后续发布了UI-TARS-1.5和UI-TARS-2,在多项基准测试中刷新SOTA(State-of-the-Art)记录 [15][17][19] 技术架构与核心能力 - 原生Agent具备感知、动作、推理、记忆四大核心能力,UI-TARS围绕这些能力进行了关键创新 [6] - 通过大规模GUI截图数据集和五大感知任务增强GUI感知精度 [8] - 融入600万高质量GUI教程和多种推理模式,注入System-2深思型推理能力 [10] - 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈,实现模型迭代优化 [12] 模型性能表现 - 在计算机使用基准测试OSworld(100步)中,UI-TARS-1.5得分为42.5,优于OpenAI CUA的36.4和Claude 3.7的28.0 [18] - 在GUI定位任务ScreenSpot-V2中,UI-TARS-1.5得分为94.2,优于OpenAI CUA的87.9和Claude 3.7的87.6 [19] - 在14款网页游戏测试中,UI-TARS-1.5在11款游戏中得分达到100,全面优于OpenAI CUA和Claude 3.7 [22][23] - UI-TARS-2在15款游戏集合的平均标准化得分为59.77,显著高于OpenAI CUA的24.73和Claude Computer Use的21.61,更趋近人类水平(100) [32] UI-TARS-2的技术突破 - UI-TARS-2旨在实现图形界面的自主交互,解决了数据可扩展性、多轮强化学习稳定性等四大问题 [25] - 核心技术包括可扩展的数据飞轮、稳定长时序优化的训练框架、混合GUI中心环境以及统一的沙盒平台 [25][27][28] - 模型采用532M参数视觉编码器与23B激活参数的MoE LLM架构,在多场景表现全面提升 [30] - 在LMGame-Bench中,UI-TARS-2与OpenAI o3等前沿模型竞争力相当 [33] 产品化与工程实现 - 豆包手机助手是在成熟的UI-TARS技术基础上,针对手机端做了深度定制与优化形成的产品 [35] - 工程分析显示,其视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容,保护了隐私 [41] - 系统设计了OS级虚拟化,后台有独立的Virtual Display供Agent执行任务,不与用户前台界面互相干扰,实现并行运行 [41] - 产品将Agent拆分为标准模式和Pro模式两套技术栈,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [42] 安全与权限管理 - 豆包手机助手需要用户主动授权才能调用INJECT_EVENTS等系统级权限操作手机,此权限为行业AI助手提供类似服务(如语音助手定闹钟)所必需 [36] - 在遇到支付、身份验证等敏感授权时,助手会暂停任务并交由人工接管 [36] - 基于行业发展,官方主动限制了刷分、刷激励、部分游戏以及操作银行和互联网支付类APP的能力 [45] 行业影响与生态 - 相关开源项目在GitHub上已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [34][35] - 行业观点认为,该技术证明手机操作可以成为一种操作系统级的原生能力,将定义下一代AI原生手机 [53] - 该产品被视为一次技术革命,尽管目前仍是技术预览版,软件功能完善度尚有提升空间 [56][59]
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
36氪·2025-12-09 16:57