豆包手机跨应用 Agent:充满惊喜,也有遗憾,满是期待|锦秋AI实验室
锦秋集·2025-12-04 14:44

文章核心观点 - 豆包手机助手是一款由豆包与中兴深度合作的系统级AI Agent,它通过视觉识别和理解能力,能跨应用执行复杂任务,代表了AI手机在入口统一、系统协同和意图驱动方面的现实探索[1] - 该产品目前是面向行业和AI爱好者的“技术预览版”,定价3499元,搭载于nubia M153,并非面向普通消费者的最终方案[1][56] - 测评显示,豆包手机在稳定执行异步、流程化任务方面表现出色,但存在操作延迟、部分应用(如微信)不支持等明显短板[4][5][30][34] - 文章认为,豆包手机标志着端侧AI的“GPT-3时刻”,其系统级Agent模式可能重塑应用生态、交互入口和产业合作范式,是AI OS和主动性Agent发展的重要信号[6][41][46] 场景测评总结 - 测评方法与范围:测评通过语音指令启动,豆包手机可自主操作手机,用户无需全程盯守[8][9]。测评场景覆盖小红书、高德地图、携程、贝壳找房、抖音、美团外卖、闲鱼、斗地主等实用与娱乐场景[13] - 场景一:小红书旅行攻略:豆包能连续浏览小红书约10分钟并保持记忆,自主跳转至高德地图收藏地点,并在多轮对话后准确找回原帖继续执行下载任务,对无法下载的应用能明确告知结果[14] - 场景二:贝壳找房买房攻略:豆包能理解具体找房任务并与中介互动,最终成功联系到中介,但在执行“找10套合适房源”等批量任务时,次数识别可能不准确[16][17][18] - 场景三:携程买票及出差路线规划:豆包能排除“时间赶不及”等无效信息干扰,直接锁定购票与规划任务,当发现手机无携程App时,可通过自然语言描述补充任务继续执行[22]。其具备推理能力,能识别“从苏州飞上海”指令不合理(苏州无机场),并自主切换至高铁方案[23] - 场景四:闲鱼买二手电驴:面对结构复杂的闲鱼页面,豆包能清晰导航并准确定位操作入口,完成目标筛选[25] - 场景五:斗地主代打:豆包能根据画面信息决策下一步行动,但其“截屏-分析-决策-点击”的循环工作逻辑导致操作有秒级延迟,在需要快速连续点击(如出“炸弹”)时容易因超时而失败[29] 产品体验评估 - 超预期的稳定性与泛化能力:豆包能连续十分钟无差错执行任务,准确操作大量常规及小众App[30]。遇到界面异常时,会自主尝试滑动、点击其他按钮或换路径继续任务,而非死机[30]。其基于视觉识别屏幕,理论上不依赖App开发者开放权限或担心UI更新,只要人眼能看懂的按钮,它大体都能理解[30] - 卓越的协同性:产品将中兴的硬件、锤子科技改造的系统、端侧模型、输入法、语音和Agent能力链路整合成一个闭环,实现了1+1>2的整机体验[32] - 适用任务类型:目前在异步、无时效性要求、流程化、可清晰描述的任务上,豆包手机的任务成功率和使用体验已经非常高[31] - 明显的体验短板:操作延迟显著,每一步操作都有秒级反应速度,例如出斗地主一张牌要等5秒[34]。目前已暂停操作微信,这直接影响了中国用户40%的高频连接和分享场景[34]。此外,存在次数识别不准确、初期缺乏记忆(如点外卖需重复选择规格)、部分内容生成能力僵硬等问题[34] 行业影响与未来展望 - 主动性Agent走入现实:豆包手机在常用App设置钩子,点击收藏按钮时会自动截图存入全局记忆,未来可能支持用户设置定时任务,挖掘更多主动功能[37][38] - 构建强大的用户上下文:端侧Agent理论上可异步遍历用户所有App内容(聊天、购买、出行等),构建最完整的用户上下文,但目前基于用户操作记录的AI功能尚未显现[39][40] - 端侧AI的“GPT-3时刻”:豆包手机可被称为端侧AI的GPT-3(2020年)时刻,准确率已很高,主要问题是操作速度慢[41]。若视觉语言模型速度提升10到50倍,将达到端侧AI的“ChatGPT时刻”,许多任务可由端侧通用Agent完成,这要求端侧创业公司重新审视现状[41][42] - 操作系统的认知变革:传统操作系统要求用户学习界面和流程,而豆包手机让功能、内容、文件成为可被Agent调用的模块,用户只需提出需求,由Agent解决操作问题[43][44] - 产业合作新范式:合作超越“把模型塞进手机”,走向操作系统级的Agent调用[45]。应用侧广泛接入,但核心能力可能不开放,需通过豆包模型的页面视觉识别来实现操作,而非直接调用API,这呈现出“AI OS系统供应商”意义上的行业重构力量[45][46] - 未来的交互入口之争:入口从分散的应用转向“任务意图”,这牵动10万亿级产业利益[47]。应用巨头不愿沦为“后台API”,应用间会竖起高墙(如微信登录被动下线),AI手机以任务入口统一入口的可能性与原有入口的争夺,将成为2025至2026年的热门话题[47][48][49][50] - 隐私安全挑战:AI权限高、触达深,引发用户对安全的担忧,尤其是在考虑给大龄父母使用时[51]。系统在支付等高敏感操作上采用“最小权限原则”,需交还用户手动确认,未来的竞争关键在于如何在AI能干的同时让用户安心[51]。用户可通过指令覆盖默认安全基线,各方均需在此环节改进优化[52] - 应用价值重构:未来应用的价值不在于功能密度,而在于能否被Agent精准调度及将自身能力结构化暴露出来[53]。人的主动性被置于中心,用户从被动浏览者转变为目标明确的任务发起者[53][54]