豆包手机跨应用 Agent：充满惊喜，也有遗憾，满是期待｜锦秋AI实验室

文章核心观点 - 豆包手机助手是一款由豆包与中兴深度合作的系统级AI Agent，它通过视觉识别和理解能力，能跨应用执行复杂任务，代表了AI手机在入口统一、系统协同和意图驱动方面的现实探索[1] - 该产品目前是面向行业和AI爱好者的“技术预览版”，定价3499元，搭载于nubia M153，并非面向普通消费者的最终方案[1][56] - 测评显示，豆包手机在稳定执行异步、流程化任务方面表现出色，但存在操作延迟、部分应用（如微信）不支持等明显短板[4][5][30][34] - 文章认为，豆包手机标志着端侧AI的“GPT-3时刻”，其系统级Agent模式可能重塑应用生态、交互入口和产业合作范式，是AI OS和主动性Agent发展的重要信号[6][41][46] 场景测评总结 - 测评方法与范围：测评通过语音指令启动，豆包手机可自主操作手机，用户无需全程盯守[8][9]。测评场景覆盖小红书、高德地图、携程、贝壳找房、抖音、美团外卖、闲鱼、斗地主等实用与娱乐场景[13] - 场景一：小红书旅行攻略：豆包能连续浏览小红书约10分钟并保持记忆，自主跳转至高德地图收藏地点，并在多轮对话后准确找回原帖继续执行下载任务，对无法下载的应用能明确告知结果[14] - 场景二：贝壳找房买房攻略：豆包能理解具体找房任务并与中介互动，最终成功联系到中介，但在执行“找10套合适房源”等批量任务时，次数识别可能不准确[16][17][18] - 场景三：携程买票及出差路线规划：豆包能排除“时间赶不及”等无效信息干扰，直接锁定购票与规划任务，当发现手机无携程App时，可通过自然语言描述补充任务继续执行[22]。其具备推理能力，能识别“从苏州飞上海”指令不合理（苏州无机场），并自主切换至高铁方案[23] - 场景四：闲鱼买二手电驴：面对结构复杂的闲鱼页面，豆包能清晰导航并准确定位操作入口，完成目标筛选[25] - 场景五：斗地主代打：豆包能根据画面信息决策下一步行动，但其“截屏-分析-决策-点击”的循环工作逻辑导致操作有秒级延迟，在需要快速连续点击（如出“炸弹”）时容易因超时而失败[29] 产品体验评估 - 超预期的稳定性与泛化能力：豆包能连续十分钟无差错执行任务，准确操作大量常规及小众App[30]。遇到界面异常时，会自主尝试滑动、点击其他按钮或换路径继续任务，而非死机[30]。其基于视觉识别屏幕，理论上不依赖App开发者开放权限或担心UI更新，只要人眼能看懂的按钮，它大体都能理解[30] - 卓越的协同性：产品将中兴的硬件、锤子科技改造的系统、端侧模型、输入法、语音和Agent能力链路整合成一个闭环，实现了1+1>2的整机体验[32] - 适用任务类型：目前在异步、无时效性要求、流程化、可清晰描述的任务上，豆包手机的任务成功率和使用体验已经非常高[31] - 明显的体验短板：操作延迟显著，每一步操作都有秒级反应速度，例如出斗地主一张牌要等5秒[34]。目前已暂停操作微信，这直接影响了中国用户40%的高频连接和分享场景[34]。此外，存在次数识别不准确、初期缺乏记忆（如点外卖需重复选择规格）、部分内容生成能力僵硬等问题[34] 行业影响与未来展望 - 主动性Agent走入现实：豆包手机在常用App设置钩子，点击收藏按钮时会自动截图存入全局记忆，未来可能支持用户设置定时任务，挖掘更多主动功能[37][38] - 构建强大的用户上下文：端侧Agent理论上可异步遍历用户所有App内容（聊天、购买、出行等），构建最完整的用户上下文，但目前基于用户操作记录的AI功能尚未显现[39][40] - 端侧AI的“GPT-3时刻”：豆包手机可被称为端侧AI的GPT-3（2020年）时刻，准确率已很高，主要问题是操作速度慢[41]。若视觉语言模型速度提升10到50倍，将达到端侧AI的“ChatGPT时刻”，许多任务可由端侧通用Agent完成，这要求端侧创业公司重新审视现状[41][42] - 操作系统的认知变革：传统操作系统要求用户学习界面和流程，而豆包手机让功能、内容、文件成为可被Agent调用的模块，用户只需提出需求，由Agent解决操作问题[43][44] - 产业合作新范式：合作超越“把模型塞进手机”，走向操作系统级的Agent调用[45]。应用侧广泛接入，但核心能力可能不开放，需通过豆包模型的页面视觉识别来实现操作，而非直接调用API，这呈现出“AI OS系统供应商”意义上的行业重构力量[45][46] - 未来的交互入口之争：入口从分散的应用转向“任务意图”，这牵动10万亿级产业利益[47]。应用巨头不愿沦为“后台API”，应用间会竖起高墙（如微信登录被动下线），AI手机以任务入口统一入口的可能性与原有入口的争夺，将成为2025至2026年的热门话题[47][48][49][50] - 隐私安全挑战：AI权限高、触达深，引发用户对安全的担忧，尤其是在考虑给大龄父母使用时[51]。系统在支付等高敏感操作上采用“最小权限原则”，需交还用户手动确认，未来的竞争关键在于如何在AI能干的同时让用户安心[51]。用户可通过指令覆盖默认安全基线，各方均需在此环节改进优化[52] - 应用价值重构：未来应用的价值不在于功能密度，而在于能否被Agent精准调度及将自身能力结构化暴露出来[53]。人的主动性被置于中心，用户从被动浏览者转变为目标明确的任务发起者[53][54]