实测豆包手机助手:比价点外卖、自动回微信,AI 操作手机的时代来了?
晚点LatePost·2025-12-01 11:01

豆包手机助手核心能力 - 字节发布豆包手机助手预览版,这是一个面向手机厂商的系统级服务,将豆包大模型深度融入操作系统,用户可通过语音或简单手势指挥手机执行复杂操作[3] - 豆包手机助手是一个Agent智能体,具备系统级操作权限,能识别屏幕UI元素,通过模拟点击、滑动和输入等动作跨应用执行复杂操作[5] - 助手能实现跨平台比价点外卖、搜索小红书整理旅游攻略、定时执行查看微博热搜并截图存档等任务,在执行过程中用户可进行其他操作不被打断[5][13][18] 交互与功能特性 - 合作手机在机身左侧配备独立专属物理按键,不论手机处于何种状态,按下按钮即可唤出豆包手机助手,以叠加层形式出现不打断当前应用进程[23] - 助手具备屏幕感知能力,可自动读取当前聊天记录上下文并生成回复内容,例如安慰朋友或帮助处理工作需求如修改图片颜色[23][25][26] - 支持语音交互,在特定场景如开车时可通过语音指令让助手回复消息,同时具备全局记忆功能,可手动存储信息或授权获取特定应用收藏内容以提供个性化服务[33][32] 行业合作与发展模式 - 豆包手机助手是字节与中兴合作开发的打样产品,售价3499元,公司正与多家手机厂商洽谈合作[1][4] - 行业出现新模式,手机厂商与外部模型供应商合作,例如苹果拟每年花10亿美元购买Google的Gemini服务,豆包与中兴的合作也体现此模式[36] - 豆包手机助手实现了各大手机厂商发布会曾描绘但难以落地的跨应用操作能力,在当前量产手机中较为罕见[36] 当前表现与未来潜力 - 作为预览版,助手执行任务时并非每次都能完美完成,但具备较强纠错机制,例如在点外卖任务中遇到弹窗会反复尝试50秒最终找到解决方案[20] - 执行效率有待提升,例如对比三家外卖平台肯德基价格耗时1分56秒,比手动操作慢近一分钟,且目前无法合理解决如识别视频播放完毕等长尾需求[36][37] - 字节计划吸引第三方开发者将服务和应用集成到豆包手机助手,以获得应用级别底层权限,从而解决更多问题,尽管说服大型互联网公司开放权限存在挑战[37]