Workflow
语音交互GUI智能体
icon
搜索文档
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
量子位· 2025-06-19 14:25
核心观点 - GUIRoboTron-Speech是首个能够直接利用语音指令和设备屏幕截图进行端到端决策的自主GUI智能体,旨在提供更直接、高效且无障碍的交互体验[1] - 语音模态蕴含独特价值,不仅传递指令内容,还包含身份、情绪等非言语线索,对实现真正个性化和智能化交互至关重要[2] - 传统"语音识别转录+文本GUI代理"方案存在计算负担、延迟和声学信息丢失等问题,而GUIRoboTron-Speech通过端到端语音GUI代理直接处理语音指令和屏幕截图[4][5] 技术方案 数据生成 - 利用随机音色TTS模型将大规模文本指令数据集转换为包含多种说话人风格和音色的高质量语音指令数据集,解决数据稀缺难题[8] 训练框架 - 基础Grounding阶段:模型学习建立语音指令与GUI界面视觉元素之间的精确对应关系[10] - 规划Planning阶段:模型掌握多步骤复杂任务的理解与执行能力,展现逻辑推理与任务规划能力[10] - 启发式混合指令训练策略:混合使用语音和文本指令,强制模型同等关注两种模态,缓解模态偏见[11] 性能表现 模态对比 - 纯语音指令相比纯文本指令平均定位精度低1.6%,但混合指令训练策略使语音指令性能超越纯文本指令(81.0% vs 80.7%)[12] - 在planning能力训练中,基于混合指令训练的语音指令表现优于纯文本指令[13] 基准对比 - 在AndroidControl-Low上实现最高平均成功率(+1.3%),在AndroidControl-High上领先7.8%[14][15] - 在GUI-Odyssey上仅次于使用内部数据的UI-TARS模型[14][15] - 与同参数量级基线对比,GUIRoboTron-Speech在多项指标上保持领先地位[14] 应用场景 - 在指令长度较短(用户意图清晰)场景下,语音指令表现优于文本指令,但文本指令在承载复杂用户意图时更具优势[15] - 未来需重点解决复杂用户指令的稳定承载问题[16] 研发方向 - 美团招聘实习生岗位涉及GUI自动化操作、端到端强化学习、2D/3D世界模型探索、多智能体交互等前沿技术方向[17][18] - 另一岗位聚焦图表数据多模态理解,重点开发chartQA和chart2Coder技术,提升推理性能和评测多样性[18]