语音交互GUI智能体

搜索文档
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
量子位· 2025-06-19 14:25
GUIRoboTron-Speech团队 投稿 量子位 | 公众号 QbitAI 只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的 GUIRoboTron-Speech ——让用户解放双手,直接对计算机"发号施令"。 从文本到语音,智能代理的下一次进化 当前,以大型语言模型(LLMs)为核心的自主GUI智能体,已能通过文本指令自动执行跨应用、多步骤的复杂任务,极大地提升了用户的工 作效率。但这种对文本的依赖,限制了其在更广泛场景下的应用。 试想一个常见的家庭场景:在对家中的公用电脑发出指令"打开我的浏览器"时,一个仅能理解文本的智能体将不知所措——它无法分辨指令发 出者是家庭中的哪一位成员,自然不知道什么是"我的"浏览器。 然而,一个能够直接处理语音的智能体,则可以通过分析独特的声纹特征,准确识别指令发出者的身份,并打开该成员的个性化Google浏览 器界面。 这正是语音模态所蕴含的独特价值——它不仅传递了指令内容,更包含了身份、情绪等丰富的非言语线索,而这些对于实现真正个性化和智能 化的交互至关重要。 传统的解决方案,如采用"语音识别(ASR)模型转录+文本GUI代理"的级联方式,不仅会增加系 ...