AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA
机器之心·2026-01-05 14:09

文章核心观点 - 浙江大学、香港理工大学及 InfiX.ai 的研究团队提出了一种全新的自适应探索策略优化框架,并推出了 InfiGUI-G1 系列模型,旨在解决 GUI Grounding 任务中语义对齐的探索瓶颈问题 [2] - 该模型通过多答案生成与自适应奖励机制,打破了传统基于验证奖励的强化学习方法在复杂语义场景下的探索瓶颈,使模型能够更有效地找到正确的功能图标 [2] - 仅凭 3B 和 7B 的参数量,InfiGUI-G1 便在多个高难度 GUI 基准测试中刷新了 SOTA,部分指标甚至大幅超越了参数量大得多的闭源模型 [2] 技术背景与问题定义 - GUI Grounding 任务的核心是将自然语言指令映射到屏幕上的特定元素坐标,可解构为空间对齐和语义对齐两个正交维度 [6][7] - 现有方法,特别是基于验证奖励的强化学习,在提升空间对齐方面表现出色,但在语义对齐上遭遇瓶颈,模型容易陷入“自信陷阱”,无法通过有效探索找到正确的功能图标 [2][8] - 例如,当指令是“使用相机搜索物体”时,屏幕上可能同时存在普通的“相机应用”和具有视觉搜索功能的“Google Lens”,缺乏深度语义理解的模型会自信地死磕错误选项,无法获得修正语义误解所需的学习信号 [10] 解决方案:自适应探索策略优化框架 - InfiGUI-G1 引入了 AEPO 框架,旨在通过更广泛且高效的探索来捕捉低概率但正确的选项 [14] - 多答案生成机制:强制模型在一次前向传递中生成 N 个候选坐标点,迫使模型跳出单一的高置信度预测,大幅增加了发现正确答案的概率 [15] - 自适应探索奖励:基于效率第一性原理设计奖励函数,动态激励模型在失败时“广撒网”,在成功时追求“快准狠”,实现探索与利用的动态平衡 [15][16] - 共线惩罚:防止模型通过生成近似直线的点来“作弊”,强制模型在语义空间中进行多样化探索 [16] 实验结果与性能表现 - 在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五个极具挑战性的基准上对 InfiGUI-G1 进行了全面评估 [19] - 综合性能全面领先:InfiGUI-G1-7B 在 Windows、iOS、Android 等多个平台上的表现均刷新了开源模型的最佳成绩,部分指标上甚至优于参数量大得多的 Qwen2.5-VL-72B 和闭源模型 GPT-4o [19] - 攻克高难度语义理解任务:在 ScreenSpot-Pro 基准中,InfiGUI-G1 在更依赖语义理解的“图标”任务上提升尤为明显,证明了 AEPO 策略有效解决了语义对齐的瓶颈 [19] - 让“不可学习”变得“可学习”:在“困难”样本上的提升最为巨大,相对 Naive RLVR 基线提升了超过 60%,成功挖掘出了以往因缺乏探索而被模型“放弃”的长尾知识 [20] - 具体数据:在 ScreenSpot-Pro 基准测试中,InfiGUI-G1-7B 在多个类别上表现优异,例如在“CAD”的“Icon”任务上达到 23.4%,在“Dev.”的“Text”任务上达到 74.7% [21] 总结与影响 - InfiGUI-G1 的成功表明,GUI 智能体的性能瓶颈不仅在于视觉识别能力,更在于如何通过有效的强化学习策略来解决语义对齐问题 [23] - 通过引入自适应探索机制,InfiGUI-G1 以极高的数据效率和较小的模型规模,实现了超越大模型的 GUI Grounding 能力,为未来开发更通用、更智能的 GUI 交互助手提供了坚实的技术基础 [23] - 目前,InfiGUI-G1 的代码、模型权重及相关资源已在 GitHub 开源 [24]