Workflow
声明式接口(GOI)
icon
搜索文档
拜拜了GUI,中科院团队“LLM友好”计算机使用接口来了
36氪· 2025-10-27 15:31
当前LLM智能体的核心痛点 - 任务成功率低,复杂任务时Agent容易卡在某个步骤不知所措 [1] - 任务执行效率差,完成简单任务需进行几十轮交互,耗时漫长 [1] 图形用户界面(GUI)的设计缺陷 - GUI为人类设计,其命令式交互模式与LLM能力模型背道而驰 [3] - GUI功能访问依赖导航和交互,控件隐藏在层层菜单后,需高频"观察-操作"循环 [3] - GUI基于人类四大关键假设:精于视觉识别、操作循环快、记忆容量小、擅长做选择题,这些与LLM能力完全错配 [3][5] 声明式接口(GOI)的解决方案 - 核心思路是将接口从"命令式"转换为"声明式",实现策略与机制分离 [4][7] - GOI接管繁琐的底层机制操作,为LLM提供三个声明式原语:访问、状态和观察 [9] - LLM只需下达高层指令,GOI自动完成所有中间GUI导航和交互,无需修改应用程序源代码 [9][14] GOI的技术实现路径 - 实现分为离线建模和在线执行两个阶段 [10] - 离线阶段自动探索应用控件,构建UI导航图,并通过算法转换为路径清晰的森林结构 [12] - 在线阶段LLM调用声明式接口,直接访问目标功能、设置控件状态或获取结构化信息 [12][13] GOI的性能提升效果 - 在OSWorld-W基准测试中,使用GPT-5模型时成功率从44%提升至74% [15] - 超过61%的成功任务仅用一次LLM调用即完成 [16] - 失败原因从53.3%的机制性错误转变为81%的策略性错误,GOI有效降低了机制层面的失败可能 [18]