图形用户界面(GUI)
搜索文档
拜拜了GUI,中科院团队“LLM友好”计算机使用接口来了
36氪· 2025-10-27 15:31
大模型Agent帮你自动操作电脑,理想很丰满,现实却骨感。 现有的LLM智能体,几乎都绕不开两大核心"痛点": 成功率低:稍微复杂一点的任务,Agent就"翻车",常常卡在某个步骤不知所措。 效率差:完成一个简单任务,Agent需要和系统进行几十轮"极限拉扯",耗时漫长,看得人着急。 问题到底出在哪?难道是现在的大模型还不够聪明吗? 来自中国科学院软件研究所团队的最新研究给出了一个出乎意料的答案:真正的瓶颈,在于那个我们用了40多年、无比熟悉的图形用户界面(GUI) 。 例如,GUI功能控件藏在层层菜单、选项卡和对话框后面,控件的访问需要点击菜单、下拉框等进行导航,以使控件出现在屏幕上。其次,许多控件的使 用(如滚动条、文本选取)需要反复调整并观察反馈,形成高频"观察-操作"循环。 研究团队一针见血地指出,GUI的这种命令式(Imperative)设计背后,隐藏着对人类用户的四个"关键假设" : 将"命令式"GUI转换为"声明式" 没错,就是那个从上世纪80年代开始流行,彻底改变了人机交互方式的GUI。它一直以来都是为人类量身定制的,其设计哲学与LLM的能力模型,简直是 背道而驰。 研究团队指出了GUI的核心 ...
卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟Windows,预测下一帧屏幕图像
量子位· 2025-07-15 14:28
核心观点 - 由神经网络驱动的操作系统NeuralOS实现实时预测和渲染图形界面,模拟Windows操作系统的行为 [1][2][6] - 该系统基于RNN和渲染器两大模块,能够跟踪计算机状态变化并生成对应的屏幕画面 [7][8] - 未来GUI可能演变为个性化、动态生成的2D交互画布,颠覆传统固定界面模式 [4][37] 技术实现 - **核心架构**:RNN负责状态跟踪,渲染器根据状态和操作生成画面,形成闭环系统 [7][8] - **训练数据**:使用Ubuntu XFCE系统的操作录像,包括随机交互和AI Agent模拟的真实操作 [10][11] - **训练流程**:分阶段进行RNN预训练、联合训练、计划采样和上下文序列扩展,最终实现帧预测能力 [11] 性能表现 - **优势**:画面逼真度接近真实系统,鼠标响应精准,状态转换稳定(如应用启动、窗口切换) [15] - **局限**:键盘输入处理不足,快速打字时可能出现延迟或字母顺序错乱 [14] - **测试结果**:模型预测准确性较高(主对角线高亮),但存在少量状态混淆 [14] 团队与背景 - **主要成员**:5人团队中4位为华人学者,包括滑铁卢大学和加拿大国家研究委员会的研究人员 [17][19][21][23][27][29] - **学术背景**:成员研究方向覆盖NLP、机器学习、深度学习应用,部分成员在顶会发表论文且引用量达5000+ [22][25][27][30] - **行业合作**:团队成员与英伟达、Google Deepmind等企业有合作或兼职关系 [28][29] 应用与展望 - **当前形态**:提供在线演示版本,需H100显卡支持运行,用户操作过多导致系统负载较高 [32][35] - **开源优化**:代码开源后有望提升性能,未来或实现更高效的动态界面生成 [36] - **潜在方向**:探索生成式神经接口在下一代人机交互系统中的落地场景 [6][37]