字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star
量子位·2026-02-08 15:11

文章核心观点 - 字节跳动开源的纯视觉GUI Agent模型UI-TARS登顶GitHub热榜,其作为豆包手机的核心技术,通过让AI像人类一样观察屏幕并模拟点击、输入等操作,实现了对各类软件和浏览器的自动化控制,代表了AI“动手”能力的重要突破 [1][2][3][5] UI-TARS项目概述与技术特点 - 项目构成与功能:UI-TARS主要包含两个项目:支持CLI命令行、可在有/无界面环境运行的Agent TARS,以及用于操作本地电脑和浏览器的桌面应用程序UI-TARS-desktop [6][7][8] - 核心技术逻辑:采用“纯视觉驱动”逻辑,依靠内置视觉大模型像人眼一样直接观察屏幕像素图像来识别界面元素,无需依赖软件API或源码,从而克服了传统RPA工具因界面改动而失效的痛点 [9][10][11][12] - 部署与使用:部署过程简单,仅需三步:检查/安装Node.js (>=22版本)和Chrome、安装Agent TARS CLI、选择并配置兼容的AI模型(如豆包、Claude 3.7 Sonnet、GPT-4o)的API密钥 [13][14][15][16][18][20] UI-TARS的发展历程与性能突破 - 发展里程碑:技术布局始于一年前,2025年1月与清华大学合作开源,成为国产纯视觉GUI Agent中首个在权威基准测试中超越GPT-4o的项目 [20][21][22] - 快速迭代进化: - 初代模型通过注入600万高质量教程数据,使AI具备深度思考能力和精准的统一动作空间,在多项SOTA榜单上取得领先 [23][24] - 3个月后发布的UI-TARS-1.5,通过Inference-time Scaling让AI在操作前进行多步预判,刷新了GUI定位任务的行业纪录 [25][26] - 2025年9月推出的UI-TARS-2成为豆包手机的底层技术,通过“数据飞轮”机制解决数据瓶颈等问题,并整合了文件系统、命令行和工具调用,能力全面增强 [27][28][29] - 行业地位:经过几轮迭代,UI-TARS已成为最火的开源多模态AI智能体之一 [30] GUI Agent行业趋势与产品分类 - 行业关注度:理想汽车CEO李想指出,2025-2026年出现的多个现象级产品(如豆包手机、OpenClaw、Chrome Gemini、Claude Code、Manus、MoltBook)中,大部分与Agent直接相关,其中多个属于GUI Agent [31][32][33] - 技术路线分类: - “走前门”的纯视觉GUI Agent:以豆包手机(移动端)、OpenClaw(电脑端)、Chrome Gemini(浏览器端)为代表,统一通过截取屏幕像素作为输入,并模拟人类点击、滑动等交互行为执行任务,不依赖软件内部API,兼容性极强 [34][35] - 其他Agent形态:如Manus是优先调用API与工具链在云端完成复杂任务闭环的通用Agent;MoltBook则是让Agent自主产生内容、进行互动的非执行类决策层Agent [36] - 核心议题:这些产品共同探索如何让AI真正“动手”帮人类干活,不同路径分别通过模拟操作、规划工具链或放大AI间连接来解决问题 [37] - 行业影响观察:有观点认为,AI Agent类工具非但没有缩小,反而可能十倍、百倍地放大人与人之间的能力差距 [38]

字节开源GUI Agent登顶GitHub热榜,豆包手机核心技术突破26k Star - Reportify