智能体框架 - 财报，业绩电话会，研报，新闻 - Reportify

智能体框架

搜索文档

赛道Hyper | 巨头竞速：智能体框架的新入口之争

华尔街见闻· 2025-09-04 14:36

腾讯Youtu-Agent开源事件 - 腾讯于9月2日正式开源智能体框架Youtu-Agent 该框架在WebWalkerQA基准测试中基于DeepSeek-V3.1实现71.47%的准确率刷新开源模型纪录 [1] - 腾讯强调"应用落地"定位框架功能聚焦本地文件管理、数据分析和论文研究等具体场景避免过度承诺注重真实需求验证 [8][9] - 腾讯采取谨慎试探策略在已有生态内深耕通过开源实现风险对冲等待场景自然孵化 [8][9][23] 巨头智能体框架战略差异 - 阿里AgentScope 1.0强调"开发者友好"和全生命周期管理试图构建一站式多智能体开发平台策略更激进且平台化 [10][12] - 微软选择将智能体能力直接嵌入Office套件和Copilot生态凭借现有用户基数实现"以应用带生态" 跳过开发者圈定阶段 [13][14][24] - 三家公司均通过开源框架进行战略卡位争夺未来潜在的数字入口定义权但路径存在显著差异：腾讯重具体场景、阿里重平台建设、微软重生态绑定 [17][18][24] 行业竞争本质与现状 - 智能体框架价值尚未在企业级市场得到规模化验证缺乏显著降本增效案例当前竞争属于话语权博弈而非商业兑现 [5][6][21] - 开源本质是低成本市场进入策略通过开发者试错转移风险同时为未来标准争夺积累主动权 [7][18][26] - 巨头战略逻辑趋同：既要在框架层抢占潜在标准又要在应用层培育真实需求微软依托Office全球用户阿里依托钉钉国内渗透率 [24][25][26] 技术发展方向 - 微软AutoGen框架专注于多智能体系统构建通过不同角色智能体（大语言模型、工具调用模块等）协同完成复杂任务 [15][16] - 智能体框架竞争类比操作系统、浏览器历史竞争逻辑核心在于未来交互规则定义和流量入口分配权 [17][18] - 框架持续演化依赖长期社区投入及云计算、安全、合规等产业能力补充否则可能沦为短期热度项目 [23]

AI时代新数字入口

智能体框架

AI时代新数字入口

智能体框架

大厂角力智能体框架：腾讯宣布开源，阿里同日“上新”

观察者网· 2025-09-02 21:57

产品发布与定位 - 腾讯优图实验室于9月2日正式开源智能体框架Youtu-Agent 该框架面向实际应用覆盖文件管理数据分析学术研究和信息综述等多个场景 [1] - 阿里通义实验室同日推出新一代智能体开发框架AgentScope 1.0 该框架以开发者为核心专注于多智能体开发提供覆盖开发部署监控全生命周期的生产级解决方案 [7] 技术性能表现 - Youtu-Agent在WebWalkerQA基准上基于DeepSeek-V3.1达到71.47%准确率刷新开源效果SOTA记录 [3] - 在GAIA文本子集上基于DeepSeek-V3 Pass@1达到72.8% 接近甚至超越部分依赖训练或付费闭源模型的框架 [3] 架构设计与兼容性 - 框架基于openai-agents-python架构兼容DeepSeek和gpt-oss等多类模型API与工具 [6] - 采用YAML配置结合元智能体机制用户通过需求描述可一键自动生成并运行智能体 [6] - 通过模块化与异步化设计支持streaming tracing及agent-loop等功能 [6] 开源生态与部署优势 - 完全基于开源生态构建不依赖封闭模型适配可访问低成本的部署环境 [6] - 支持二次开发与定制化应用为开发者和企业提供灵活的技术拓展空间 [6] 实际应用功能 - 本地文件管理场景可实现自动批量文件识别重命名与归档 [6] - 数据分析场景可读取Kaggle等表格数据自动清洗统计并输出可视化HTML报告 [6] - 学术研究场景可自动总结论文要点检索相关研究并生成Markdown笔记 [6] - 通过Wide Research功能依据主题自动搜索整理资料生成结构化综述实现调研自动化 [6]

智能体框架

智能体框架

腾讯开源智能体框架Youtu-Agent

第一财经· 2025-09-02 14:52

公司动态 - 腾讯优图实验室宣布智能体框架Youtu-Agent正式开源 [2]

腾讯控股(HK:00700)

智能体框架

智能体框架

腾讯开源智能体新框架：不用训练无需充值，用开源模型实现SOTA Agent

量子位· 2025-09-02 12:17

文章核心观点 - 腾讯优图实验室开源Youtu-agent智能体框架解决研究者和开发者面临的上手门槛高、环境复杂、实验难以复现等问题[1] - 该框架基于开源生态不依赖闭源API或模型训练在多个基准测试中展现领先性能[1][4] - 通过自动化智能体生成和DITA设计原则显著降低定制难度支持科研、开发及爱好者快速构建实际应用[24][29][30] 技术性能表现 - WebWalkerQA基准测试准确率达71.47% 基于DeepSeek-V3.1刷新开源效果SOTA[4] - GAIA文本子集测试Pass@1达72.8% 超越部分依赖付费工具的智能体框架[4] 框架核心优势 - 开源友好且成本敏感完全基于开源生态适配低成本部署环境[5] - 灵活架构兼容DeepSeek、gpt-oss等多类模型API与工具集[6] - 模块化异步化设计支持streaming、tracing与agent-loop高效调试[9] - 通过YAML配置和元智能体对话实现一键生成智能体配置[8][24] 实际应用案例 - 本地文件管理：自动识别PDF文件并重命名为"学号-姓名"格式非PDF文件自动归档[13] - 数据分析：读取CSV文件后自动清洗分析生成结构化HTML报告[15][16] - 论文分析：解析PDF论文内容检索相关研究并生成Markdown格式研究报告[18][19] - 广域研究：通过搜索工具收集信息经文档处理和分析后生成结构化综述报告[21][22] 自动化生成机制 - 通过meta-agent交互澄清用户意图自动生成完整配置文件[24] - 运行python scripts/gen_simple_agent.py生成配置 python scripts/cli_chat.py启动测试[25][26] - 基于DITA原则定义需求、输入输出、工具和交互范式四维度[23] 适用群体与部署 - 研究人员可作比ReAct更强的开源基线支持一键评估脚本[28] - 开发者可作为经过验证的脚手架快速构建真实应用[29] - 爱好者可通过丰富示例直观探索支持web-ui可视化运行[30][35] - 部署需git克隆代码 uv同步依赖配置.env工具API密钥[32][35]

腾讯控股(HK:00700)

智能体框架

智能体框架

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

机器之心· 2025-08-17 12:28

核心观点 - 上海交通大学和香港中文大学学者提出SEAgent框架该框架无需人类干预即可通过环境交互实现自主学习和进化突破当前计算机使用智能体依赖昂贵人工标注数据的瓶颈[2] 自主进化框架 - 采用三位一体闭环设计包含课程生成器、执行者-智能体和评判者-世界状态模型三大核心组件[4][5] - 课程生成器担任导师角色根据智能体能力生成渐进式任务并维护记录新功能的软件指南[9] - 执行者-智能体在软件环境中执行实际操作探索[9] - 评判者-世界状态模型提供精准步骤级反馈形成完整进化闭环[9] 世界状态模型优化 - 针对开源大视觉语言模型在长序列操作评判中的不足进行深度优化当输入过多历史截图时现有模型判断准确率会下降[10] - 通过革新评判范式和高质量数据蒸馏两阶段优化使用GPT-4o生成860条高质量评判轨迹数据对Qwen2.5-VL-7B模型微调[14] - 引入截图变化描述协同训练任务显著增强对GUI微小变化的感知能力[14] - 优化后模型性能大幅接近GPT-4o等商业模型水平[10] 专才-通才融合策略 - 发现直接训练多软件通才模型效果不佳性能低于单一软件专才模型[13] - 采用三阶段策略：先培养五个不同软件专才智能体再蒸馏3500条成功轨迹数据到通用模型最后进行多软件强化学习进化[15] - 最终通才智能体综合成功率达34.5% 超越直接训练通才模型(30.6%)和专才模型总和(32.2%)[18] 系统性能表现 - 在OSWorld基准测试中取得显著性能飞跃 SEAgent专才强化学习模型整体成功率达32.2%[16] - 专才模型在VScode(37.7%)、GIMP(38.5%)、Impress(22.0%)、VLC(33.3%)和Writer(29.0%)均表现优异[16] - 通才融合模型进一步将整体成功率提升至34.5% 在VScode(40.5%)和GIMP(42.3%)实现最高性能[16][18] 算法验证 - 消融实验证实世界状态模型是有效学习前提基于探索的GRPO强化学习显著优于单纯模仿[20] - 对抗性模仿机制带来关键性能提升能从错误中学习[20] - 课程生成器提供渐进式任务设计支撑整个进化框架运行[20]

智能体框架

从专家到通才策略

智能体框架

从专家到通才策略

腾讯AI Lab开源可复现的深度研究智能体，最大限度降低外部依赖

量子位· 2025-08-06 13:56

行业技术发展 - 深度研究智能体（Deep Research Agents）凭借大语言模型（LLM）和视觉-语言模型（VLM）的强大能力，正在重塑知识发现与问题解决的范式 [1] - 现有开源智能体框架多依赖付费工具，限制了可复现性和普适性 [2] 公司产品创新 - 腾讯AI Lab推出全开源、多模块、层次化的智能体框架Cognitive Kernel-Pro，为深度研究智能体的开发与训练提供突破性解决方案 [4] - Cognitive Kernel-Pro在GAIA基准全集上超越开源免费框架SmolAgents，性能逼近依赖付费工具的智能体，在GAIA-text上训练的8B模型超越WebDancer和WebSailor-7B [5] - 公司公开Agent Foundation Model的训练配方，提供可复现的训练路径 [7] - 相关技术报告及代码已开源，框架以Python代码为动作空间，充分发挥现代LLM的推理和代码生成能力 [8][10] 技术架构设计 - 模块化架构：采用两层多模块设计，包含主智能体和多个子智能体，确保模块独立性和扩展性 [11] - 状态管理与规划：通过"进度状态"机制记录已完成步骤、待办任务等，提升复杂任务处理效率 [11] - 标准化任务接口：主智能体与子智能体通过简洁文本接口通信，子智能体以Python函数形式定义 [11] - 测试时优化：引入反思机制和投票机制，通过评估和优化动作轨迹提升任务完成质量 [11] 数据训练方法 - 训练流程覆盖网页导航、文件处理、代码生成和推理等多个领域，包含高质量Web Agent数据构建、Persona Hub数据增强、推理数据优化和轨迹采样等创新方法 [15][16][17] - 使用OpenWebVoyager、Multihop URLQA、AgentWebQA等数据集，涉及1,259至32,231不等的查询和步骤数量 [16] 性能对比优势 - 在GAIA基准测试中，Cognitive Kernel-Pro（使用Claude-3-7模型）平均得分70.91，超越多数开源框架 [19] - 8B模型CK-Pro-8B在GAIA-text基准测试中超越WebDancer和WebSailor类似大小模型，体现框架和训练方法优越性 [22][23] - 反思功能消融实验显示，开源模型Qwen-3-32B能提供接近GPT-4.1的反思效果 [24][25] 开源与工具策略 - 框架强调LLM和VLM的内在能力，最大限度降低外部依赖，实现真正的全开源 [20] - 支持灵活切换免费API（如DuckDuckGo），提升可访问性 [20] - 相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架，Cognitive Kernel-Pro更具功能全面性和开源优势 [14][20]

腾讯控股(HK:00700)

智能体框架

Cognitive Kernel-Pro

Agent Foundation Model

智能体框架

Cognitive Kernel-Pro

Agent Foundation Model

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

量子位· 2025-06-16 12:50

经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏：推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化：推箱子计算通关关卡数俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名：o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名：o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可网友认为比大模型竞技场更适合评估模型能力[5]

大模型benchmark

迭代交互循环模式

智能体框架

大模型benchmark

迭代交互循环模式

智能体框架

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

量子位· 2025-06-16 12:49

经典小游戏成为大模型Benchmark - 核心观点：经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准，o3-pro模型在该基准上表现优异，突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡，远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲，游戏需强行终止，其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比，o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏：推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式：游戏状态持续反馈给模型，模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助，包含感知、记忆、推理模块，并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化：马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名：o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名：o3-pro > o3 > R1 > o4-mini（与推箱子排名部分倒置） [14] - 测试基准动态更新，GitHub仓库半月前仅四关，原版推箱子含50+关卡 [9] - 项目完全开源，可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发，负责人张昊为卡内基梅隆博士、伯克利博士后，曾参与创立LMSYS（大模型竞技场开发方） [28][29][30] - 实验室获谷歌/英伟达资助，2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo（视频生成加速框架）获GitHub 1.5k星 [32]

大模型benchmark

迭代交互循环模式

智能体框架

俄罗斯方块

大模型benchmark

迭代交互循环模式

智能体框架

俄罗斯方块