Workflow
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖

行业技术发展 - 深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式 [1] - 现有开源智能体框架多依赖付费工具,限制了可复现性和普适性 [2] 公司产品创新 - 腾讯AI Lab推出全开源、多模块、层次化的智能体框架Cognitive Kernel-Pro,为深度研究智能体的开发与训练提供突破性解决方案 [4] - Cognitive Kernel-Pro在GAIA基准全集上超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,在GAIA-text上训练的8B模型超越WebDancer和WebSailor-7B [5] - 公司公开Agent Foundation Model的训练配方,提供可复现的训练路径 [7] - 相关技术报告及代码已开源,框架以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力 [8][10] 技术架构设计 - 模块化架构:采用两层多模块设计,包含主智能体和多个子智能体,确保模块独立性和扩展性 [11] - 状态管理与规划:通过"进度状态"机制记录已完成步骤、待办任务等,提升复杂任务处理效率 [11] - 标准化任务接口:主智能体与子智能体通过简洁文本接口通信,子智能体以Python函数形式定义 [11] - 测试时优化:引入反思机制和投票机制,通过评估和优化动作轨迹提升任务完成质量 [11] 数据训练方法 - 训练流程覆盖网页导航、文件处理、代码生成和推理等多个领域,包含高质量Web Agent数据构建、Persona Hub数据增强、推理数据优化和轨迹采样等创新方法 [15][16][17] - 使用OpenWebVoyager、Multihop URLQA、AgentWebQA等数据集,涉及1,259至32,231不等的查询和步骤数量 [16] 性能对比优势 - 在GAIA基准测试中,Cognitive Kernel-Pro(使用Claude-3-7模型)平均得分70.91,超越多数开源框架 [19] - 8B模型CK-Pro-8B在GAIA-text基准测试中超越WebDancer和WebSailor类似大小模型,体现框架和训练方法优越性 [22][23] - 反思功能消融实验显示,开源模型Qwen-3-32B能提供接近GPT-4.1的反思效果 [24][25] 开源与工具策略 - 框架强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源 [20] - 支持灵活切换免费API(如DuckDuckGo),提升可访问性 [20] - 相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro更具功能全面性和开源优势 [14][20]