Workflow
深度研究系统
icon
搜索文档
全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署
机器之心· 2025-11-12 11:17
文章核心观点 - 阿里巴巴钉钉团队提出Dingtalk-DeepResearch,这是一个为复杂、演进的企业任务设计的统一多智能体智能框架,旨在整合深度研究生成、异构表格推理和多模态报告合成,提供一个适应性强、可部署、企业级的解决方案[3] - 该框架在国际权威深度研究评测DeepResearch Bench中取得48.49高分(全球第二、国内第一),显著超越包括OpenAI、Claude在内的主流系统;并在ResearcherBench达到0.7032平均覆盖率(全球第三、国内第一)[7] - 该框架已稳定部署于制造业、供应链等真实企业场景,能够在复杂异构表格、多阶段推理与多模态生成任务中保持行业领先的准确性和稳健性,实现了国际顶级基准与实际生产落地的双重突破[10] 现有研究系统的挑战 - 静态架构与缺乏适应性:多数系统依赖静态提示或固定脚本,缺乏从真实世界反馈中学习和优化的机制,难以适应不断变化的业务需求和数据分布[5] - 私有数据集成与动态优化不足:现有研究型智能体在集成公共信息源方面表现出色,但往往难以安全、高效地整合企业私有数据,也缺乏动态优化能力[5] - 缺乏自动化评估与持续优化:部分系统强调安全性与人机协作,但缺少自动评估和连续优化机制,难以在部署环境中实现持续改进[5] - 长短期记忆与动态演进机制缺失:多数系统缺乏有效的长短期记忆能力,无法积累和重用历史经验,导致智能体在处理复杂、长期任务时效率低下且无法持续进步[5] - 表格结构化推理与文本合成的脱节:企业数据中包含大量半结构化或复杂表格,但现有系统往往难以将表格的精确符号推理与非结构化文本的生成合成有效结合[5] - 缺乏评估驱动的闭环迭代:许多系统缺少一个评估驱动的闭环优化流程,无法系统性地识别低性能案例、进行有针对性的改进并防止性能退化[5] 总体架构 - Dingtalk-DeepResearch Agent Studio:提供专业的智能体,专门用于深度研究、表格数据处理和数据分析,同时支持可定制的个人智能体,以满足不同用户的特定需求[14] - Dingtalk-DeepResearch Core:作为框架的「大脑」,集成了上下文压缩、推理与规划、长短期记忆和人机协作控制等关键功能,还包括一个自演进引擎和一套丰富的集成工具,支持代码执行、网络搜索、文件与表格检索及多模态处理[14] - Dingtalk-DeepResearch Data Layer:作为一个统一的数据骨干,整合了知识图谱、数据库、缓存以及包括对话、音视频、图、文本和表格在内的多模态数据集,汇集了业务、行业、个人及合成数据,为智能体检索和关联多样化的企业及行业数据提供了基础[14] 大规模多阶段文档强化学习 - 阶段1:训练文档专属的奖励模型,使用了约80万个人工标注的正负样本对,这些样本根据事实准确性、语义覆盖、逻辑结构和呈现清晰度进行评估[18] - 阶段2:使用3,200个精选样本进行监督微调,涵盖四大类格式:视觉呈现生成、结构化数据解释、综合多章节叙述和领域特定模板[19] - 阶段3:利用训练好的奖励模型作为奖励函数,智能体在大型离线文档库上进行强化学习,通过检索静态文档、合成答案,并根据覆盖范围、事实正确性和连贯性获得奖励[19] - 阶段4:为处理时效性信息,强化学习被扩展到实时内容检索,团队设计了10,000个时间敏感查询,覆盖了需要避免「事后偏见」的场景和需要最新信息的「过时信息」场景[19] - 阶段5:在实际部署中,系统作为用户Copilot运行,通过收集模型的原始输出和用户的编辑版本,提取高影响力的差异,并将其构造成在线直接偏好优化数据集,从而持续向用户的特定偏好进行微调[19] 熵引导记忆检索自适应在线学习 - 该机制允许智能体在不微调底层大语言模型参数的情况下,持续适应不断演变的任务,系统从一个外部的情景记忆库中动态选择和重用先前的案例[21] - 智能体会根据当前任务状态计算存储案例的概率分布,该分布受其估计的Q值和温度参数的调节,鼓励了对替代案例的探索,减轻了对早期经验的过拟合[21] - 记忆感知组件通过学习到的语义相似性来确保上下文相关性,从而准确地重新应用多步骤推理模式和工具调用序列,该机制被集成到规划器-执行器循环中[21] - 该系统将记忆驱动的范式扩展到个性化层面,通过构建用户画像、文档交互历史和先前工作流的长期结构化记忆,智能体能够更深入地理解用户的工作风格和需求[21] 结构感知异构表格解析、检索与推理 - 数据摄入:系统在摄入半结构化表格时会保留其原始布局,表格被解析为捕获了标题、合并单元格和嵌套关系的层次化表示,同时以标准化模式存储在关系数据库中[22] - 结构化解析:系统应用多模态检测器来区分标题和内容单元格,推断列类型,并分析布局以识别嵌入的子表,这些丰富的模式注解为精确推理奠定了基础[22] - 语义理解:系统会将用户问题分解为感知文本和表格上下文的特定模态子查询,查询词汇通过嵌入相似性和类型感知标记与数据库模式及文本实体对齐[22] - 表格推理:对于表格子查询,系统会调用自然语言到SQL生成器,在关系数据库上生成可执行的SQL语句,以执行聚合、过滤或多跳连接[22] - 表格检索:系统采用混合的自顶向下和自底向上检索策略,检索过程分两阶段:首先从文本知识库和Markdown渲染的表格中进行密集向量召回,然后使用模式感知的相关性模型进行语义重排序[22] DingAutoEvaluator自动化评估平台 - DingAutoEvaluator是一个自动化评估平台,作为数据飞轮和性能演进的核心驱动力,将开发范式从启发式迭代和零星手动检查转变为完全评估驱动的方法[25] - 该过程始于不确定性感知案例挖掘,系统会持续监控模型在检索和生成层面的认知不确定性峰值,这些「灰色地带」的输出会被自动识别并优先提交给专家标注者[25] - 平台中精心策划的多个「教师模型」会根据一系列多维度评估指标全面检查框架的输出,这个统一的测量框架涵盖了RAG、大语言模型、推理、智能体框架和知识库健康度等多个方面[25] - 关键指标类别包括RAG评估、大语言模型评估、推理评估、智能体框架评估和知识库评估,这些指标不仅用于离线基准测试,还作为在线监控循环中的实时信号[31] 实验结果与案例展示 - 在复杂表格解析案例中,系统处理了一个包含库存、多周预测和多式联运计划的复杂表格,能够准确解析多节生产记录、发货计划和物流说明,实现精确的信息检索与合成[28] - 该方法可扩展到多个大型文件(如案例中8个相似的1200行文件),显示了其鲁棒性和实用性[28] - 在另一个案例中,系统处理了一个1200行的周生产记录,并回答了关于2025年第一季度总产量的提问,系统清晰地展示了其端到端流程,包括问题分解、表格检索与模式链接、SQL生成与执行[30][32][33] - 在Kaggle竞赛案例(厄瓜多尔超市销售预测)中,系统展示了端到端自动化能力,从源代码、数据处理、统计可视化到最终的分析报告,全部由Dingtalk-DeepResearch自动生成和执行,无需任何人工干预[35] - 数据集规模包括训练集3,000,888行6列,测试集28,512行5列等,模型验证结果如LightGBM的RMSLE为0.40924[36][39] 结论与未来展望 - Dingtalk-DeepResearch已经成功部署在企业内部工作流程中,并即将作为钉钉的服务对外开放,这将为更广泛的企业用户提供适应性强、评估驱动、多模态推理的复杂任务解决方案[44] - 框架的核心创新包括熵引导在线学习,实现无需频繁微调大语言模型的自适应能力;大规模多阶段文档强化学习,显著提升文档生成的事实准确性、结构质量和用户对齐度[45] - 结构感知异构表格推理能够有效处理真实世界中复杂多样的表格数据;DingAutoEvaluator自动化评估引擎通过不确定性感知案例挖掘和多维度指标,形成数据飞轮,驱动模型的持续优化和防范性能退化[45]