产业级 Agent 如何破局？百度吴健民：通用模型难“通吃”，垂直场景才是出路

Agentic模型的发展现状与挑战 - 通用全能的Agentic模型现阶段不可能实现，业务场景、工具、环境差异过大，通用模型泛化性有限 [2] - 当前研发核心是让模型在各类垂直Agent场景中更好发挥作用，发展最快的场景是Coding Agent，包括通用编程及网页开发等特定领域 [4] - 具备在各类垂直Agent场景下达到工业级效果的通用模型尚未出现，原因在于场景设定、工具集合及运行环境差异极大 [5] - 针对具体应用场景定制模型更容易形成优势，特别是当场景能清晰定义Reward且评估能高效自动完成时，通过强化学习定制的Agentic模型可显著超过现有通用模型 [5] - Agentic模型训练的最大卡点不是模型，而是真实环境复刻，外部接口、数据库、登录依赖等真实链路的稳定访问技术门槛极高 [2] - 实现模型在特定场景持续迭代，必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统 [6] 强化学习的技术瓶颈与工业应用 - 开源强化学习框架如OpenRLHF、TRL、VeRL等覆盖了主要环节，但在工业级应用中仍不够成熟，涉及多轮工具调用的Agentic场景需深度定制 [7] - 工业级打磨方向主要在模型规模支持与Agent训练能力两方面，需能高效支撑参数量较大的SOTA模型，并处理多轮工具调用的复杂交互 [7] - 工业级Agentic模型研发对整体技术栈要求极高，包括沙盒环境、高性能高并发调度运行能力及稳定的高并发搜索API支持 [7] - 强化训练的本质是激发和稳定模型在特定场景中的既有能力，首要前提是基座模型本身在目标场景上具备优势，通常源于预训练阶段的数据分布 [8] - 强化学习过程中，生成尝试路径（Rollout）通常占据80%—90%的时间成本，能否以高吞吐方式高效完成Rollout是成败关键 [9] - 强化训练的样本规模已可扩展到百万级，系统性地提升了模型推理和复杂问题解决能力 [10] - 大规模多场景强化训练的前提是结果评估能准确自动完成且最好有稠密的评估奖励反馈，这在代码或数学等评估相对确定的场景中相对容易实现 [11] 多模态模型的技术进展与局限 - 视觉生成主流模型框架从Diffusion Model发展到Flow Matching，效果、稳定性碾压前代方案 [3] - 视觉理解模型仍以ViT Encoder嫁接语言模型的主流方案为主，模型能力迭代主要聚焦在垂直方向的数据合成 [3] - 当前未真正实现多模态理解和生成的统一建模，分开独立优化效果依旧优于融合建模 [3] - 多模态模型核心是在语言模型基础上引入视觉能力，主流方案是在语言模型训练到一定阶段后，引入视觉编码器并用图文对齐数据联合训练 [17] - 视觉信号信息密度较低，仅依赖视觉输入进行大规模训练难以达到语言模型效果，现有方案高度依赖图文对齐数据 [17] - 行业可用的图文对齐数据规模大致在3–5T token，量级上存在明显差距，限制了多模态模型的进一步scale [18] - 生成与理解的统一建模是重要方向，但现阶段融合后的效果还不如单独优化 [21][23] 模型架构与能力扩展的关键方向 - 稀疏MoE架构被广泛应用，其核心是解决Scaling Law问题，在增大模型总参数的同时，让训练和推理实际使用的参数规模保持次线性增长 [15] - 稀疏MoE的稀疏比已做到5%甚至更低，成为推动模型规模继续扩展的现实可行方案 [16] - 长上下文能力与Agent能力直接相关，上下文长度决定了模型能记忆和理解的信息规模 [13] - 业界探索通过Agent脚手架本身“放大记忆”的方案，借助工具使用来弥补上下文长度的限制 [13] - 长上下文能力的关键是模型能否准确理解高效处理，依赖高效的注意力机制设计和实现，可采用稀疏化策略或分块筛选方案 [14] - “世界模型”存在多种理解，一种是通过建模理解物理世界的运行规律，另一种是强调代码能力和工具调用能力 [26] 未来趋势与演进路径 - 2025年明显方向是Agentic Model，即模型具备稳定、准确的工具调用能力，代码场景已率先验证，明年该能力很可能扩展到更多应用场景 [28] - 面对复杂环境，可行方案是让模型在特定场景的Agent脚手架中学会熟练使用该场景所涉及的相对有限的工具集合 [29] - 通用人工智能的实现路径存在分歧，一种是将多种能力融合到单一模型中，另一种是强调模型学会使用工具，当前没有看到哪条路一定能走通 [25] - 在特定专业场景中不断提升模型和Agent能力，使其在局部任务上超过人类水平，在相当长一段时间内仍将是主流方向 [12]