Workflow
Deep Research智能体
icon
搜索文档
最新一篇长达76页的Agentic AI综述
自动驾驶之心· 2025-10-28 08:03
文章核心观点 - Agentic AI正经历从“外部流水线”到“模型原生”的范式迁移,其核心能力(规划、工具使用、记忆)正被内化到模型参数中 [1] - 驱动此范式转变的核心是“LLM + RL + Task”统一框架,通过强化学习将预训练、后训练与推理循环结合,使模型从被动组件转变为可从环境互动中学习的目标驱动体 [1][3] - 未来趋势不仅是更高的自治度,更是模型与环境的深度耦合与共生,标志着从“构建会用智力的系统”走向“通过经验自进化的智能” [1][44] 问题背景 - 当前生成式AI多为“反应式输出”,缺乏面向目标的长期推理与环境交互能力 [3] - 早期智能体系统采用流水线范式,将规划、工具使用、记忆三大核心能力放在外部编排中,导致系统脆弱且难以应对非预期情境 [3] - 新范式强调通过端到端训练将核心能力内化进模型参数,使LLM成为主动决策者,其核心驱动力是大规模强化学习在LLM训练中的应用 [3] 面向LLM的RL - 必须使用结果驱动的RL将规划等能力从提示诱导转为参数内化,以解决程序化数据稀缺和分布外脆弱性问题 [6] - 相比监督微调,RL具备动态探索式采样与相对价值学习两大优势,将模型从“被动模仿者”变为“主动探索者” [7][8] - 预训练LLM自带的世界知识与结构先验可实现先验引导的探索,提高样本效率,而语言接口将状态、动作、奖励统一到文本空间,使RL成为跨任务泛化的通用机制 [9][11] - 算法从早期RLHF演进至GRPO、DAPO等结果驱动RL,以提升长程训练稳定性与效率,形成基础模型提供先验、学习算法通过交互精炼能力的统一范式 [12] 核心能力:规划 - 流水线范式将规划视为自动化推理与行动序列搜索,存在传统符号规划可解释但重建模、提示工程对设计敏感且计算成本高等局限 [14][17] - 模型原生范式通过监督学习与强化学习将规划能力直接内化到参数中,摆脱外部搜索器/评估器,提升开放环境下的灵活性与稳健性 [15] - 实现了两次关键迁移:训练方式从SFT转向RL以缓解高质量过程数据稀缺问题;RL内部从“过程奖励”转向“结果奖励”并结合规则型奖励以稳定优化 [18] 核心能力:工具使用 - 早期系统将模型嵌入固定工作流节点,提示法则将决策逻辑写入提示,但存在计算开销大、依赖评估质量等问题 [21] - 模型原生迁移把工具使用的决策内化到参数中,形成模块化训练(只优化规划器)和端到端训练(统一学习计划与执行)两类路线 [21] - 当前挑战包括长动作序列中的信用分配问题,以及工具超时、返回不一致等环境噪声导致的训练不稳定,趋势是细化奖励(轨迹级转向步级)并在动态真实环境中训练以缩小仿真到现实差距 [22] 核心能力:记忆 - 记忆被视为“面向行动的证据治理”,流程包括写入/存储、管理/压缩、检索、利用四职能 [27] - 短期记忆方面,流水线范式通过滑动窗口、压缩摘要和RAG等技术处理,模型原生范式则通过位置编码外推、长序列合成和注意力优化将长上下文能力端到端化 [27][30] - 长期记忆载体分为外部库(混合索引、重排、去重)和模型参数(持续预训练/蒸馏、定点编辑与轻量注入),趋势是推动短期-长期记忆统一及检索与生成的联合训练 [30] 智能体应用发展路线 - Deep Research智能体充当“大脑”,擅长复杂推理和分析;GUI智能体充当“眼睛和手”,模拟人类与图形环境的交互 [3] - 多智能体协作研究涵盖从基于规则的系统到数据驱动的模型原生方法,代表性算法包括MAGRPO、RLCCF、MATPO等 [40] 未来方向 - 当前研究焦点集中于奖励建模、规划、工具使用、自动化验证/红队测试等领域 [41] - 最终发展轨迹是模型与环境更深入的综合,标志着从构建使用智能的系统到增长智能的系统的转变 [44]
产业观察:【AI产业跟踪~海外】微软开源Phi~4新版
国泰海通证券· 2025-07-16 16:44
报告行业投资评级 未提及 报告的核心观点 报告对AI产业海外动态进行跟踪,涵盖行业动态、应用资讯、大模型资讯和科技前沿等方面,展示AI领域的最新进展和突破,体现AI在多领域的潜力和应用价值 [1] 根据相关目录分别进行总结 AI行业动态 - Meta挖走苹果AI基础模型负责人,苹果AI技术路线存分歧、组织架构混乱,依赖外部技术且坚持隐私限制模型训练,面临竞争压力,若不调整战略恐人才流失加剧 [7] - 高盛着力培育“AI原住民”,为其提供技能与工具,推出内部AI程序GS AI Assistant,认为培养这代人对定义未来工作与社会意义重大 [8] AI应用资讯 - 微软上线Deep Research智能体,集成OpenAI的o3模型与必应搜索能力,可自动化处理复杂研究任务,支持多领域场景,开发者可集成应用,具备企业级安全合规与可观测性 [9] - 谷歌Veo 3升级,用户上传一张照片即可生成带音频的视频,支持丰富运镜功能和不同风格内容,为AI叙事和内容创作带来突破 [10] - 马斯克旗下xAI发布Grok 4系列模型,含单代理版和多代理版,推理能力居首,后续还将推出多模态等模型 [11] - OpenAI即将发布AI Agent驱动的浏览器,以人工智能改变网页浏览方式,挑战谷歌Chrome市场主导地位,融入用户生活并自主控制数据 [11] AI大模型资讯 - 伯克利开源代码Agent DeepSWE,在代码任务基准测试中表现突出,为开源代码智能体发展提供新范式 [13] - 意大利特伦托大学等机构联合开源多模态大模型EarthMind,为地球观测数据设计,为自然灾害监测等提供统一分析框架 [14] - DeepSeek R1T2成热门变体模型,在智能与输出token长度间达成新平衡,速度更快,基准测试表现更优,是R1理想替代品 [15] - 开源项目ZLUDA支持非英伟达芯片运行CUDA,为跨平台GPU计算提供新可能 [16] - 弗吉尼亚大学团队提出基于能量机制的EBTAI模型,在多维度超越主流模型,为AI系统思维研究提供新思路 [17] - Hugging Face开源SmolLM3,性能超越同类开源模型,支持长上下文和多语言,助力开发者研究优化 [18] - 微软开源Phi - 4新版,适用于边缘设备,推理效率提升,延迟降低,在多任务中表现优异 [21] - Inception Labs推出扩散模型Mercury,突破自回归模型限制,代码生成速度快,支持多语言,为开发效率提升提供新工具 [22] - Mamba提出者团队推出首个无分词器语言模型H - Net,性能可与基于分词的Transformer媲美,有望成为通用基础模型核心架构 [23] 科技前沿 - AI助力破解十年顽疾,ChatGPT和微软MAI - DxO系统在医疗诊断中表现出色,有望开启“AI + 医生”共治模式 [24] - AI设计药物进入人体试验,DeepMind分拆的Isomorphic Labs基于AlphaFold研发的候选药物进入临床试验,为医疗健康带来新希望 [25] - Meta新架构突破Transformer局限,2 - Simplicial Transformer架构增强复杂任务表达能力,但计算复杂度和延迟仍需优化 [26] - STAR技术带来生育新希望,哥伦比亚大学团队研发的STAR技术为无精症患者带来生育可能,AI在生育相关场景有更多应用 [28] - 径向注意力技术引发AI视频生成效率革命,使长视频生成速度提升、训练成本降低,为长视频生成普及提供可能 [29] - MIT自适应语言模型,SEAL框架让大模型自主学习,在知识整合和少样本学习任务中表现优于传统方法 [30] - 英伟达等推出Fast - dLLM,解决扩散语言模型推理效率低问题,为扩散模型高效应用提供新思路 [31]