外滩大会速递（1）：萨顿提出AI发展新范式，强化学习与多智能体协作成关键

行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6] 核心观点 - 图灵奖得主理查德·萨顿提出AI发展正进入"经验时代"，强调自主交互与环境反馈为核心，强化学习与多智能体协作是实现该愿景的关键路径 [1] - 当前机器学习多数局限于对人类已有知识的静态迁移，真正能创造新知识的系统需依靠智能体在与环境直接交互中持续生成数据 [1] - 社会对AI偏见、失业及生存风险的担忧被过度放大，应通过多智能体协作机制实现共赢 [1] - 萨顿提出"四条预测原则"：价值观多元共存、人类将深入理解并创造智能、超级AI或人机增强系统终将超越人类智力、权力与资源将向最高效智能体集中且"替代"成为必然 [1] - 宇宙演进被划分为粒子、恒星、复制者与设计四个时代，人类核心使命在于推进"设计"，AI是迈向"设计时代"不可或缺的动力 [1] 技术范式转变 - 数据定义从静态人类语料转变为动态智能体-环境交互轨迹，意味着学习目标与系统架构的根本重构：从被动拟合数据分布转向主动预测并控制自身观测输入的能力 [2] - AlphaGo自我博弈与AlphaProof生成式推理被视为"经验优先"方法论的有效验证 [2] - 产业落地需将模型从"信息消费"角色转变为可与环境实时交互、闭环试错并持续积累能力的"智能作用体" [2] - 企业需构建具备高频交互、在线评估与能力沉淀功能的智能体运营（Agent-Ops）体系，以实现新知识自动生成与跨任务迁移 [2] 技术瓶颈与研发重点 - 强化学习核心瓶颈并非模型参数规模，而在于时间维度与任务序列处理能力，具体表现为持续学习与元学习两大短板的制约 [3] - 持续学习需克服灾难性遗忘，实现动态表征与非平稳环境中的稳定收敛；元学习要求模型具备跨任务快速迁移与重组能力，训练评估单位需从"样本"升级为"任务" [3] - 这两项能力决定系统是否具备长期演进与泛化复用潜力：缺乏则仅适用于封闭短周期任务，突破则有望在开放环境中越用越强 [3] - 企业研发重心应从追求单点性能突破（SOTA）转向构建长周期评估体系、非平稳任务基准，以及推进记忆机制、规划架构与探索策略的工程化与系统集成 [3] 多智能体协作与治理 - "去中心化协作"不仅是技术架构选择，更是关乎系统治理机制的重要命题，需将机制设计理念引入AI系统工程实践 [4] - 多智能体协作类比市场与政府分工机制，其有效运作依赖明确激励、透明协议及可验证合约的支撑 [4] - 若"权力与资源向最高效智能体集中"成为趋势，需构建三方面基础制度：开放接口与可组合协议防范垄断、合作与对抗并存的博弈测试体系避免激励扭曲、可审计可追溯的责任认定工具量化协作外部性 [4] - 缺乏系统性治理设计，"去中心化"易流于概念，难以实现可持续可信赖的协作生态 [4] 人机协作与组织变革 - AI替代集中于任务层级而非完整岗位，企业应主动推进任务解构与流程重组，系统化布局人机协作体系 [5] - 具体路径包括：制定明确的人机分工框架形成"人类决策—AI探索—AI执行—人类审计"闭环机制、构建经验采集与策略回灌体系将交互数据沉淀为可复用策略资产、改革绩效管理机制以协同效率为导向的KPI替代单一产出指标 [5] - 该体系顺应AI替代带来的效率提升需求，为可持续人机协同提供制度化抓手，有助于企业在智能化转型中保持竞争力和控制力 [5]