Seek .-2025 AI 年度复盘：读完200篇论文，看DeepMind、Meta、DeepSeek ，中美巨头都在描述哪种AGI叙事

行业技术演进核心观点 - 2025年人工智能技术演进的核心特征是“暴力美学”时代的终结，行业从单纯堆砌参数转向基础研究，重点突破流体推理、长期记忆、空间智能和元学习等领域，以解决通往AGI的能力不平衡问题 [2] 技术能力进展量化评估 - 根据CHC认知理论框架评估，2025年AI在多项关键能力上取得显著进步：即时推理能力从2023-2024年的0%提升至2025年晚期的8%，长期记忆存储从0%提升至3%，视觉处理从0%提升至5%，工作记忆从2%提升至6%，数学能力在2025中期达到10% [3] - 部分能力在2025年达到平台期：一般知识在2025中期达到9%后持平，读写能力在2025中期达到10%后持平，数学能力在2025中期达到10%后持平，听觉处理在2025中期达到6%后持平 [3] - 处理速度在2025晚期达到6%，较2025中期的3%有所提升 [3] 流体推理与Test-Time Compute革命 - 2025年最重要的范式革新是Test-Time Compute的诞生，其核心理念是智能不仅是参数的函数也是时间的函数，代表模型如OpenAI o1和DeepSeek R1通过在推理阶段投入更多计算资源进行“慢思考”，实现了推理能力从0到8的质变 [6] - 强化学习是提升推理能力的关键手段，研究证实RL的作用在于锐化基座模型中已有的原子推理步骤分布，并通过“链接”阶段组合新推理方法以解决未知难题 [7] - 强化学习工程在2025年取得明显发展，评分系统革新体现为基于可验证奖励的强化学习和稀疏奖励指标的全面崛起，尤其在数学、代码等有明确对错的领域效果显著 [11] - 参数更新算法因DeepSeek R1的成功而震荡，GPRO算法因节省50%显存且效果不差成为主流，国内公司在此基础上发展出多种变体，如Qwen的GSPO引入分值加权，Minimax的CISPO采用重要性采样 [15] - Meta的ScaleRL研究证明RL性能增长符合Sigmoid曲线，存在天花板，无法无限提升智力上限，但当前离天花板尚远，最佳工程实践包括使用长思维链和如2048 prompts的大Batch Size [16][17] 记忆能力与架构突破 - 记忆能力是AGI得分中的短板，2025年后半年最重要的模型变革是记忆能力提升，研究围绕三种方式展开：上下文作为记忆、RAG处理过的上下文作为记忆、将上下文融合到参数内化记忆 [18][19] - Google Research发布的Titans架构及Nested Learning是2025年记忆领域的最大突破，从根本上挑战了Transformer的无状态假设，Titans是一个能在推理时实时更新参数的深度神经长期记忆模块，通过“惊奇度”决定信息存储 [19][21][22] - Nested Learning将模型架构分成低、中、高三种更新频率的神经网络层，使整个模型参数可随时调整，低频层更新慢保证知识延续性，高频层处理快速反馈，其成本比SFT和RL达成同等效果更低 [25][27] - RAG在2025年发生质变，从静态资料库演变为具备反思与进化能力的系统，代表如DeepMind的ReMem引入了Action-Think-Memory Refine全链路，对记忆进行修剪、重组和定期清理，实现了经验复用 [28][30] - 针对灾难性遗忘问题，2025年提出了多种参数更新解决方案，Meta的稀疏记忆微调通过在Transformer中加入空白内存层进行稀疏更新，在TriviaQA任务中仅导致11%的旧知识遗忘，远优于全量微调的89% [31] - Thinking Machines提出的在策略蒸馏结合了RL的采样方式和SFT的监督信号，让学生模型在自己实时生成的轨迹中学习，提供密集即时反馈，创造了低成本且不会导致灾难性遗忘的更新方式 [33] 空间智能与世界模型发展 - 视觉处理能力在2025年得到有效提升，主要围绕三个主流派系发展：自监督生成模型、基于3D CV生成的符号主义World Labs派、以及Meta的预测式V-JEPA派 [35] - 自监督生成模型方面，Google DeepMind发布的Genie 3能以24fps帧率和720p分辨率实时渲染可交互的3D环境，并维持数分钟的场景一致性，展现了从海量视频数据中自发学习物理规律的能力 [36] - 研究发现扩散Transformer也遵循Scaling Law，但对批量大小和学习率极为敏感，Google通过打通视频生成的Scaling Law成功训练了Veo 3 [37][38] - Apple研究发现，原生多模态的晚期融合架构相比早期融合架构可能存在上限劣势，但参数利用率更高，同等规模下上限更高 [40] - 快手提出的SVG模型通过直接用图像理解模型代替VAE，统一了语义空间，极大地提升了训练效率和生成速度，在多项核心指标上击败了DiT和SDXL [42] - 李飞飞领导的World Labs派推出了商业产品Marble平台，这是一个“大型世界模型”，能从多模态输入生成可探索的3D空间表示，依赖3D高斯泼溅和神经辐射场技术，更稳定可控 [44][46][47] - Meta的V-JEPA 2通过预测被遮挡视频内容的训练机制，迫使模型学习物理规律，在使用了100万+小时视频训练集后，涌现出了“推演”和反事实预测的能力，但处理跨度仅64帧（约10秒），分辨率384x384 [48][50] 元学习与学习方法演进 - 2025年对学习的核心探讨围绕元学习展开，即模型应具备“学习如何学习”的能力，以应对未知任务和实现低成本快速适应 [51][52] - 关于Transformer是否具备隐式元学习能力存在争论，有研究证明其注意力机制在数学形式上与梯度下降更新步骤类似，但也有研究认为上下文学习只是激活了预训练知识而非真正学习 [53] - Test-Time Compute为隐式元学习提供了新可能，研究尝试引导模型在推理过程中更有效地探索思维路径和分配算力，例如通过累积遗憾最小化策略来优化 [56][58] - DeepMind的DiscoRL通过内外双循环让AI自主发现学习算法，其自主发现的算法Disco57在雅达利基准上击败了人类设计的顶级算法，并展现了强大的泛化能力 [59][61] - Meta的“中训练”方法让Agent在专家演示的每一步尝试备选动作并反思，建立起因果模型，能显著提升在复杂环境中的成功率（平均提升9.6%）并增强泛化能力 [61][63] - 神经科学研究为AI架构提供启示，研究表明大脑通过“动态路由”机制将结构化的神经子空间重新连线以执行新任务，这推动了2025年对模型进行分区（如记忆分区、快慢反应组别）的尝试 [64][66] 基础架构与训练范式演进 - 为对抗Scaling Law瓶颈，行业通过稀疏性、合成数据与强化学习结合实现突破，例如OpenAI在GPT-5.2中采用MoE、合成数据与RL加强三方结合 [68] - 合成数据方面，随着推理能力进步，模型可自主生成长思维链文本，DeepSeek R1的论文表明，利用其生成的长思维链对小模型进行微调，效果远超人类专家编写的CoT数据 [69] - 数据质量重于数量，研究证明筛选前10%推理路径最长、最复杂的样本进行训练，其效果可匹配甚至超越全量数据集 [70] - 针对大规模使用合成数据可能导致“模型崩溃”的问题，研究提出了利用自我验证机制过滤数据的方法，证明只要校准误差在一定界限内，仅凭自我验证就可在完全合成数据体制下持续训练而不崩溃 [72] - 模型蒸馏在2025年取得两大进步：针对MoE架构的特化蒸馏方案《Every Expert Matters》，让学生模型学习教师不同专家的组合输出；以及思维融合蒸馏，通过共识去噪原理将多个教师的稳健推理逻辑迁移给学生模型 [75][77] - 注意力机制方面，2025年是MLA及其变体普及的时代，同时线性注意力复归，Kimi Linear采用3:1混合架构，在1M超长上下文任务中达到94.8的高分，性能首次全面超越全注意力，且吞吐量可达全注意力的6.3倍 [80][81] - 行业出现向连续空间演进的趋势，代表如大型概念模型和腾讯的CALM，试图将多个Token压缩为连续概念向量进行预测，以增加语义带宽和提升效率 [83][85] 2026年潜在技术方向展望 - 记忆能力的工程化实践将成为重点，理论方向已明确，预计研究成果可能在一年内工程成熟并被采用，完成范式转换，更具学习性的记忆系统将被产品化 [87] - 标准架构可能发生变革，趋势是向分区、分层、增加更多功能层的混合架构演进，例如加入Titans记忆层或进行层级分区，以更符合人脑运作模式 [88][89] - 自进化AI探索将在2026年产生更多可能性，现有尝试包括让模型自问自答进行强化学习，以及像Alpha Evolve那样让LLM优化算法代码，但尚属早期阶段 [90][91][93]