Seek .-ChatGPT 三周年遭 DeepSeek 暴击，23 页技术报告藏着开源登顶的全部秘密

核心观点 - DeepSeek发布了两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale，其推理能力分别直逼GPT-5和Gemini-3.0-Pro，并解决了开源模型长期存在的“深度思考”与“工具调用”难以协同的核心瓶颈 [1][4][5] 模型发布与定位 - 发布了两款模型：主打性价比与日常使用的标准版DeepSeek-V3.2，以及面向AI能力上限探索的终极增强版DeepSeek-V3.2-Speciale [1][5] - 两款模型的权重已在HuggingFace和ModelScope上开源，可供下载和本地部署 [3] - 标准版已升级至官网、APP和API，适用于日常问答、写作和智能体任务；增强版仅提供临时API，服务至2025年12月15日截止 [5] 技术创新与架构突破 - 针对开源模型处理复杂任务的三大瓶颈（架构问题、资源分配、智能体能力）提出了三项关键技术 [4] - 引入稀疏注意力机制，通过“闪电索引器”只关注文本中真正重要的部分，大幅提升了处理长上下文（128K）的速度和效率，且性能不输甚至优于传统注意力机制 [4][7] - 在后训练阶段投入的计算预算超过了预训练成本的10%，并构建了“稳定且可扩展的强化学习训练框架”以保证训练稳定性和可扩展性 [8] - 训练流程采用“专家蒸馏”和“混合强化学习训练”两步法，在数学、编程等六大专业领域训练专家模型生成数据，并使用GRPO算法统一训练推理、智能体和人类偏好对齐任务，避免了“灾难性遗忘” [8][10] 核心能力：思考与工具调用的融合 - 新模型首次实现了“边思考边用工具”，解决了以往模型进入思考模式后无法调用工具的尴尬问题 [5][12] - 专门设计了“思考上下文管理机制”：仅在用户发出新消息时清除历史推理内容，工具调用历史和结果会保留，使得AI可以反复查询、思考、验证，无需从头开始 [13] - 通过“冷启动”设计，利用已有的带推理过程数据和无推理过程的智能体数据，通过提示词让模型在推理中自然整合工具执行 [16] 性能表现与基准测试 - 在多项基准测试中，V3.2的推理能力追平GPT-5，Speciale版本性能逼近甚至超过Gemini-3.0-Pro [11][20] - 具体测试数据：在AIME 2025测试中，V3.2得分为93.1%，Speciale为96.0%；在HMMT Feb 2025测试中，V3.2为92.5%，Speciale为99.2%；在LiveCodeBench测试中，V3.2为83.3%，Speciale为88.7% [22] - 在智能体能力测试上，V3.2在开源模型中达到最高水平，大幅缩小了与闭源模型的差距，在τ²-Bench测试的航空、零售、电信类别分别获得63.8分、81.1分和96.2分 [22] - Speciale版本在未进行专项训练的前提下，在2025年IOI排名第10，ICPC世界总决赛排名第2，并在IMO和CMO达到金牌门槛 [24][25] 训练方法革新：AI自我进化 - 公司搭建了大规模智能体任务流水线，创造了超过1800个虚拟环境和8万多条任务，特点是“难解答，但容易验证”，让AI可以无限制地自我训练 [17] - 流水线包含代码智能体（24667个任务）、搜索智能体（50275个任务）、通用智能体（4417个任务）和代码解释器（5908个任务）等角色，负责挖掘问题、生成答案和验证答案 [18] - 在代码领域，直接从GitHub抓取真实Issue和修复补丁，让智能体搭建测试环境验证修复有效性，使模型获得可实战的编程能力 [18] - 通用智能体可以自动生成任务、工具和验证逻辑，实现了“AI创造数据、验证数据、用数据变强”的自我进化过程 [19] - 实验验证了该方法的有效性：在50个合成智能体任务实例中，仅使用合成任务进行强化学习的V3.2基础模型表现显著提升 [26][27] 当前局限与未来方向 - 与顶级闭源模型（如Gemini-3.0-Pro）相比，V3.2在世界知识覆盖广度上仍显不足，部分原因是训练总浮点运算量更少 [30] - V3.2的Token使用效率低于Gemini-3.0-Pro，往往需要更长的生成路径才能达到相似输出质量，未来需优化推理链的“智能密度” [30] - 在解决复杂任务方面，V3.2仍不及最前沿模型，这促使公司计划进一步优化底层基础模型与后训练方法 [30]