模型发布与定位 - 公司于12月1日同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两款模型[2] - 标准版主打性价比与日常使用,推理能力达到GPT-5水平,并首次实现边思考边使用工具[5] - 终极增强版面向AI能力上限探索,性能媲美Gemini-3.0-Pro,在2025年IMO、IOI、ICPC中均获金牌,但服务至2025年12月15日截止[5] 技术架构创新 - 引入稀疏注意力机制,通过闪电索引器只关注重要部分,支持128K上下文长度且处理速度和效率大幅提升[10][12][13] - 后训练阶段投入的计算预算超过预训练成本的10%,并构建了稳定且可扩展的强化学习训练框架[14][15] - 训练流程采用专家蒸馏和混合强化学习训练,避免灾难性遗忘问题,统一提升不同任务领域的性能[16][18] 工具调用与思考融合 - 设计思考上下文管理机制,允许AI在思考过程中保留历史推理内容,实现边思考边调用工具[23][24] - 该机制使模型在复杂任务中可反复查询信息并进行逻辑推理,例如规划满足多重约束的旅行方案[24][25] - 通过冷启动设计,将带推理过程的非智能体数据与无推理过程的智能体任务数据结合,实现能力融合[28] 自动化训练体系 - 搭建大规模智能体任务流水线,创造超过1800个虚拟环境和8万多条任务,实现AI自己训练自己[30][31] - 代码领域直接从GitHub抓取真实Issue和修复补丁,让智能体搭建测试环境确保修bug有效[32] - 通用智能体能自动生成任务、工具和验证逻辑,创造出上千个环境和任务,实现自我进化[32] 性能测试结果 - 在MMLU-Pro测试中达到85.0,GPQA Diamond达到82.4,LiveCodeBench达到83.3,推理能力直逼GPT-5[33] - 在AIME 2025数学竞赛中达到93.1,HMMT Feb 2025达到92.5,数学能力接近顶级模型[34] - Speciale版本在ICPC世界总决赛排名第2,IOI排名第10,达到金牌水平[37][38] 行业竞争地位 - 开源模型在推理能力上追平GPT-5,实现思考与工具调用的完美融合,显著缩小与闭源模型的差距[47][48] - 模型完全开源,任何人都可部署到自己的服务器进行研究或二次开发,推动AI技术普及[49] - 公司证明开源模型不是闭源的廉价替代品,而是可以真正接近甚至超越闭源模型的存在[47]
ChatGPT三周年遭DeepSeek暴击,23页技术报告藏着开源登顶的全部秘密
36氪·2025-12-02 17:19