长上下文长度
搜索文档
DeepSeekV3.2技术报告还是老外看得细
量子位· 2025-12-03 08:11
文章核心观点 - DeepSeek发布两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在智能体评测中达到开源模型最高水平,大幅缩小了开源模型与顶尖闭源模型的差距[6] - 模型通过长上下文强化学习技术实现性能突破,证明强化学习在长上下文长度下也能持续扩展,开辟了不同于单纯扩大预训练规模的新技术路径[13][19][22] - DeepSeek-V3.2系列在性能接近顶尖闭源模型的同时,成本大幅降低,输出token价格比GPT-5便宜近24倍,比Gemini 3 Pro便宜近29倍[29][30] 模型性能表现 - 标准版DeepSeek-V3.2在推理测试中达到GPT-5水平,略低于Gemini-3.0-Pro[7] - Speciale版本全方位超越GPT-5,在主流推理任务中与Gemini-3.0-Pro竞争,在AIME 2025得分为96.0(23k),HMMT Feb 2025得分为99.2(27k)[8] - Speciale版本获得IMO、CMO、ICPC及IOI金牌,在ICPC和IOI上达到人类选手第二名与第十名水平[9] 技术创新突破 - 利用DSA稀疏注意力解决长上下文效率问题,为长序列强化学习打下计算基础[14] - 投入超过预训练成本10%的算力进行后训练,提升模型通用推理和智能体能力[15] - 通过极长思维链让模型思考更多,通过自我修正探索让模型思考更久,解锁更强推理能力[16][17] 成本优势分析 - DeepSeek-V3.2输出百万token成本为0.42美元,GPT-5为10美元,Gemini 3 Pro为12-18美元[30] - 相较于前一代模型DeepSeek-V3.1-Terminus,在最长上下文场景下成本降低75%到83%[37] - 模型可能直接在国产算力(华为、寒武纪)中部署,将进一步拉低推理成本[33] 行业影响 - 模型发布引发硅谷高度关注,在NeurIPS 2025会议航班上有30%乘客研究DeepSeek的PDF[3] - OpenAI启动红色警报并临时推迟ChatGPT广告投放计划,谷歌Gemini团队受到网友关注[5] - 证明开源模型与闭源模型的差距已从技术问题转变为经济问题,只要计算资源足够,开源模型可不逊于闭源模型[26]