模型发布与定位 - 公司正式发布DeepSeek-V3.2与DeepSeek-V3.2-Speciale两款模型,前者是V3.2-Exp的官方迭代版本,已登陆App、网页端及API,后者是专为智能体打造的推理优先模型,目前仅通过API提供服务 [2] - DeepSeek-V3.2定位为兼顾推理能力与文本长度、拥有GPT-5级别性能、适合日常驱动的模型,而V3.2-Speciale则追求极致推理能力,取得了4项金牌级成绩 [9] - 两款模型均已开源,代码托管在HuggingFace和ModelScope平台 [7] 核心性能表现 - 在多项国际顶级推理基准测试中,DeepSeek-V3.2-Speciale的性能表现全面超越GPT-5 High,并与谷歌Gemini-3.0 Pro难分伯仲 [1][4] - 具体来看,在AIME 2025测试中,V3.2-Speciale得分为96.0(消耗23k Tokens),高于GPT-5 High的94.6分(13k Tokens)和Gemini-3.0 Pro的95.0分(15k Tokens)[1][21] - 在HMMT Feb 2025竞赛中,V3.2-Speciale取得99.2分(27k Tokens),显著高于GPT-5 High的88.3分(16k Tokens)和Gemini-3.0 Pro的97.5分(16k Tokens)[1][21] - 在IMOAnswerBench测试中,V3.2-Speciale得分为84.5分(45k Tokens),优于GPT-5 High的76.0分(31k Tokens)和Gemini-3.0 Pro的83.3分(18k Tokens)[1][21] - V3.2-Speciale在ICPC与IOI竞赛中分别达到了人类选手第二名与第十名的水平 [5] 关键技术突破:DSA稀疏注意力架构 - 模型的核心技术是独创的DSA稀疏注意力架构,该技术被比喻为“闪电索引器”,能够以极低成本扫描索引,只对筛选出的1%关键内容进行深度阅读,从而将计算复杂度从指数级O(L^2)降低到近乎线性O(L) [16] - DSA技术的成功落地,打破了AI领域“速度、成本、智能”的不可能三角,使得处理长文本不再是“烧钱”的奢侈行为,速度也大幅提升 [17][20] - 算力的节省使得公司有底气推出Speciale版本,利用盈余资源进行更深度的“长思考”和逻辑推演,从而在硬核指标上实现突破 [20] 智能体与工具使用能力进化 - DeepSeek-V3.2是首个将思考直接整合到工具使用中的模型,同时支持在思考和非思考模式下使用工具 [6] - 相比于实验版V3.2-Exp,正式版引入了“思维上下文管理”机制,解决了思考与行动断裂的行业顽疾,使模型在调用工具后能无缝衔接后续操作 [11] - 公司为训练此能力,合成了1800多个虚拟的操作系统、代码库和浏览器环境,并生成了8.5万条刁钻指令,让模型在虚拟世界中高强度练习,从而从“做题家”进化为能熟练使用工具解决现实难题的“实干家” [13] - 在工具使用基准测试中,DeepSeek-V3.2在τ2-Bench ToolUse上得分为80.3,在MCP-Universe上得分为45.9,在Tool-Decathlon上得分为35.2,表现与主流模型竞争 [10] 公司战略与行业意义 - 此次发布标志着公司从展示“稀疏注意力”引擎潜力的“概念车”阶段,进入了完成内饰精修、装配顶级导航系统、可随时上路解决复杂问题的“量产超跑”阶段 [7] - 公司展示了在算力约束下,通过更聪明的架构、更精细的训练和更开放的生态来撬动推理极限的技术路线 [21] - 公司的策略被概括为拒绝无脑烧钱进行规模扩展,而是依靠更聪明的算法,在算力的缝隙中开辟通往顶峰的捷径 [22] - 2024年公司已累计发布7款模型,包括DeepSeek‑R1、DeepSeek‑V3系列等,巩固了其“开源之神”的行业地位 [1]
OpenAI危,DeepSeek放大招:追平谷歌最强,手撕GPT-5 High