深度思考模式
搜索文档
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]
Gemini 3 Pro刷新ScienceQA SOTA|xbench快报
红杉汇· 2025-11-20 11:38
文章核心观点 - Google正式发布新一代基础模型Gemini 3,在深度推理与思考、多模态理解、Agent编程能力上有极大提升[1] - Gemini 3 Pro在xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA,并且响应时间快,价格低[1] - 模型实现了从“反应式”推理向“审慎式”推理的转变,解决了大模型常见的“幻觉”问题,标志着AI从“知识检索”向“逻辑推理”的跨越[8] 模型性能表现 - Gemini 3 Pro在ScienceQA榜单中平均分为71.6,BoN(N=5)达到85分,超越第二名Grok-4的分数6分[3][5] - 平均响应时间仅48.62秒,远快于Grok-4的227.24秒和GPT-5-high的149.91秒[3] - 官网API价格为输入每百万token 2美元,输出每百万token 12美元,低于Grok-4的3美元/15美元和GPT-5-high的1.25美元/10美元[3] - 与Gemini 2.5 Pro相比,平均分从59.4提升到71.6[5] - 运行ScienceQA成本估算显示,GPT-5.1花费32美元,Gemini 3 Pro仅花费3美元,成本约为前者的1/10[6] 技术架构创新 - 引入“深度思考”模式,在处理高复杂度任务时在内部构建多条推理链路进行自我博弈与验证[8] - 采用稀疏MoE架构,拥有海量参数专家但每次仅激活一小部分,显著降低计算开销[8] - 彻底摒弃外挂式编码器,采用极致的原生多模态架构,使文本、代码、图像、视频和音频在模型底层共享同一套“世界模型”[11] - 上下文长度显著扩充至百万级,可直接处理整本书、完整代码库或长时间音视频逐字稿[12] Agent与开发能力 - 带来“氛围编程”概念,模型能捕捉代码库中隐含的工程风格、架构规范及开发者直觉[9] - 作为自主Agent在IDE中运行,具备操作终端、浏览器和文件系统权限,拥有长程规划能力[9] - 在Google Antigravity平台中与Gemini 2.5 Computer Use模型、视觉模型Nano Banana等深度集成,实现“计划-执行-反馈”的自主多步骤工作流[10] 交互与生成能力 - 引入Generative UI,模型能根据用户意图实时编写前端代码并渲染出动态可交互界面[12] - 具备惊人感知能力,能转录3小时会议视频,精准识别说话人语气,从模糊低质量文档照片中无损提取结构化数据[11] 硬件支持体系 - 在Google自研的TPU上训练,TPU是为大型模型特别设计的高带宽、高并行计算芯片[13] - 借助TPU集群的强大算力和高效并行,在相对可控时间内完成训练,实现能耗与成本平衡[13]