开源大语言模型
搜索文档
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 17:35
文章核心观点 DeepSeek-V3.2通过三大核心技术突破,在多项关键性能上追平甚至超越了顶级闭源大语言模型,证明了开源模型通过架构创新、算力投入与数据工程的结合,完全有能力挑战闭源模型的主导地位,为开源模型的发展树立了新的里程碑 [2][43] 开源模型的痛点与破局方案 - **传统开源模型面临三大核心困境**:在架构层面,依赖标准注意力机制导致长序列计算复杂度高(O(L²)),推理速度慢 [7];在资源分配上,后训练阶段算力投入不足,导致数学推理、代码生成等硬核任务性能难以提升 [7];在智能体能力方面,在工具使用、场景泛化和指令遵循等关键指标上与闭源模型存在明显差距 [7] - **DeepSeek-V3.2的针对性破局方案**:通过创新注意力机制解决效率问题,通过加大后训练算力投入提升硬核性能,通过大规模智能体任务合成流水线强化工具使用与泛化能力 [8] 核心技术解析:DeepSeek稀疏注意力(DSA) - **核心创新与效率提升**:引入DeepSeek稀疏注意力(DSA)机制,通过“闪电索引器+细粒度token选择”的双组件设计,将核心注意力计算复杂度从O(L²)降至O(Lk)(k远小于序列长度L)[10][11] 对于128K长度的长序列,k值通常设置为2048,仅需处理传统计算量的1.6%(2048/128000),效率提升极为显著 [15] - **闪电索引器设计**:采用少量索引头(H¹)和FP8精度进行计算,相较于传统机制的FP16/FP32精度,计算量显著降低,同时通过特定计算逻辑生成索引得分,兼顾效率与准确性 [12][13] - **两阶段训练策略**:训练分为密集预热和稀疏训练两个关键阶段,确保DSA在长上下文任务中实现端到端显著提速,且在短文本任务上未出现性能退化 [17][19][20] 核心技术解析:可扩展强化学习框架 - **算力投入**:将后续训练的算力预算提升至预训练成本的10%以上,通过稳定的训练框架充分释放算力价值,实现了推理性能的跨越式提升 [21] - **高性能变体成果**:推出高性能变体DeepSeek-V3.2-Speciale,该变体在IMO 2025、IOI 2025、ICPC世界总决赛2025等顶级赛事中均斩获金牌,性能比肩Gemini-3.0-Pro,成为首个在国际顶级竞赛中达到金牌水平的开源模型 [23] 核心技术解析:大规模智能体任务合成 - **冷启动阶段**:采用DeepSeek-V3的方法论,通过提示工程引导和数据混合采样,将模型的推理能力与工具使用能力在训练初期进行对齐和融合,为后续强化学习提供高质量的初始策略 [25][29][35] - **大规模任务合成流水线**:构建自动化智能体任务合成流水线,生成大规模、多样化、高质量的智能体训练数据,具体包括通用智能体、搜索智能体、代码智能体和代码解释器智能体等类型 [30][32][36] - **策略成效**:系统性提升了模型在工具使用场景中的泛化能力与指令遵循性,在MCP-Universe、MCP-Mark等未见过的工具使用基准测试中表现出色,证明了其能将推理策略泛化到域外的智能体场景 [33][36] 模型实测表现 - **推理能力**:在MMLU-Pro(85.0)、GPQA Diamond(82.4)等通用基准上与GPT-5-High水平相当 [39][40] 在数学领域,AIME 2025通过率达93.1%,HMMT 2025二月赛通过率92.5%,均处于开源模型前列 [39][40] - **代码能力**:在LiveCodeBench的COT模式下通过率83.3%,Codeforces评级达2386分,在SWE-Verified(软件工程师验证基准)中解决率73.1%,显著优于其他开源模型 [39][40] - **工具使用能力**:在中文搜索基准BrowseCompZh中通过率达65.0%,在τ²-bench中通过率80.3%,在MCP-Universe中成功率45.9%,大幅缩小了与闭源模型的差距 [39][41] - **成本效率**:通过DSA机制,模型在H800 GPU上的推理成本显著低于前代产品,长序列解码时的成本优势尤为明显 [27][41]
OpenAI时隔六年再开源
财经网· 2025-08-06 11:37
公司动态 - 公司于8月6日凌晨发布两款开源大语言模型GPT-oss-120b和GPT-oss-20b [1] - 此次发布是公司自2019年开源GPT-2以来首次推出新的开源大语言模型 [1] - 公司原计划于3月发布新的开源模型,但该计划推迟至8月 [1] - 两款新模型均采用宽松的Apache2.0许可证发布,企业在商用前无需付费或获得许可 [1] - 公司首席执行官将GPT-oss称为重大突破,是最先进的开放权重推理模型 [1] 产品与技术 - 新产品GPT-oss具有与o4-mini相当的强大现实世界性能 [1] - 新产品可以在用户自己的电脑或手机的较小版本上本地运行 [1] 行业背景 - 今年1月DeepSeek引发开源潮后,公司首席执行官曾表示公司在开源技术方面站在了历史的错误一边 [1]
速递|10亿美金挑战DeepSeek,红杉、光速资本押注,Reflection AI开源模型守塔
Z Potentials· 2025-08-05 10:59
Reflection AI融资与业务发展 - 成立仅一年的初创公司Reflection AI正洽谈融资逾10亿美元 用于开发开源大语言模型 与中国DeepSeek 法国Mistral及美国Meta竞争 [1] - 已从Lightspeed Venture Partners 红杉资本和CRV等投资方筹集1.3亿美元风险资本 上一轮估值达5.45亿美元 [1] - 由前Google DeepMind研究人员联合创办 总部位于纽约 将部分资金用于成本高昂的新AI模型开发 [1] - 联合创始人表示有机会将公司打造为美国领先的开源AI模型提供商 中国DeepSeek等AI模型的流行催化了美国公司投入开源领域 [1] 开源AI模型行业动态 - 在热门AI模型排行榜LMArena上 排名前30的开源模型没有一款来自美国开发商 [3] - Meta在开发者发现其最新模型未达预期后 已开始大规模招聘以重整AI业务 并讨论开发闭源AI模型 [2] - OpenAI首席执行官Sam Altman表示 公司计划在今年夏季发布自己的开源模型 [4] Reflection AI产品与市场策略 - 开发名为Asimov的编程助手 通过分析企业数据生成相关代码 上月启动预览版并开始从企业客户处获得少量收入 [3] - 由于中国市场对AI模型需求激增 创始人正将业务扩展至开源AI模型开发 [3] - 开源模型成本更低且灵活性更高 能够访问底层训练数据和代码 企业可针对特定业务流程微调AI模型 [3][4] AI模型训练成本 - OpenAI预计今年将花费超过70亿美元用于模型训练 到2026年这一数字将接近170亿美元 [5] 行业竞争格局 - 许多美国公司出于数据安全考虑无法使用DeepSeek或其他中国AI企业的模型 [4] - 开源模型与专有模型相比具有微调优势 这种操作在专有AI模型上无法实现 [4]