推理时扩展 - 财报，业绩电话会，研报，新闻

推理时扩展

搜索文档

猿大侠· 2025-06-27 22:57

DeepSeek-R2延迟发布 - 核心观点：DeepSeek-R2因CEO对模型表现不满及算力资源短缺而多次推迟发布 [1][2][4] - 研发进程缓慢主因包括英伟达H20芯片供应不足 [2] - R1训练消耗3万块H20、1万块H800和1万块H100芯片 [3] R2研发背景与时间线 - 公众对R2的期待始于2023年12月DeepSeek-V3发布及2024年3月V3-0324升级 [5][6] - 4月公司发布推理Scaling Law论文，引发R2即将发布的猜测 [11][12] - 4月底泄露参数显示R2或达1.2T参数、5.2PB训练数据 [17] - 5月发布解决硬件瓶颈的论文及升级版R1-0528，性能接近OpenAI o3-high [20][21][23][24] 技术进展与市场反应 - V3-0324升级实际效果显著，超出官方描述的"小版本升级" [6] - R1-0528在LiveCodeBench编程测试中表现优异，部分指标超越竞品 [24] - 网友推测R2需等待V4发布，因V3可能已达技术极限 [28][29] 算力资源挑战 - R2预计需要比R1更多的算力资源，H20芯片短缺直接影响研发进度 [3][4] - 公司通过论文公开V3训练和推理中解决硬件瓶颈的方法 [21]

在线强化学习（RL）

推理时扩展

Artificial Intelligence

Artificial Intelligence

DeepSeek-R2

DeepSeek-V3

DeepSeek-R1

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

量子位· 2025-04-05 12:45

OpenAI产品计划调整 - OpenAI计划改变发布顺序，将在几周后先发布o3和o4-mini模型，而非直接推出GPT-5 [3] - GPT-5预计推迟至几个月后发布，效果将优于最初预期 [4] - 推迟原因是技术整合难度超出预期，需确保足够能力支持需求 [6] DeepSeek新论文技术突破 - 论文提出SPCT方法（Self-Principled Critique Tuning），首次通过在线强化学习优化原则和批判生成，实现推理时扩展 [10][12] - 研究针对现有奖励模型（RM）在通用领域的局限性，解决灵活性和准确性两大挑战 [14][16][17] - SPCT包含三大核心技术：生成式奖励模型（GRM）、基于规则的在线RL训练、推理时扩展技术（采样投票+辅助模型过滤） [21][22][23][24] 性能表现与行业对比 - DeepSeek-GRM-27B在Reward Bench基准准确率从86%提升至90.4%（32次采样） [27] - 在PPE、RMB等综合评估中超越基线方法（如LLM-as-a-Judge、标量RM）及部分公开模型（如Gemini-1.5-Pro、Claude-3.5-sonnet） [28] - 推理时扩展性能优于训练时扩展，验证方法有效性 [28] 行业动态与竞争 - DeepSeek发布新论文后，OpenAI迅速调整产品计划，显示行业技术竞争加剧 [8] - 奥特曼借机宣传两本参与著作，涉及个人传记及OpenAI发展史 [29]

推理时扩展

SPCT方法

Artificial Intelligence

Artificial Intelligence

GPT-5

DeepSeek-GRM-27B