Workflow
推理时扩展
icon
搜索文档
DeepSeek-R2为什么还没发?
猿大侠· 2025-06-27 22:57
DeepSeek-R2延迟发布 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺而多次推迟发布 [1][2][4] - 研发进程缓慢主因包括英伟达H20芯片供应不足 [2] - R1训练消耗3万块H20、1万块H800和1万块H100芯片 [3] R2研发背景与时间线 - 公众对R2的期待始于2023年12月DeepSeek-V3发布及2024年3月V3-0324升级 [5][6] - 4月公司发布推理Scaling Law论文,引发R2即将发布的猜测 [11][12] - 4月底泄露参数显示R2或达1.2T参数、5.2PB训练数据 [17] - 5月发布解决硬件瓶颈的论文及升级版R1-0528,性能接近OpenAI o3-high [20][21][23][24] 技术进展与市场反应 - V3-0324升级实际效果显著,超出官方描述的"小版本升级" [6] - R1-0528在LiveCodeBench编程测试中表现优异,部分指标超越竞品 [24] - 网友推测R2需等待V4发布,因V3可能已达技术极限 [28][29] 算力资源挑战 - R2预计需要比R1更多的算力资源,H20芯片短缺直接影响研发进度 [3][4] - 公司通过论文公开V3训练和推理中解决硬件瓶颈的方法 [21]
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
量子位· 2025-04-05 12:45
OpenAI产品计划调整 - OpenAI计划改变发布顺序,将在几周后先发布o3和o4-mini模型,而非直接推出GPT-5 [3] - GPT-5预计推迟至几个月后发布,效果将优于最初预期 [4] - 推迟原因是技术整合难度超出预期,需确保足够能力支持需求 [6] DeepSeek新论文技术突破 - 论文提出SPCT方法(Self-Principled Critique Tuning),首次通过在线强化学习优化原则和批判生成,实现推理时扩展 [10][12] - 研究针对现有奖励模型(RM)在通用领域的局限性,解决灵活性和准确性两大挑战 [14][16][17] - SPCT包含三大核心技术:生成式奖励模型(GRM)、基于规则的在线RL训练、推理时扩展技术(采样投票+辅助模型过滤) [21][22][23][24] 性能表现与行业对比 - DeepSeek-GRM-27B在Reward Bench基准准确率从86%提升至90.4%(32次采样) [27] - 在PPE、RMB等综合评估中超越基线方法(如LLM-as-a-Judge、标量RM)及部分公开模型(如Gemini-1.5-Pro、Claude-3.5-sonnet) [28] - 推理时扩展性能优于训练时扩展,验证方法有效性 [28] 行业动态与竞争 - DeepSeek发布新论文后,OpenAI迅速调整产品计划,显示行业技术竞争加剧 [8] - 奥特曼借机宣传两本参与著作,涉及个人传记及OpenAI发展史 [29]