DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
量子位·2025-04-05 12:45
OpenAI产品计划调整 - OpenAI计划改变发布顺序,将在几周后先发布o3和o4-mini模型,而非直接推出GPT-5 [3] - GPT-5预计推迟至几个月后发布,效果将优于最初预期 [4] - 推迟原因是技术整合难度超出预期,需确保足够能力支持需求 [6] DeepSeek新论文技术突破 - 论文提出SPCT方法(Self-Principled Critique Tuning),首次通过在线强化学习优化原则和批判生成,实现推理时扩展 [10][12] - 研究针对现有奖励模型(RM)在通用领域的局限性,解决灵活性和准确性两大挑战 [14][16][17] - SPCT包含三大核心技术:生成式奖励模型(GRM)、基于规则的在线RL训练、推理时扩展技术(采样投票+辅助模型过滤) [21][22][23][24] 性能表现与行业对比 - DeepSeek-GRM-27B在Reward Bench基准准确率从86%提升至90.4%(32次采样) [27] - 在PPE、RMB等综合评估中超越基线方法(如LLM-as-a-Judge、标量RM)及部分公开模型(如Gemini-1.5-Pro、Claude-3.5-sonnet) [28] - 推理时扩展性能优于训练时扩展,验证方法有效性 [28] 行业动态与竞争 - DeepSeek发布新论文后,OpenAI迅速调整产品计划,显示行业技术竞争加剧 [8] - 奥特曼借机宣传两本参与著作,涉及个人传记及OpenAI发展史 [29]