SPCT方法 - 财报，业绩电话会，研报，新闻 - Reportify

SPCT方法

搜索文档

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

量子位· 2025-04-05 12:45

OpenAI产品计划调整 - OpenAI计划改变发布顺序，将在几周后先发布o3和o4-mini模型，而非直接推出GPT-5 [3] - GPT-5预计推迟至几个月后发布，效果将优于最初预期 [4] - 推迟原因是技术整合难度超出预期，需确保足够能力支持需求 [6] DeepSeek新论文技术突破 - 论文提出SPCT方法（Self-Principled Critique Tuning），首次通过在线强化学习优化原则和批判生成，实现推理时扩展 [10][12] - 研究针对现有奖励模型（RM）在通用领域的局限性，解决灵活性和准确性两大挑战 [14][16][17] - SPCT包含三大核心技术：生成式奖励模型（GRM）、基于规则的在线RL训练、推理时扩展技术（采样投票+辅助模型过滤） [21][22][23][24] 性能表现与行业对比 - DeepSeek-GRM-27B在Reward Bench基准准确率从86%提升至90.4%（32次采样） [27] - 在PPE、RMB等综合评估中超越基线方法（如LLM-as-a-Judge、标量RM）及部分公开模型（如Gemini-1.5-Pro、Claude-3.5-sonnet） [28] - 推理时扩展性能优于训练时扩展，验证方法有效性 [28] 行业动态与竞争 - DeepSeek发布新论文后，OpenAI迅速调整产品计划，显示行业技术竞争加剧 [8] - 奥特曼借机宣传两本参与著作，涉及个人传记及OpenAI发展史 [29]

推理时扩展

Artificial Intelligence

DeepSeek-GRM-27B

推理时扩展

Artificial Intelligence

DeepSeek-GRM-27B