
报告行业投资评级 - 计算机行业投资评级为增持(维持) [8] 报告的核心观点 - DeepSeek团队新论文引入SPCT方法,推出DeepSeek GRM模型,带来推理阶段新Scaling方法,或暗示DeepSeek R2技术路径,模型迭代加速可期 [2] - SPCT方法拓展推理Scaling路径,提高强化学习质量,为大模型算法迭代提供启发 [3] - DeepSeek GRM-27B以27B参数媲美621B参数R1的性能,证明推理阶段新探索有望拓展模型边界 [4] - DeepSeek GRM模型压缩硬件需求,降低本地化部署成本,利好端侧部署与端侧AI进展 [5] - DeepSeek R2有望近1 - 2月内发布,GRM模型发布或是其算法创新雏形,建议关注算法创新带来的模型迭代加速 [6] 根据相关目录分别进行总结 DeepSeek新论文及模型情况 - DeepSeek团队新论文《Inference-Time Scaling for Generalist Reward Modeling》发布,引入SPCT方法,推出DeepSeek GRM模型,27B参数能跑出目前R1模型671B参数相当性能 [2] SPCT方法优势 - 强化学习在一般领域难获LLMs准确奖励信号,SPCT方法可自适应生成评判原则并评价,提高强化学习质量,拓展推理Scaling路径 [3] DeepSeek GRM模型性能 - DeepSeek GRM-27B在多个综合奖励模型基准测试中优于现有方法和模型,达到与DeepSeek R1(621B参数)、GPT - 4o相当效果;SPCT采用双循环结构,R1单一线性模式会积累错误;推理阶段应用SPCT方法扩展策略性能更优 [4] 硬件消耗与部署情况 - DeepSeek GRM模型采用128块A100 - 80G GPU训练,成本为R1的1/6;推理阶段降低算力与显存需求,能耗为R1模型的17%左右;有望在端侧设备部署,精度优化后显存需求理论上可被消费级显卡满足 [5] R2模型展望 - 预训练阶段Scaling Law放缓,算法优化成各大厂追求方向;DeepSeek R2有望近1 - 2月内发布,GRM模型发布或是其算法创新雏形 [6]