DeepSeek GRM - 财报，业绩电话会，研报，新闻

DeepSeek GRM

搜索文档

华泰证券· 2025-05-07 15:25

报告行业投资评级 - 计算机行业投资评级为增持（维持） [8] 报告的核心观点 - DeepSeek团队新论文引入SPCT方法，推出DeepSeek GRM模型，带来推理阶段新Scaling方法，或暗示DeepSeek R2技术路径，模型迭代加速可期 [2] - SPCT方法拓展推理Scaling路径，提高强化学习质量，为大模型算法迭代提供启发 [3] - DeepSeek GRM-27B以27B参数媲美621B参数R1的性能，证明推理阶段新探索有望拓展模型边界 [4] - DeepSeek GRM模型压缩硬件需求，降低本地化部署成本，利好端侧部署与端侧AI进展 [5] - DeepSeek R2有望近1 - 2月内发布，GRM模型发布或是其算法创新雏形，建议关注算法创新带来的模型迭代加速 [6] 根据相关目录分别进行总结 DeepSeek新论文及模型情况 - DeepSeek团队新论文《Inference-Time Scaling for Generalist Reward Modeling》发布，引入SPCT方法，推出DeepSeek GRM模型，27B参数能跑出目前R1模型671B参数相当性能 [2] SPCT方法优势 - 强化学习在一般领域难获LLMs准确奖励信号，SPCT方法可自适应生成评判原则并评价，提高强化学习质量，拓展推理Scaling路径 [3] DeepSeek GRM模型性能 - DeepSeek GRM-27B在多个综合奖励模型基准测试中优于现有方法和模型，达到与DeepSeek R1（621B参数）、GPT - 4o相当效果；SPCT采用双循环结构，R1单一线性模式会积累错误；推理阶段应用SPCT方法扩展策略性能更优 [4] 硬件消耗与部署情况 - DeepSeek GRM模型采用128块A100 - 80G GPU训练，成本为R1的1/6；推理阶段降低算力与显存需求，能耗为R1模型的17%左右；有望在端侧设备部署，精度优化后显存需求理论上可被消费级显卡满足 [5] R2模型展望 - 预训练阶段Scaling Law放缓，算法优化成各大厂追求方向；DeepSeek R2有望近1 - 2月内发布，GRM模型发布或是其算法创新雏形 [6]