推理时扩展

搜索文档
DeepSeek-R2为什么还没发?
猿大侠· 2025-06-27 22:57
一水 发自 凹非寺 量子位 | 公众号 QbitAI 全网翘首以盼的 DeepSeek-R2 ,再次被曝推迟! 据The Information报道,由于DeepSeek CEO梁文锋始终对R2的表现不满意,因此R2迟迟未能发布。 此外,他们还援引两位国内知情人士的消息称,R2研发进程缓慢可能是由于 缺少英伟达H20芯片 。 要知道R1的训练总计耗费了3万块H20 (国内特供版) 、1万块H800和1万块H100。 所以在H20吃紧的情况下,预计耗费更多算力资源的R2难免受到波及。 事实上,这不是R2第一次被曝项目延期了,最早能追溯到今年4月—— 一览R2"难产"始末 仔细一梳理,原来人们对R2的期待, 早在V3新版本出来后就开始了 。 去年12月底,DeepSeek发布了至今被视为"性价比代表"的DeepSeek-V3模型。到了今年3月24日,官方发布公告称对V3进行了一次升级, 新版本代号为V3-0324。 首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。 虽然官方轻描淡写只说是"小版本升级",但很多人实测下来可一点也不小。 于是人们开始推测,在V3-0324已经取得明显进步的情况下, ...
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
量子位· 2025-04-05 12:45
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 有点意思。 这不 DeepSeek 前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想 是不是R2马上要来了 。 然鹅……奥特曼这边却发了一条"变卦"的消息: 计划改变:我们可能在几周之后 先发布o3和o4-mini 。 至于大家翘首以盼的 GPT-5 ,奥特曼表示: 将在几个月之后,而且效果会比我们最初设想的还要好。 至于原因,奥特曼也做出了解释。 大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。 咱就是说啊,现在真的是DeepSeek这边一有点声响,OpenAI那边就得有点动作来紧跟一下了。 DeepSeek新论文 在这个小插曲之后呢,我们还是把目光聚焦在DeepSeek这篇新论文身上。 这篇论文的名字叫做 Inference-Time Scaling for Generalist Reward Modeling ,由DeepSeek和清华大学共同提出。 这篇研究核心的亮点,就是提出了一个叫做 SPCT方法 (Self-Principled Critique Tuning)的方法—— ...