Workflow
在线强化学习
icon
搜索文档
DeepSeek-R2为什么还没发?
猿大侠· 2025-06-27 22:57
DeepSeek-R2延迟发布 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺而多次推迟发布 [1][2][4] - 研发进程缓慢主因包括英伟达H20芯片供应不足 [2] - R1训练消耗3万块H20、1万块H800和1万块H100芯片 [3] R2研发背景与时间线 - 公众对R2的期待始于2023年12月DeepSeek-V3发布及2024年3月V3-0324升级 [5][6] - 4月公司发布推理Scaling Law论文,引发R2即将发布的猜测 [11][12] - 4月底泄露参数显示R2或达1.2T参数、5.2PB训练数据 [17] - 5月发布解决硬件瓶颈的论文及升级版R1-0528,性能接近OpenAI o3-high [20][21][23][24] 技术进展与市场反应 - V3-0324升级实际效果显著,超出官方描述的"小版本升级" [6] - R1-0528在LiveCodeBench编程测试中表现优异,部分指标超越竞品 [24] - 网友推测R2需等待V4发布,因V3可能已达技术极限 [28][29] 算力资源挑战 - R2预计需要比R1更多的算力资源,H20芯片短缺直接影响研发进度 [3][4] - 公司通过论文公开V3训练和推理中解决硬件瓶颈的方法 [21]
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 15:08
核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难,在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作,显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%,超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换:将确定性 ODE 转换为随机 SDE,为 RL 提供探索空间 [8][9] - 去噪步数减负:训练时减少生成步数(40 步减到 10 步),推理时保持完整步数,提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升:GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误:视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步,图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]