Workflow
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Seek .Seek .(US:SKLTY) 第一财经·2025-05-29 22:10

模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩,接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升,在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%,非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化,能输出篇幅更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B,开源版本上下文长度128K(网页端/App/API提供64K),仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座,后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布,或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续,DeepSeek更新后行业关注下一家突破者 [19]