Workflow
DeepSeek R1幻觉率降低,用户喊话:想要R2
第一财经·2025-05-29 23:13

DeepSeek-R1模型更新 - 公司发布R1模型更新,重点提升深度思考能力、减少幻觉并优化创意写作[2] - 新版模型在数学、编程与通用逻辑基准测评中表现国内领先,接近国际顶尖模型如o3与Gemini-2.5-Pro[9] - 幻觉率降低45%-50%,旧版模型幻觉率为21%,在SuperCLUE中文大模型测评中排名第五[9][10] 性能提升与优化 - 在AIME 2025数学测试中准确率从70%提升至87.5%[12] - 优化议论文、小说等文体输出,生成更长且结构更完整的内容[12] - 代码能力显著提升,在Live CodeBench中性能接近OpenAI的o3-high模型[12] 技术参数与开源 - 模型参数为685B,开源版本上下文长度128K,网页端/API支持64K[13] - 仍基于2024年12月发布的DeepSeek V3 Base模型,通过增加算力提升推理能力[12][13] - 开源权重采用MIT License,允许用户自由使用与二次训练[13] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,猜测公司可能因基准测试未超越o3而暂缓发布[13] - 行业关注基座模型竞争,公司未回应外界猜测,可能优先更新V4模型[13] - SuperCLUE测评显示推理模型平均幻觉率22.95%,非推理模型为13.52%[11]