Workflow
Model hallucination
icon
搜索文档
DeepSeek-R1 重磅更新:幻觉降低近 50%,深度思考、推理能力提升
Founder Park· 2025-05-29 22:53
DeepSeek-R1-0528 模型升级 - 最新版本 DeepSeek-R1-0528 参数量高达 6850 亿,思维深度和推理能力显著提升 [1] - 模型在数学、编程与通用逻辑等多个基准测评中表现亮眼,整体表现接近 OpenAI o3 与 Gemini-2.5-Pro [1][6] - 在 AIME 2024 数学竞赛 pass@1 中得分 91.4,接近 OpenAI o3 的 91.6 和 Gemini-2.5-Pro 的 90.8 [2][7] 基准测试表现 - AIME 2025 数学竞赛 pass@1 得分 87.5,较旧版提升 17.5 个百分点(旧版 70.0)[8] - GPQA Diamond 科学测试 pass@1 得分 81.0,与 Gemini-2.5-Pro 的 83.0 接近 [2][7] - LiveCodeBench 代码生成 pass@1 得分 73.3,优于 Gemini-2.5-Pro 的 71.8 [2][7] - Humanity's Last Exam 推理与百科知识 pass@1 得分 17.7,优于 Qwen3-235B 的 11.75 [2][7] 模型优化与能力提升 - 幻觉率降低 45~50%,在改写润色、总结摘要、阅读理解等场景表现更可靠 [3][13] - 在 AIME 2025 测试中,新版模型每题使用 23K tokens(旧版 12K),思维深度显著增强 [8] - 创意写作能力优化,可输出更长篇幅、结构更完整的议论文、小说、散文 [13] - 支持工具调用,Tau-Bench 测评成绩为 airline 53.5% / retail 63.9%,与 OpenAI o1-high 相当 [12] 模型开源与 API 更新 - 开源 DeepSeek-R1-0528 模型权重,提供 Model Scope 和 Huggingface 下载链接 [16][17] - API 同步更新,支持 Function Calling 和 JsonOutput,调用方式不变 [17] - 蒸馏 DeepSeek-R1-0528 的思维链训练出 8B 模型,AIME 2024 测试表现超越 Qwen3-8B(+10.0%)[8][10] 应用与生态 - 模型已在网页端、APP 和小程序上线,用户可通过「深度思考」功能体验 [4] - 在前端代码生成、角色扮演等领域能力均有更新和提升 [15]