Workflow
中文大模型
icon
搜索文档
DeepSeek新版R1模型实际性能如何?第三方评测来了
南方都市报· 2025-06-05 20:26
模型性能提升 - 新版R1模型总体表现超过OpenAI的o3模型,但相比o4-mini(high)和Gemini 2 5 Pro Preview 05-06仍有差距 [1] - 新版R1模型在SuperCLUE测评中总分63 55分,比旧版提升1 61分,排名第四 [2] - 新版R1模型在数学推理能力测试中准确率从70%提升至87 5% [1] 技术优化与改进 - 新版R1模型基于DeepSeek V3基座,通过增加算力投入提升了思维深度与推理能力 [1] - 新版R1模型在数学、编程与通用逻辑等多个基准测评中领先国内其他模型 [1] - 新版R1模型针对"幻觉"问题优化,幻觉率降低45%-50% [4] 测评数据对比 - 新版R1模型指令遵循能力得分48 46分,比旧版高17 09分,但仍低于o3(66 95分)和o4-mini(high)(68 07分) [4] - 新版R1模型中文幻觉率降至13 86%,下降7 16个百分点,但相比豆包doubao-1 5-pro-32k(4 11%)仍有差距 [5] - 文本摘要和阅读理解任务的幻觉率优化最显著,分别降低9 27%和14 49% [5] 国际模型对比 - o4-mini(high)在SuperCLUE测评中得分最高(70 51分) [2] - Gemini 2 5 Pro preview 05-06得分66 48分,排名第二 [2]