模型性能升级 - DeepSeek-R1-0528在数学、编程、通用逻辑性能上媲美最强o3和Gemini 2.5 Pro [1][2] - 在AIME 2025测试中准确率从70%提升至87.5% [16] - MMLU-Pro (EM)得分从84.0提升至85.0,GPQA-Diamond (Pass@1)从71.5提升至81.0 [17] 技术优化亮点 - 幻觉率降低45%-50%,尤其在改写润色、总结摘要等场景表现更可靠 [24][25] - 支持JSON输出和函数调用,工具调用能力在Tau-Bench测评达airline 53.5%/retail 63.9% [7][31] - 前端代码生成能力增强,可快速生成完整应用(如单词复习卡片APP) [33][34] 开源模型突破 - 基于Qwen3-8B Base微调的DeepSeek-R1-0528-Qwen3-8B性能超越Qwen3-235B,参数仅为其1/30 [36][38] - 在AIME 2024测试中得分86.0,超越Gemini-2.5-Flash的82.3 [39][40] - 数学性能强于Phi-4 14B,与Qwen3-235B相当 [37][39] 行业地位提升 - DeepSeek成为全球第二大AI实验室,开源模型领导者 [9][44] - 智能指数从60分跃升至68分,进步幅度与OpenAI o1到o3相当 [46] - 性能超越xAI Grok 3 mini、Meta Llama 4 Maverick等,与Gemini 2.5 Pro并驾齐驱 [47] 训练与基准表现 - 基于DeepSeek V3 Base训练,后训练阶段增加计算资源与算法优化 [14] - 在AIME测试中平均token消耗从12K增至23K,Pass@2得分达70.7%与Claude 4 Opus相当 [18] - Codeforces-Div1评分从1230提升至1930,SWE Verified解决率从49.2%提升至57.6% [17]
见证历史!DeepSeek 跃居全球第二 AI 实验室,R1 登顶开源王座,R2 全网催更
程序员的那些事·2025-06-01 10:04