见证历史！DeepSeek 跃居全球第二 AI 实验室，R1 登顶开源王座，R2 全网催更

模型性能升级 - DeepSeek-R1-0528在数学、编程、通用逻辑性能上媲美最强o3和Gemini 2.5 Pro [1][2] - 在AIME 2025测试中准确率从70%提升至87.5% [16] - MMLU-Pro (EM)得分从84.0提升至85.0，GPQA-Diamond (Pass@1)从71.5提升至81.0 [17] 技术优化亮点 - 幻觉率降低45%-50%，尤其在改写润色、总结摘要等场景表现更可靠 [24][25] - 支持JSON输出和函数调用，工具调用能力在Tau-Bench测评达airline 53.5%/retail 63.9% [7][31] - 前端代码生成能力增强，可快速生成完整应用（如单词复习卡片APP） [33][34] 开源模型突破 - 基于Qwen3-8B Base微调的DeepSeek-R1-0528-Qwen3-8B性能超越Qwen3-235B，参数仅为其1/30 [36][38] - 在AIME 2024测试中得分86.0，超越Gemini-2.5-Flash的82.3 [39][40] - 数学性能强于Phi-4 14B，与Qwen3-235B相当 [37][39] 行业地位提升 - DeepSeek成为全球第二大AI实验室，开源模型领导者 [9][44] - 智能指数从60分跃升至68分，进步幅度与OpenAI o1到o3相当 [46] - 性能超越xAI Grok 3 mini、Meta Llama 4 Maverick等，与Gemini 2.5 Pro并驾齐驱 [47] 训练与基准表现 - 基于DeepSeek V3 Base训练，后训练阶段增加计算资源与算法优化 [14] - 在AIME测试中平均token消耗从12K增至23K，Pass@2得分达70.7%与Claude 4 Opus相当 [18] - Codeforces-Div1评分从1230提升至1930，SWE Verified解决率从49.2%提升至57.6% [17]