DeepSeek-V4模型发布概览 - 公司发布全新DeepSeek-V4模型,包含主打性能的V4 Pro和更轻更快的Flash两个版本,两者均开源[2] - 模型在Agent能力、世界知识和推理性能上实现国内与开源领域的领先,上下文窗口从128K大幅提升至1M[4][13] 模型技术规格与性能基准 - V4 Pro模型参数达1.6万亿,激活参数为490亿,预训练数据达33万亿tokens[3] - V4 Flash模型参数为2840亿,激活参数为130亿,预训练数据为32万亿tokens[3] - 在MMLU-Pro基准测试中,V4 Pro得分为87.5,V4 Flash为86.2[16] - 在中文SimpleQA测试中,V4 Pro以84.4的得分领先于GPT-5.4的76.8和Opus-4.6的76.2[16] - 在Codeforces编程竞赛评级中,V4 Pro达到3206分,超越GPT-5.4的3168分和Gemini-3.1-Pro的3052分[16] - 在长上下文1M的MRCR测试中,V4 Pro得分为83.5,高于Gemini-3.1-Pro的76.3,但低于Opus-4.6的92.9[16] Agentic与编程能力实测 - 在Agentic编程能力评测中,V4 Pro达到当前开源模型最佳水平[14] - 实测中,模型成功构建了《怪奇物语》主题的完整网站,包含六大板块[17][21] - 模型能够理解并分析“十二星座专属庇护所”等短视频热点,自动生成结构化的研究报告[22][24] - 在“鹈鹕骑自行车”动态SVG任务中,V4 Flash模式在画面呈现和动态感上优于Pro模式[26][27] - 模型能够生成功能完整的在线小游戏,如“打地鼠”和“宠物养成”游戏,并自动补全游戏规则、UI和交互系统[31][34][38] 推理与知识能力评估 - 在数学、STEM、竞赛型代码测评中,V4 Pro超越了所有已公开评测的开源模型[15][40] - 在“镜子举手”推理测试中,V4正确作答,而对比模型ChatGPT-5.5则出现错误[42][43] - 在“亲生父母结婚”的陷阱题中,ChatGPT-5.5准确识别陷阱,而V4虽未完全答对但展现了详尽的共情回应[44][45][46] - 在涉及遗传学的“绝望的父亲”推理题中,经过提示,V4最终给出了基于红绿色盲遗传规律的正确解答[48][50] - 模型展现出良好的审题能力,成功处理了“薛定谔的死猫”和“农夫过河”等修改版经典问题[53][54][57] 模型服务与市场定位 - V4 Flash模型由于参数更小,能提供更快捷、经济的API服务[30] - 第三方博主测试指出,DeepSeek-V4能力比肩GPT和Opus,且成本更低[9] - 模型在情感回应上有所改进,相较于之前版本“机械理性”的风格,V4迭代后情感表现更为充盈[63][66]
不愧是DeepSeek!V4一手实测:推理编程能力给到夯,熟悉的D老师也回来了
量子位·2026-04-25 16:15