不愧是DeepSeek！V4一手实测：推理编程能力给到夯，熟悉的D老师也回来了

DeepSeek-V4模型发布概览 - 公司发布全新DeepSeek-V4模型，包含主打性能的V4 Pro和更轻更快的Flash两个版本，两者均开源[2] - 模型在Agent能力、世界知识和推理性能上实现国内与开源领域的领先，上下文窗口从128K大幅提升至1M[4][13] 模型技术规格与性能基准 - V4 Pro模型参数达1.6万亿，激活参数为490亿，预训练数据达33万亿tokens[3] - V4 Flash模型参数为2840亿，激活参数为130亿，预训练数据为32万亿tokens[3] - 在MMLU-Pro基准测试中，V4 Pro得分为87.5，V4 Flash为86.2[16] - 在中文SimpleQA测试中，V4 Pro以84.4的得分领先于GPT-5.4的76.8和Opus-4.6的76.2[16] - 在Codeforces编程竞赛评级中，V4 Pro达到3206分，超越GPT-5.4的3168分和Gemini-3.1-Pro的3052分[16] - 在长上下文1M的MRCR测试中，V4 Pro得分为83.5，高于Gemini-3.1-Pro的76.3，但低于Opus-4.6的92.9[16] Agentic与编程能力实测 - 在Agentic编程能力评测中，V4 Pro达到当前开源模型最佳水平[14] - 实测中，模型成功构建了《怪奇物语》主题的完整网站，包含六大板块[17][21] - 模型能够理解并分析“十二星座专属庇护所”等短视频热点，自动生成结构化的研究报告[22][24] - 在“鹈鹕骑自行车”动态SVG任务中，V4 Flash模式在画面呈现和动态感上优于Pro模式[26][27] - 模型能够生成功能完整的在线小游戏，如“打地鼠”和“宠物养成”游戏，并自动补全游戏规则、UI和交互系统[31][34][38] 推理与知识能力评估 - 在数学、STEM、竞赛型代码测评中，V4 Pro超越了所有已公开评测的开源模型[15][40] - 在“镜子举手”推理测试中，V4正确作答，而对比模型ChatGPT-5.5则出现错误[42][43] - 在“亲生父母结婚”的陷阱题中，ChatGPT-5.5准确识别陷阱，而V4虽未完全答对但展现了详尽的共情回应[44][45][46] - 在涉及遗传学的“绝望的父亲”推理题中，经过提示，V4最终给出了基于红绿色盲遗传规律的正确解答[48][50] - 模型展现出良好的审题能力，成功处理了“薛定谔的死猫”和“农夫过河”等修改版经典问题[53][54][57] 模型服务与市场定位 - V4 Flash模型由于参数更小，能提供更快捷、经济的API服务[30] - 第三方博主测试指出，DeepSeek-V4能力比肩GPT和Opus，且成本更低[9] - 模型在情感回应上有所改进，相较于之前版本“机械理性”的风格，V4迭代后情感表现更为充盈[63][66]