AI编程大战 - 财报，业绩电话会，研报，新闻 - Reportify

AI编程大战

搜索文档

DeepSeek V4基准测试泄露？消息疑似为假

新浪财经· 2026-02-16 16:48

核心观点 - 网络流传DeepSeek V4模型在多项基准测试中表现惊人，据称超越了Claude Opus 4.5和GPT-5.2等顶尖闭源模型，并可能以极低成本在近期发布，引发行业高度关注 [1] - 流传的基准测试数据被多方质疑为伪造，至少有两个基准测试的可信度不高，但这从侧面反映了市场对DeepSeek模型的高度期待 [2] 模型性能传闻 - 据泄露信息，DeepSeek V4在SWE-bench Verified上取得了83.7%的分数，超过了Claude Opus 4.5的80.9%和GPT-5.2的80% [1] - 传闻称该模型拥有100万+的上下文长度，并结合Engram记忆机制，实现了全仓库级推理能力 [1] - 模型据称在HumanEval、SWE_bench、上下文长度和成本等多个维度刷新成绩 [1] 发布与成本传闻 - 模型预计发布时间为2月17日（春节） [1] - 据称其成本比OpenAI的模型便宜20到40倍 [1] - 若传闻属实，该模型将可能改变行业游戏规则，成为首个能与顶尖闭源模型匹敌甚至超越的模型 [1] 数据真实性争议 - 流传的基准测试数据被怀疑是假的，例如在官方评分系统下，模型分数不可能达到99.4%，最高只能是99.2%或100% [2] - 研究机构Epoch AI确认，关于FrontierMath的数据是伪造的，因为仅有他们和OpenAI有权对该数据集进行评估 [2] - 至少有两个基准测试的数据被打假，证明这些流传图片的可信度不高 [2] 市场情绪与影响 - 即便数据被证实为伪造，这种夸大其词的泄露现象本身也被视为DeepSeek在市场上取得成功的标志，反映了其深得人心 [2] - 相关传闻在AI圈内引发震动，并在全网疯狂刷屏 [1]

Seek .(US:SKLTY)

全仓库级推理能力

Claude Opus 4.5

全仓库级推理能力

Claude Opus 4.5