AI编程大战
搜索文档
DeepSeek V4基准测试泄露?消息疑似为假
新浪财经· 2026-02-16 16:48
核心观点 - 网络流传DeepSeek V4模型在多项基准测试中表现惊人,据称超越了Claude Opus 4.5和GPT-5.2等顶尖闭源模型,并可能以极低成本在近期发布,引发行业高度关注 [1] - 流传的基准测试数据被多方质疑为伪造,至少有两个基准测试的可信度不高,但这从侧面反映了市场对DeepSeek模型的高度期待 [2] 模型性能传闻 - 据泄露信息,DeepSeek V4在SWE-bench Verified上取得了83.7%的分数,超过了Claude Opus 4.5的80.9%和GPT-5.2的80% [1] - 传闻称该模型拥有100万+的上下文长度,并结合Engram记忆机制,实现了全仓库级推理能力 [1] - 模型据称在HumanEval、SWE_bench、上下文长度和成本等多个维度刷新成绩 [1] 发布与成本传闻 - 模型预计发布时间为2月17日(春节) [1] - 据称其成本比OpenAI的模型便宜20到40倍 [1] - 若传闻属实,该模型将可能改变行业游戏规则,成为首个能与顶尖闭源模型匹敌甚至超越的模型 [1] 数据真实性争议 - 流传的基准测试数据被怀疑是假的,例如在官方评分系统下,模型分数不可能达到99.4%,最高只能是99.2%或100% [2] - 研究机构Epoch AI确认,关于FrontierMath的数据是伪造的,因为仅有他们和OpenAI有权对该数据集进行评估 [2] - 至少有两个基准测试的数据被打假,证明这些流传图片的可信度不高 [2] 市场情绪与影响 - 即便数据被证实为伪造,这种夸大其词的泄露现象本身也被视为DeepSeek在市场上取得成功的标志,反映了其深得人心 [2] - 相关传闻在AI圈内引发震动,并在全网疯狂刷屏 [1]