Workflow
HiFloat8 (HiF8)
icon
搜索文档
究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
机器之心· 2025-08-22 12:01
机器之心报道 Deepseek V3.1 的很多基准测试结果已经陆续在 SWE-bench 等榜单上出现。此外,新模型在 Aider 多语言编程基准测试中得分超越了 Anthropic 的 Claude 4 Opus,同时还有显著的成本优势。 | Benchmarks | DeepSeek-V3.1 | DeepSeek- | DeepSeek- | | --- | --- | --- | --- | | | | V3-0324 | R1-0528 | | SWE-bench Verified | 66.0 | 45.4 | 44.6 | | SWE-bench | 54.5 | 29.3 | 30.5 | | Multilingual | | | | | Terminal-Bench | 31.3 | 13.3 | 5.7 | 与 DeepSeek 自己此前的模型相比,V3.1 的性能提升显著,它解决问题需要更多步骤,但经过了思维链压缩训练,在任务表现持平的情况下,token 消耗 量可以减少 20-50%,因此有效成本与 GPT-5 mini 相当。 除了模型性能的提升之外, 值得关注的是,DeepSee ...