实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作...还是算了吧

模型发布与性能 - DeepSeek-V3.1-Base模型正式上线并开源,拥有6850亿参数,支持BF16、F8_E4M3、F32三种张量类型,以Safetensors格式发布,推理效率优化,上下文窗口拓展至128k [1] - 在编程基准测试Aider Polyglot中得分71.6%,表现最佳的开源模型,击败Claude 4 Opus [5][6] - 长文本处理测试中成功从10万字文档中检索特定信息,并提供文学角度的补充建议 [3][4] 技术能力测试 - 编程任务测试显示模型能够处理复杂代码生成,包括物理特性模拟和交互式3D场景构建,如六边形小球弹跳程序和Three.js粒子星系 [6][8] - 数学问题解答逻辑清晰,步骤完整,准确解决牧场草量计算问题 [12][13][14] - 武器对比分析引入方差概念,评估伤害稳定性,超出简单平均计算 [16][17][18][19] 模型应用与创新 - 在Hugging Face平台趋势榜排名第二,接近登顶,显示社区高度关注 [79] - 官方移除深度思考模式中"R1"标识,新增原生"search token"支持,优化搜索功能 [79] - 模型生成内容涵盖创意写作,如冰岛蚊子发布会故事,但存在信息密度过高和意象堆砌问题 [53][56][57][65] 行业比较与定位 - 模型在多项测试中表现优于GPT-5和Claude 4 Opus,特别是在编程和复杂问题解决领域 [5][26] - 社区和行业领袖如Hugging Face CEO公开关注模型发展,强调其技术影响力 [79] - 模型开源发布未附带详细模型卡,但技术细节和性能数据已通过测试验证 [1][81]