Workflow
DeepSeek V3“小版本升级”实测堪比V3.5,非推理模型也有“啊哈时刻”,7米甘蔗过2米门想通了
量子位·2025-03-25 08:59

DeepSeek V3-0324升级核心亮点 - 官方称为"小版本升级"但实测性能提升显著,在4维空间超立方体等复杂测试中表现优异[2][3][4] - 编程能力达到Claude 3.7 Sonnet同级水平,可单句提示词生成带自适应布局与动效的完整产品着陆页[5] - 在开发者Xeophon的内部Benchmark中所有指标大幅提升,超越Sonnet 3.5成为最佳非推理模型[6][8][9] 技术能力突破 - 非推理模型展现类人思考能力:具备问题分解、自主回溯纠错机制,在"7米甘蔗过2米门"测试中通过三维空间解法突破二维思维局限[12][13][16][26][27] - 出现类似DeepSeek-R1的"啊哈时刻",解题过程中混合中英文思考并最终发现隐藏条件[16][17][21] - 保持671B参数MoE架构,权重文件总计688GB,与初代V3规模一致[29] 开发者生态与商业化 - 继续采用MIT开源协议,权重文件已火速上线HuggingFace[28] - 支持官网、官方APP(关闭深度思考模式)、HuggingFace等多渠道体验[30] - 可参与大模型竞技场PK,但投票结果需等待[31] - 社区高度关注后续R2版本进展[32] 性能基准表现 - 在Xeophon测试中编码能力(Python/Bash)三项指标(Pass@5/Average Score/5/5一致性)全面领先竞品[11] - 非推理类任务处理能力显著提升,包括数学谜题和空间几何问题[14][15][19][25]