Workflow
DeepSeek R1悄悄更新,用“小版本”干翻大模型
Seek .Seek .(US:SKLTY) 虎嗅·2025-05-29 17:52

模型升级与性能提升 - DeepSeek-R1-0528版本在编程能力上大幅提升,性能接近OpenAI o3-high水平,尤其在代码生成领域进入第一梯队 [7][8] - Extended NYT Connections基准测试得分从38.6提升至49.8,显示智能水平显著进步 [5] - 模型参数规模达671B,其中37B参数在推理过程中激活,保持164K上下文长度 [4] 技术特性与成本优势 - 新版本输入输出价格维持不变(输入$0.50/M tokens,输出$2.18/M tokens),成本效益突出 [4] - 采用MIT开源许可,支持商业用途,模型文件包含163个safetensors分卷(单个体积4.3-5.23GB) [42] - 支持fp8量化、工具调用(Supports Tools)和164K tokens长上下文处理 [4] 实际应用表现 - 在LiveCodeBench测试中总分73.4,接近o3-high(75.4),尤其在简单题(98.3)和中难度题(83.4)表现优异 [8] - 生成复杂动态动画能力突破:粒子效果模拟与Claude-4-sonnet相当,单次生成代码量达728行(对比Claude的542行) [9][11][12] - 全栈开发能力提升,可快速构建three.js 3D应用(如3D画廊、太阳系模拟器),响应时间仅14秒生成462行代码 [16][20][24][26] 行业趋势与竞争格局 - 小版本迭代策略成效显著,打破大版本号崇拜,通过持续优化实现性能对标头部竞品 [43][44] - 开源策略延续,模型性能与Claude 4形成直接竞争,尤其在编程领域威胁传统AI编码工具(如Cursor、Warp)市场地位 [7][21] - 思维链模式改变导致推理时间延长(如估算π/7耗时148秒),但输出精度和纠错能力提升 [37][39][40] 用户体验与设计改进 - 前端审美显著优化,能生成苹果官网风格网页,融合深空灰/银色调、悬浮动画等设计元素 [28][29] - 科技感UI设计超越Claude4,深色主题界面更具视觉冲击力 [32] - 交互功能增强,如3D太阳系模拟器支持行星点击获取信息,展示实时轨道物理模拟 [24]