Workflow
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻·2025-05-29 08:57

DeepSeek R1模型更新 - DeepSeek发布R1模型小版本试升级 更新内容包括语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面的强化 [1][2] - 用户测评显示模型理解能力显著提升 可制作交互动画展示激活参数 关键信息逻辑清晰 [3] - 编程能力大幅增强 可一次性生成1000多行无bug代码 性能媲美Claude 4 [4][5] DeepSeek-V3模型表现 - DeepSeek-V3-0324模型全面超越Claude-3.7-Sonnet 在数学和代码类评测中超过GPT-4.5 [6] - 新版DeepSeek-V3与Grok-3并列传统对话类模型榜首 推理任务表现突出 [6] - 性价比优势显著 输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277 且开源免费商用 [6][7] R1模型市场影响 - R1模型性能优于西方竞争对手 成本仅数百万美元 采用低版本英伟达芯片 [7] - R1的崛起引发全球科技股暴跌 市场质疑巨头高投入AI模型的必要性 [8] R2模型预期与进展 - R2原计划5月初发布 目标提升代码生成能力 支持多语言推理 [9] - 公司联合清华大学提出SPCT学习方法 构建DeepSeek-GRM系列模型 引入元奖励模型提升推理扩展性 [9] - 传闻R2将采用混合专家模型 参数量达1.2万亿 较R1提升约1倍 单位推理成本较GPT-4降低97.4% [10] - R2训练全程使用昇腾910B芯片集群 计算性能512 PetaFLOPS 芯片利用率82% 性能达A100集群的91% [10] 市场反应与猜测 - V3模型升级后公司热度下降 市场关注焦点转向R2发布 [9] - 社交媒体猜测R1小升级可能意味着R2尚未准备好 [11]