Workflow
开源驱动创新
icon
搜索文档
等不来DeepSeek-R2的246天:梁文锋的“三重困境”与“三重挑战”
36氪· 2025-09-23 18:13
核心观点 - DeepSeek-V3.1-Terminus版本发布 主要针对用户反馈问题改进 提升模型稳定性与一致性 [1] - 市场对DeepSeek-R2模型发布预期持续落空 自R1发布后246天内出现至少10次发布传言 反映公司面临技术、战略与市场竞争的多重压力 [2][5][6] - 公司通过开源策略推动技术普惠 开源包括通用模型V3.0324、多模态文生图模型Janus-Pro及底层工具链 但核心产品R2延迟暴露生态短板 [8][9][15] 技术更新与产品迭代 - DeepSeek-V3.1-Terminus版本更新 非例行迭代 重点改进用户反馈问题 提升稳定性与一致性 [1] - 开源通用模型DeepSeek-V3.0324 API成本为GPT-4的1/14 大幅降低使用成本 [8] - 开源多模态文生图模型Janus-Pro 但未在行业掀起波浪 [13][14] - 开源工具链包括FlashMLA解码内核、DeepGEMM矩阵运算库 推理速度提升约30% 并支持华为昇腾平台 [9] 市场预期与竞争环境 - 市场对DeepSeek-R2预期高涨 自2025年2月起多次传言发布 包括5月初、3月17日等 但均未实现 [5][6] - 竞争对手阿里巴巴通义千问、百度文心大模型已完成多轮功能迭代和模型升级 [6] - 公司估值因R1成功水涨船高 但R2延迟发布消耗用户耐心 导致市场预期管理失焦 [5][6][11] 技术挑战与算力限制 - R2延迟因技术突破难度大 需实现碾压级优势 但内部测试未达颠覆性提升 [6][11] - 算力供应问题突出 尝试迁移至华为昇腾芯片遇性能瓶颈和不稳定 被迫切回NVIDIA平台 [11] - 模型面临"幻觉"问题 在创意和事实性内容上表现不佳 影响用户信任 [15] 战略布局与生态构建 - 公司构建全栈开源技术体系 覆盖底层模型到上层工具链 推动国产AI算力落地 [8][9] - 缺乏内容生态优势 依赖外部数据集 无法像百度、字节跳动那样通过自有平台产生实时数据 [15] - 多模态能力缺位 技术路线单一 主要集中在文本和代码领域 限制商业化想象空间 [13][14] 行业影响与公司定位 - DeepSeek-R1开源策略降低AI技术应用成本 打破海外厂商垄断 推动行业创新 [17] - 公司面临创新者窘境 需在技术极致与市场时机间权衡 R2发布决策复杂化 [16] - 当前困境反映国内AI公司普遍挑战 包括技术瓶颈、战略短板和激烈竞争 [17]