DeepSeek，该卸下扫地僧的枷锁了

公司核心叙事与市场定位 - 公司常被外界比作“扫地僧”，意指其出身边缘（对冲基金背景）、多年隐匿、一鸣惊人、技法精绝、胸怀坦荡的形象[3][6][22] - 公司以挑战者姿态进入市场，在行业格局看似已定时，通过核心评测与主流模型正面竞争并表现出色[6][7] - 市场对公司的关注远超其体量，舆论呈现两极分化，既被寄予厚望也被严格审视，这种关注本身已成为一种负担[24][26][28] 技术突破与产品演进 - 2023年11月发布首个开源代码大模型DeepSeek Coder，后续的67B语言模型在多项评测中超过LLaMA2 70B，部分表现优于GPT-3.5[13] - 2024年5月7日发布V2模型，采用MoE架构（总参数2360亿，激活参数210亿）和MLA注意力机制，实现了效果、速度与成本的优化[13][14] - V2的API定价引发行业价格战，定价为每百万token输入1元、输出2元，远低于当时GPT-4 Turbo（其70倍）和Llama3 70B（其7倍），导致国内多家大厂跟进降价，最高降幅达97%[15] - 公司推出主打深度推理的R1模型，在数学、代码、逻辑等测试维度上与OpenAI o1不相上下，采用GRPO强化学习方法进行训练[19] - 公司坚持开源策略，公开R1的模型权重、技术论文和训练细节，打破了巨头对前沿模型的垄断，赋能全球开发者[21][22] - 公司以极小的团队规模实现突破，V2项目由139名工程师和研究人员完成，远少于OpenAI的1200人和Anthropic的500人[19] 近期挑战与战略转向 - V4模型发布一再推迟，外界出现质疑声音，部分原因在于公司将技术栈迁移至国产AI芯片，面临工具链不成熟、接口差异大、需重构分布式训练框架等挑战[32][35][36] - 2025年3月29日，公司服务器发生长达近13小时的中断，暴露了其在运维监控、应急预案和灾备机制上的短板[33] - 公司技术重心向长期记忆能力突破和原生多模态架构融合转移，旨在让文字与视觉在预训练阶段就深度融合[36] - 公司创始人梁文锋的注意力转向技术的商业落地与产品化，积极招募Agent领域的产品经理，并启动公司估值，为员工期权提供明确锚点[36] - 公司正从纯粹的AGI研究者向成熟的科技公司转型，开始面对商业闭环、生态建设和可持续收入来源等现实问题[36][37] 行业影响与未来展望 - 公司的定价策略直接点燃了国内大模型市场持续大半年的价格战，被业内称为“价格屠夫”[15][16] - 公司的开源行动推动了AI模型从少数机构专属游戏向全球开发者共同参与的基础设施建设转变[43] - 国内AI行业竞争激烈，各家公司均在多模态、Agent生态、算力布局等赛道上发力，行业呈现多元化发展态势[45] - 公司需要从创造奇迹的挑战者转变为稳定交付的基础设施提供者，即便V4没有实现“断崖式领先”，只要成为一款能力均衡的“水桶机”，从产业角度看仍是巨大成功[39][40] - 公司对外沟通姿态趋于克制，进行预期管理，有意卸下“扫地僧”这一带来过高期望的标签[40][41]