V4 发布前的 DeepSeek：特质、组织和梁文锋的独特目标

公司核心动态 - DeepSeek正处在一个变化的关口，自2025年下半年以来，已有数位核心成员离职，包括LLM核心作者王炳宣（加入腾讯）、OCR系列核心作者魏浩然、R1核心作者郭达雅，以及从幻方时期加入的老成员、多模态成果核心贡献者阮翀（加入元戎启行）[3] - 公司此前未进行融资，没有明确的公司估值，创始人梁文锋从2025年秋天起开始更多提及产品化和商业化，并需回应团队关于期权价值的疑问[4] - 公司人数已超过其母公司幻方，成为梁文锋管理过的最大组织，同时，备受期待的DeepSeek V4模型仍未正式发布，原预期在2026年2月中旬发布，现有可能推迟至4月[4] - 尽管有人离开，但更多人选择留下，团队并未出现成组流失的情况[4][22] 公司文化与组织管理 - 公司是全球范围内“不卷”的核心AI实验室，多数员工在下午6点至7点下班，早上不打卡，没有明确的绩效考核和截止时间[5][14] - 创始人梁文锋认为，一个人一天能高质量输出的时间很难超过6-8小时，加班疲劳下的判断会浪费宝贵的算力资源[5][14] - 组织极其扁平，在研究团队中只有梁文锋和其他研究员两个层级，梁文锋参与具体研究，在成果上署名为通讯作者[11] - 公司采用“交叉分工”的紧密协作模式，基模架构、Infra和数据等团队在模型训练定版阶段就共同参与讨论，团队周会向其他组开放[11][12] - 公司此前几乎不进行社会招聘，主要以应届生和实习生留任为主，在V3和R1之前，公司以约大厂1/10的人数、约1/2的人均工作时间跻身全球大模型第一梯队[14] 创始人梁文锋的风格与目标 - 梁文锋生活简单神秘，工作聚焦，几乎将所有时间投入少数关键事务，并深入细节，他本人参与最多的是基模架构团队[7][8][9] - 他不做多数初创公司CEO做的事，如常规融资，2023年曾因提出类似OpenAI与微软的“回报上限”投资要求而未获融资，此后不再主动接触投资人[9] - 梁文锋为DeepSeek设立了独特目标：一是追求大模型的智能上限；二是基于国产生态做大模型，投入国产GPU适配和基础软件替代（如用TileLang替代Triton）；三是进行“原创式创新”，探索大厂或其它创业公司不愿尝试的方向[20] - 他最在意的不仅是模型效果，还包括追求效果过程中那些更本质、原创的发现[21] 公司技术路线与研发重点 - 公司成功的关键之一是“力出一孔”，明确以语言模型为更高优先级，未投入多模态生成等热门方向，认为其不是智能的主线[9][18] - 2025年初V3和R1爆火后，公司继续专注研发，已公开的成果主要包括三大类：1) 效率优化，极致压榨GPU算力并改进注意力机制（如NSA、DSA）；2) 模型架构改进（如mHC、Engram）；3) “非主流”探索，如让模型以“看文字”方式理解文档的DeepSeek-OCR[15][16][20] - 公司内部还在进行更多尝试，包括持续学习、自主学习等，梁文锋在2025年还招募了神经科学和脑科学背景的顾问，探索更接近人脑的学习机制[16] - 在外部最受关注的Agent（智能体）竞争方向上，DeepSeek-V3.2强化了Agent能力，但整体迭代频次低于部分同行，根据OpenRouter数据，过去30天（2月24日-3月26日）其V3.2模型在OpenClaw应用调用量中排第12位[18][19] 面临的挑战与内部张力 - 公司“原创探索”和“生态建设”的目标，与业界普遍将“保持最强”视为第一优先级的目标并非完全一致[23] - 大模型发展到当前阶段，“强”和“原创性”的标准越来越模糊主观，基准测试分数已不能完全衡量模型水平，尤其在进入Agent竞争后，产品触手及带来的多样化数据变得更重要，而这正是DeepSeek此前投入较少的地方[23] - 前沿探索的不确定性与公司算力资源相对有限的事实，以及外界对公司能持续“碾压”的期待不完全匹配[23] - 外部竞争对手为DeepSeek成员开出了极具吸引力的薪酬，有猎头表示“翻2到3倍问题不大”，其他公司开出了“8位数（算股票或期权）总包”，同时，部分同行公司上市或计划上市，也让一些成员对公司未明确估值的期权产生疑问[21] 公司的调整与未来方向 - 梁文锋近期开始想办法给公司估值，以给团队成员更多确定的预期[24] - 公司将更多投入产品，在2026年3月中旬的招聘中，首次提及具体产品名称，招募Agent方向的“模型策略产品经理”，要求熟悉Claude Code、OpenClaw等知名Agent产品[24] - 公司将继续改变，但也会坚持其核心特质，梁文锋需要分辨噪音与信号，坚持该坚持的，改变要改变的[25]