公司核心动态 - DeepSeek正处在一个变化的关口,自2025年下半年以来,已有数位核心成员离职,包括LLM核心作者王炳宣(加入腾讯)、OCR系列核心作者魏浩然、R1核心作者郭达雅,以及从幻方时期加入的老成员、多模态成果核心贡献者阮翀(加入元戎启行)[3] - 公司此前未进行融资,没有明确的公司估值,创始人梁文锋从2025年秋天起开始更多提及产品化和商业化,并需回应团队关于期权价值的疑问[4] - 公司人数已超过其母公司幻方,成为梁文锋管理过的最大组织,同时,备受期待的DeepSeek V4模型仍未正式发布,原预期在2026年2月中旬发布,现有可能推迟至4月[4] - 尽管有人离开,但更多人选择留下,团队并未出现成组流失的情况[4][22] 公司文化与组织管理 - 公司是全球范围内“不卷”的核心AI实验室,多数员工在下午6点至7点下班,早上不打卡,没有明确的绩效考核和截止时间[5][14] - 创始人梁文锋认为,一个人一天能高质量输出的时间很难超过6-8小时,加班疲劳下的判断会浪费宝贵的算力资源[5][14] - 组织极其扁平,在研究团队中只有梁文锋和其他研究员两个层级,梁文锋参与具体研究,在成果上署名为通讯作者[11] - 公司采用“交叉分工”的紧密协作模式,基模架构、Infra和数据等团队在模型训练定版阶段就共同参与讨论,团队周会向其他组开放[11][12] - 公司此前几乎不进行社会招聘,主要以应届生和实习生留任为主,在V3和R1之前,公司以约大厂1/10的人数、约1/2的人均工作时间跻身全球大模型第一梯队[14] 创始人梁文锋的风格与目标 - 梁文锋生活简单神秘,工作聚焦,几乎将所有时间投入少数关键事务,并深入细节,他本人参与最多的是基模架构团队[7][8][9] - 他不做多数初创公司CEO做的事,如常规融资,2023年曾因提出类似OpenAI与微软的“回报上限”投资要求而未获融资,此后不再主动接触投资人[9] - 梁文锋为DeepSeek设立了独特目标:一是追求大模型的智能上限;二是基于国产生态做大模型,投入国产GPU适配和基础软件替代(如用TileLang替代Triton);三是进行“原创式创新”,探索大厂或其它创业公司不愿尝试的方向[20] - 他最在意的不仅是模型效果,还包括追求效果过程中那些更本质、原创的发现[21] 公司技术路线与研发重点 - 公司成功的关键之一是“力出一孔”,明确以语言模型为更高优先级,未投入多模态生成等热门方向,认为其不是智能的主线[9][18] - 2025年初V3和R1爆火后,公司继续专注研发,已公开的成果主要包括三大类:1) 效率优化,极致压榨GPU算力并改进注意力机制(如NSA、DSA);2) 模型架构改进(如mHC、Engram);3) “非主流”探索,如让模型以“看文字”方式理解文档的DeepSeek-OCR[15][16][20] - 公司内部还在进行更多尝试,包括持续学习、自主学习等,梁文锋在2025年还招募了神经科学和脑科学背景的顾问,探索更接近人脑的学习机制[16] - 在外部最受关注的Agent(智能体)竞争方向上,DeepSeek-V3.2强化了Agent能力,但整体迭代频次低于部分同行,根据OpenRouter数据,过去30天(2月24日-3月26日)其V3.2模型在OpenClaw应用调用量中排第12位[18][19] 面临的挑战与内部张力 - 公司“原创探索”和“生态建设”的目标,与业界普遍将“保持最强”视为第一优先级的目标并非完全一致[23] - 大模型发展到当前阶段,“强”和“原创性”的标准越来越模糊主观,基准测试分数已不能完全衡量模型水平,尤其在进入Agent竞争后,产品触手及带来的多样化数据变得更重要,而这正是DeepSeek此前投入较少的地方[23] - 前沿探索的不确定性与公司算力资源相对有限的事实,以及外界对公司能持续“碾压”的期待不完全匹配[23] - 外部竞争对手为DeepSeek成员开出了极具吸引力的薪酬,有猎头表示“翻2到3倍问题不大”,其他公司开出了“8位数(算股票或期权)总包”,同时,部分同行公司上市或计划上市,也让一些成员对公司未明确估值的期权产生疑问[21] 公司的调整与未来方向 - 梁文锋近期开始想办法给公司估值,以给团队成员更多确定的预期[24] - 公司将更多投入产品,在2026年3月中旬的招聘中,首次提及具体产品名称,招募Agent方向的“模型策略产品经理”,要求熟悉Claude Code、OpenClaw等知名Agent产品[24] - 公司将继续改变,但也会坚持其核心特质,梁文锋需要分辨噪音与信号,坚持该坚持的,改变要改变的[25]
V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标
晚点LatePost·2026-04-02 18:59