文章核心观点 - 文章核心观点是,DeepSeek的核心研究员郭达雅离职,对公司构成严峻考验,其深厚的学术背景和技术贡献对DeepSeek的代码智能与数学推理能力至关重要,他的离职可能影响DeepSeek-V4的发布进度与质量,而其潜在的下一站(字节、百度或阿里)将显著增强相应公司在代码智能与AGI领域的竞争力[4][6][16][37][42][85] 郭达雅的学术背景与贡献 - 郭达雅学术成就卓越,其发表论文被引用超过37000次,h指数为37,i-10指数为46,远超同龄研究者[7][8] - 其博士期间在EMNLP和NeurIPS顶会发表论文,早在博士入学第三天就已满足中山大学最难的论文发表要求[18][19] - 2020年作为共同第一作者在EMNLP发表CodeBERT,该模型是首个实现跨语言通用的双模态预训练SOTA,能同时处理自然语言与编程语言,被视为Vibe Coding的开端[21][24][26] - 作为核心贡献者参与研发DeepSeekMath,其论文引用量达5182次,高于DeepSeek-V3技术报告的3890次[27][28] - DeepSeekMath的关键创新是GRPO(群体相对策略优化),该技术无需独立价值函数模型,通过群体内答案比较进行优化,降低了训练资源需求,后续被应用于DeepSeek-R1的训练[29][31][35] - 经GRPO优化的DeepSeekMath-RL 7B模型,在MATH基准上取得51.7%的成绩,与同期Gemini-Ultra和GPT-4接近[34] - 还主导了GraphCodeBERT(理解代码变量依赖关系)和DeepSeek-Coder(支持多语言与长上下文)的研究,DeepSeek-Coder-V2代码性能与同期GPT-4 Turbo相当[42][44] 郭达雅在DeepSeek的角色与离职影响 - 郭达雅对DeepSeek的技术贡献高于知名度更高的创始人梁文锋和“天才AI少女”罗福莉,梁文锋主要提供方向与资源,罗福莉在论文中未标注为核心贡献者[6][37][38][39] - 郭达雅的研究方向(代码理解、生成与程序综合)与Agent的本质高度重合,其离职对DeepSeek影响重大[40][41][42] - DeepSeek核心研究团队精干,经常出现在论文中的名字不超过20个,郭达雅是团队中代码智能领域的顶梁柱[80][81][82] - DeepSeek自2025年1月发布DeepSeek-R1后,未发布大版本迭代,V4发布多次延期,传闻其编程能力已超越Claude 3.5 Sonnet和GPT-4o,并能处理30万行代码逻辑链[66][68][78] - V4的核心卖点是“超强编程能力”,而郭达雅正是该领域的核心人员,其离职可能影响V4的发布进度或代码能力表现[80][84] - DeepSeek正面临考验,需证明在失去核心人才后仍能保持技术创新节奏[85] 潜在下家分析:字节跳动 - 字节跳动Seed团队在2025年初重组,形成Edge(长周期AGI)、Focus(核心技术攻坚)、Base(模型稳定交付)三层架构[47] - 字节此前引入的大牛(如周畅)多专注于视频方向,郭达雅的代码智能与数学推理方向能补强字节在Vibe Coding和AGI板块的短板[11][12][46] - 技术匹配度高,郭达雅可能负责代码大模型全链路技术攻坚,如主导字节Code-LLM的下一次迭代,带来“项目级”代码生成Agent[48][49] - 可负责推理方向强化学习算法研发,将GRPO落地经验带入,优化豆包大模型的数学与逻辑推理能力[51][52] - 可领导数学推理专项模型研发,该方向是Seed团队Edge部门聚焦的长期AGI基础研究,与郭达雅的DeepSeekMath经验契合[53][54][56] 潜在下家分析:百度 - 百度文心快码在2026年3月完成4.0版本迭代,推出了多Agent协同全链路开发功能,但其3.0版本发布于2024年11月,两个大版本间隔超一年,在以周为更新单位的AI圈不常见[13][14] - 百度文心快码的多Agent协同机制(Plan agent、Architect agent与SubAgents)与郭达雅的研究方向完全重合,其加入可优化Agent协同机制,提升代码生成准确性与项目级理解能力[58][59][60] - 从需求紧迫性看,百度可能比字节更需要郭达雅[15] 潜在下家分析:阿里巴巴 - 2026年3月,阿里通义千问技术负责人林俊旸离职,同年还失去了后训练负责人郁博文、代码模型负责人惠彬原等多位技术骨干[61][62] - 阿里CEO吴泳铭在财报会上表示,ATH事业群更高优先级是“打造智能能力最强的模型”[63] - 引进郭达雅可一箭双雕:填补林俊旸离职后的技术空白,并直接获得DeepSeek在代码智能与推理方面的核心经验[63] DeepSeek-V4发布状态与行业动态 - 外媒多次报道V4发布计划但均落空:传闻2026年春节发布,后推迟至3月2日,再传“极大概率”当周发布,截至发稿(预计4月)仍未发布[66][69][71][73][75][76] - 泄露测试数据显示V4在HumanEval上得分为90%,而DeepSeek V3为82%,但该测试已被认为趋于指标饱和,无法区分顶级模型真实能力[74] - V4延期原因猜测包括模型规模膨胀、训练进度延迟或多模态功能整合复杂,其重点提升方向包括长期记忆能力与深度适配国产芯片[76][77] - 行业人才竞争激烈,字节于2024年从阿里挖走多模态专家周畅,其主导的Seedance 2.0在2026年春节凭借“导演级”视频生成能力引发全球轰动[44][45]
为什么大厂必须抢郭达雅?