腾讯混元3年变形始末

腾讯混元大模型战略与人才争夺 - 公司自研大模型混元的目标是对标全球最顶尖的大模型[8] - 2025年下半年,公司从OpenAI挖来姚顺雨,其被任命为首席AI科学家,直接向总裁刘炽平汇报,这是公司首次将大语言模型变为“一把手工程”[20][21] - 姚顺雨加入后,公司加速了人才招募,重点瞄准DeepSeek、月之暗面、字节跳动和阿里巴巴这四家基座模型团队的候选人[12] - 为抢夺人才,公司提供极具竞争力的薪酬,例如将字节跳动2-2职级候选人的薪酬提升200%,部分候选人年薪从250-300万元提升至300万元以上[10][13] - 公司于2025年4月成立了独立的大语言模型部与多模态模型部,12月进一步调整组织架构,新成立AI Infra部、AI Data部等,以匹配大模型研发需求[45] 组织架构调整与历史挑战 - 公司是国内大厂中最晚推出自研大模型的公司,起步缓慢与2022年公司经历的多重低谷有关,包括游戏业务版号总量同比减少32%[24][25] - 在大模型研发启动后的近三年里,公司长时间未为混元团队匹配到合适的技术领导者,前任负责人张正友(计算机视觉背景)和蒋杰(广告技术背景)的技术方向与大语言模型核心的自然语言处理关联不深[32][33] - 混元团队最初为虚拟团队,成员来自不同部门,职责与权限混乱,向上汇报链路长,向下管理复杂,资源获取效率低[34][35] - 随着新架构确立和姚顺雨上任,原有的AI Lab被逐渐弱化,其语音与自然语言处理研究方向将被裁撤,AI Lab反过来成为混元的下属部门[46] 模型研发策略与行业趋势 - 相较于前任,姚顺雨更加重视模型的后训练,并计划“从数据开始重新训练混元”,同时明确要降低内部模型的“发版速度”,以打磨好整体模型[18] - 大模型开发被视作一种“实验科学”和系统工程,需要一号位对模型从预训练到后训练有整体实验构想,而非仅靠技术骨干分工合作[23][32] - 行业落后者赶超的最优路径是效仿成熟做法,例如Google在Gemini 2.0中放弃自研的Encoder+Decoder架构,转向与OpenAI一致的Decoder only架构后,模型竞争力显著提升[47][48] - DeepSeek开源模型V3和R1为行业提供了类GPT-4和类o1模型的“配方”,加速了全球类似模型的推出[49][50] - 2025年12月,公司发布混元2.0模型,总参数为4060亿,但其被视为姚顺雨入职前的成果,姚顺雨预计将主导训练一个参数量更大的新版本,时间可能需大半年[52]