腾讯混元 - 财报，业绩电话会，研报，新闻

强化学习

MoPPS

阿里千问

大语言模型

强化学习

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

MoPPS

阿里千问

量子位· 2026-02-09 17:50

文章核心观点 - 清华大学与慕尼黑大学团队提出的MoPPS框架，通过一种轻量化的“先预测，再优化”范式，能够在不依赖昂贵大模型自评估的情况下，动态预测并筛选出难度最合适的训练题目，从而显著降低大语言模型强化学习微调的成本并大幅提升训练效率 [3][6][15][31] 大模型强化微调面临的效率挑战 - 以DeepSeek R1为代表，基于强化学习微调能提升模型推理能力，但训练过程成本高昂，主要源于“低效”学习，即大量算力被浪费在过于简单或过于困难、无法提供有效学习信号的题目上 [1] - 传统“题海战术”从题库中随机抽题训练，会导致梯度坍缩，资源被白白浪费 [2] - 传统“先测后学”策略依赖大模型对候选题目集进行“自测”来筛选，虽然能提升效率，但“自测”本身需要大量LLM推理，成本依然高昂 [2][8] MoPPS框架的核心机制 - MoPPS将每一道训练题目建模为一个“老虎机”臂，其核心目标是估计并优先选择成功率接近0.5的中等难度题目 [9][11] - 采用极低开销的轻量化贝叶斯模型进行难度预测：为每个题目维护一个Beta分布，通过模型训练产生的“成功/失败”二值反馈直接递归更新分布参数，计算量极低 [10][11][12] - 引入时间衰减因子，使难度估计能适应模型能力变化的动态环境 [11] - 使用Thompson Sampling策略进行主动题目筛选，平衡对已知最优题目的利用和对潜在有价值新题的探索 [11][14][20] MoPPS框架的性能优势 - **大幅降低算力成本**：与需要大量额外推理的“先测后学”方法相比，MoPPS达到相同性能所需的Rollouts减少了高达78.46% [18] - **显著提升训练效率**：相较于传统的“题海战术”，MoPPS实现了高达1.6倍至1.8倍的训练加速，且最终训练效果更好 [21] - **难度预测精准可靠**：MoPPS预测的题目难度与真实难度之间具有极高的相关性，证明了其预测的有效性 [25][29] 实验数据与效果验证 - 在AIME24、AMC23、MATH500等多个数学推理基准测试中，基于Qwen-1.5B模型，MoPPS方法取得了32.92、66.72、84.82的分数，性能优于Uniform采样和HIR方法，与需要大量额外计算的DS方法相当甚至更优，且仅使用了737k Rollouts [22] - 基于Qwen-7B模型，MoPPS方法在多个基准上取得48.54至91.04的分数，性能接近DS方法，但Rollouts仅为287k，远低于DS方法的1147k [22] - MoPPS框架具有良好的兼容性，可作为即插即用的“数据筛选器”，适配PPO、GRPO、Reinforce++等多种强化学习算法，并均能带来性能提升 [26][27] 方法适用性与行业影响 - MoPPS框架支持不同的题目筛选策略，并能结合先验知识以加速前期训练 [28][31] - 该工作已被KDD 2026接收，并受到阿里千问、腾讯混元、蚂蚁等业界公司，以及多位知名学者的关注和引用 [5] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器，未来有希望应用于更大规模的大模型强化学习后训练 [31]

强化学习

大语言模型

MoPPS

阿里千问

AI时代的生存指南——《第一财经》杂志2月刊

第一财经资讯· 2026-02-09 11:58

核心观点 - AI已成为职场标配渗透至各行业在拉平起跑线的同时加剧了公司与个体的分化 [1] - AI既催生了善用工具的超级个体也带来了人才培养断档的隐忧 [1] - 对AI时代的原住民而言日常化的AI是未来的真正起点 [1] 封面故事 - 探讨当AI成为基准线后谁是赢家的问题 [2] 研究 - 回顾了2025年十大商业新闻 [7] - 盘点了2025年失意的大公司 [7] - 梳理了腾讯混元大模型过去3年的发展历程 [7] - 分析了宜家中国进行业务“减重”的零售案例 [7] - 研究了库克时代苹果公司面临的问题 [7] 洞察 - 探讨了低龄儿童（一年级）如何使用AI [10] - 提供了在牛市中的投资避坑与赚钱指南 [10] - 分析了豆包AI产品因其“不聪明”的特性而获得成功的原因 [10] - 探讨了拥有50年历史的品牌如何应对快速变化的世界 [10] 生活方式与工作 - 介绍了观鸟活动如何发展成一门新生意 [11] - 讨论了在工作中使用AI的现状与态度 [11]

21世纪经济报道· 2026-02-06 22:52

行业AI人才竞争态势 - 互联网大厂正以高薪争夺AI领域各类型人才，例如元宝用户运营、活动运营岗位年薪超过75万元，豆包AI产品经理岗位年薪达60万元，豆包AI应用工程师岗位年薪接近100万元，千问App用户增长算法工程师岗位年薪最高可达128万元，千问App用户增长岗位年薪最高可达112万元 [1] - 行业顶级人才争夺战从高校延伸至海外，公司通过设立高额奖学金“预定”校园苗子及延揽成名科学家等组合拳构筑人才高地 [1] - 整个行业最大的痛点在于人才稀缺，尤其是指能在大模型底层架构或多模态前沿领域实现突破的顶尖人才，在全球范围内都属极少数 [4] 公司人才战略与投入 - 公司推出“青云计划”及“青云奖学金”，面向全球顶尖技术学子，对标行业竞争对手的人才计划 [1] - “青云奖学金”首期为15位在校硕博生提供每人总价值50万元的高额激励，包括20万元现金及价值30万元的云异构算力资源，获奖者来自计算机科学、人工智能及其交叉领域 [2] - 除物质支持外，公司还为获奖者搭建产学研交流平台，包括参与校企合作、技术开放日等活动，并提供企业导师指导，旨在连接学术理想与工程落地 [2] - 该奖学金旨在支持开放式创新而非绑定式资助，获奖学生不被强制要求入职公司，以扩大行业人才池为目标 [4] - 公司在AI领域的研发投入持续加大，2025年第三季度研发支出达228.2亿元，创下单季度历史新高，2025年前三季度累计研发开支达619.83亿元 [4] 公司高端人才引进 - 公司在加速招募成熟期顶尖人才，例如前新加坡Sea AI Lab高级研究科学家庞天宇已加盟，担任公司混元首席研究科学家和多模态强化学习技术负责人 [5] - 公司最受关注的人才引进是知名AI科学家、前OpenAI研究员姚顺雨，其于2025年12月加盟，出任首席AI科学家并兼任AI Infra部、大语言模型部负责人 [5] - 姚顺雨带领团队发布了加入公司后的首份研究成果，公司通过分享前沿研究增强其在AI领域的学术影响力与技术透明度 [6] 公司技术展示与影响 - 公司混元官网技术博客上线并发布深度技术文章，系统介绍其团队与复旦大学的最新联合研究成果 [6] - 此举不仅是技术博客的首次公开亮相，也体现了公司在AI前沿领域的技术能力 [6]

AI打响大厂人才争夺战，“抢苗子”和“请大神”并举

21世纪经济报道· 2026-02-06 21:22

行业AI人才竞争态势 - 互联网大厂AI人才争夺战激烈，岗位覆盖产品、运营、增长、研发、算法等多个领域，并以高薪吸引人才，例如元宝用户运营、活动运营岗位年薪超过75万元，豆包AI产品经理岗位年薪达60万元，豆包AI应用工程师岗位年薪接近100万元，千问App用户增长算法工程师岗位年薪最高可达128万元，千问App用户增长岗位年薪最高可达112万元 [1] - 顶级人才的争夺从高校延展至海外，行业最大的痛点是人才稀缺，尤其是指能在大模型底层架构或多模态前沿领域做突破的顶尖人才，在全球范围内都是极少数 [1][3] 公司人才战略：校园招聘与培养 - 公司推出“青云计划”和“青云奖学金”，面向全球顶尖技术学子，旨在构筑AI领域人才高地，对标竞争对手的Top Seed人才计划 [1] - “青云奖学金”首期为15位在校硕博生提供每人总价值50万元的高额激励，包括20万元现金及价值30万元的云异构算力资源，获奖者来自计算机科学、人工智能及其交叉领域 [2] - 该奖学金项目自启动后收到来自全国近400名学生的申请，最终由多模态智能、大语言模型、AI Infra、AI for Good等前沿领域的15名学生获奖 [2] - 除物质支持外，公司还为获奖者搭建产学研交流平台，包括参与校企合作、技术开放日、学术沙龙等活动，并提供企业导师指导，旨在让人才接触真实产业挑战 [2] - 奖学金初衷为支持开放式创新而非绑定式资助，获奖学生不被强制要求入职公司，旨在扩大整个行业的人才池 [3] - 调研发现顶尖博士生在校最缺的往往是算力，提供云异构算力资源旨在支持他们更自由地攻克前沿课题 [3] 公司人才战略：高端人才引进 - 公司在加速招募成熟期顶尖人才，例如前新加坡Sea AI Lab高级研究科学家庞天宇宣布加盟，担任公司混元首席研究科学家和多模态强化学习技术负责人 [4] - 公司最受关注的人才引进是知名AI科学家、前OpenAI研究员姚顺雨加盟，公司为此升级大模型研发架构，新成立AI Infra部、AI Data部和数据计算平台部 [4] - 姚顺雨出任“CEO/总裁办公室”首席AI科学家，向公司总裁汇报，同时兼任AI Infra部、大语言模型部负责人，向技术工程事业群总裁汇报 [4] - 姚顺雨加入后，带领团队发布了首份研究成果，公司通过分享前沿研究与技术洞察，增强其在AI领域的学术影响力与技术透明度 [5] 公司研发投入与活动 - 公司在AI领域的投入持续加大，2025年三季度研发支出达228.2亿元，创下单季度历史新高，2025年前三季度累计研发开支已达619.83亿元 [3] - 公司混元官网技术博客上线，并发布深度技术文章，系统介绍公司混元团队联合复旦大学的最新研究成果 [5]

刚刚，腾讯姚顺雨署名首篇论文发布，「下半场」先搞上下文学习

机器之心· 2026-02-03 18:35

文章核心观点 - 当前最先进的大语言模型在“上下文学习”能力上存在显著短板，即使提供了完整且自包含的上下文信息，模型也普遍无法有效从中学习新知识并解决依赖于此的任务，这揭示了当前模型训练范式与真实世界应用需求之间的根本性不匹配 [5][12][32][41] - 腾讯混元团队与复旦联合团队发布的CL-bench基准测试表明，即便是表现最好的模型GPT-5.1 (High)，其任务解决率也仅为23.7%，所有测试模型的平均解决率仅为17.2%，这证明当前SOTA模型几乎不会从上下文中学习 [16][31][32] - 模型能力的未来发展方向需要从依赖静态“参数化知识”的推理者，转变为能够实时从“当下”环境中吸收信息的“上下文学习者”，这要求从根本上改变模型的优化方向 [12][42] 上下文学习的重要性与现实困境 - 行业专家认为，模型迈向高价值应用的核心瓶颈在于能否“用好上下文”，上下文决定了模型与人类认知的边界 [1] - 人类在工作与生活中擅长从实时上下文中学习，例如阅读新文档、学习新游戏规则或分析实验数据，而当前语言模型主要依赖预训练阶段压缩的静态“参数化知识”，缺乏从新输入信息中主动学习的能力 [9][12] - 研究表明，即便抹平了上下文带来的信息差，模型也未必能解决问题，关键在于模型是否具备从上下文中学习新知识、掌握新技能的能力 [5] CL-bench基准测试的设计与发现 - **测试目标与规模**：CL-bench是首个专门评测语言模型上下文学习能力的基准，包含500个复杂上下文、1899个任务和31607个验证标准，其核心设计原则是要求模型必须从上下文中学习预训练中不存在的新知识 [16][27] - **任务场景**：测试涵盖四大类现实世界场景：1) 领域知识推理；2) 规则系统应用；3) 程序性任务执行；4) 经验发现与模拟（归纳推理） [19][28] - **确保无污染**：在不提供上下文的情况下，GPT-5.1 (High)仅能解决不到1%的任务，证明了数据无污染，模型必须通过学习上下文才能解题 [29] - **任务复杂性**：51.1%的任务具有序列依赖性，后续任务依赖早期交互结果；领域专家平均花费约20小时标注每个上下文，以确保任务深度与质量 [29] 前沿模型在CL-bench上的表现分析 - **整体表现低迷**：在CL-bench评估的十个最先进模型中，整体任务解决率平均仅为17.2%，表现最好的GPT-5.1 (High)也仅达到23.7% [31][32] - **各场景表现差异**：模型在“经验发现与模拟”这类需要归纳推理的任务上表现最差，解决率通常低于10%，波动也最大，表明归纳推理比演绎应用规则更具挑战性 [31][39] - **主要错误类型**：模型失败的主要原因是忽略或误用上下文，而非信息缺失。例如，GPT-5.1 (High)有55.3%的错误源于忽略上下文，61.5%源于误用上下文 [34][35] - **其他影响因素**：提高推理强度（如GPT-5.1）对部分任务（如管理类和实验数据类）有约6%的提升，但并非对所有模型都有效；长上下文处理和指令遵循能力是必要的，但并非实现有效上下文学习的充分条件 [38][39] 对未来AI发展的启示与展望 - **行业竞争焦点转移**：如果上下文学习能力得到显著提升，人类在AI系统中的角色将从“训练数据提供者”转变为“上下文提供者”，行业竞争焦点可能从“训练更好的模型”转向“为任务提供最丰富、最相关的上下文” [42] - **面临的新挑战**：当前上下文学习获得的知识是临时性的，一旦上下文窗口清空，知识随之消失。因此，如何实现从上下文中习得知识的“持久化”或“记忆巩固”将成为未来关键研究方向 [43][46] - **终极愿景**：可靠的上下文学习与记忆能力可能使模型实现“自主学习”，即模型能够自主准备上下文、从中学习并自我巩固知识 [47]

曝国际巨头拟裁员3万人，多家美银行停止相关项目贷款；老外吐槽国产手机：为了像苹果，3个摄像头里1个是假的；闻泰业绩变脸：巨亏135亿元

雷峰网· 2026-02-02 08:27

国际巨头甲骨文面临资金压力与战略调整 - 为应对AI数据中心扩张带来的严峻资金压力，甲骨文正考虑裁员2万至3万人，预计此举可释放80亿至100亿美元的现金流[4] - 公司同时评估出售其于2022年以283亿美元收购的医疗保健软件部门Cerner的可能性[4] - 资金紧张源于激进的AI基础设施投资，包括与OpenAI签署的价值高达3000亿美元的数据中心建设协议，仅此一项预计资本支出就达1560亿美元[4] - 与Meta、英伟达等公司的合作使其数据中心总投资规划攀升至5230亿美元，预计需采购约300万个GPU，2026年预期资本支出被上调至500亿美元[4] - 多家美国银行已停止向甲骨文的数据中心项目提供贷款，融资环境充满挑战，导致其五年期信用违约互换价格在去年最后几个月翻了三倍[5] - 融资困难已影响项目进度，部分为OpenAI建设的数据中心完工时间已从2027年推迟至2028年[5] 闻泰科技因安世半导体控制权受限业绩巨亏 - 闻泰科技预计2025年归母净利润亏损90亿元至135亿元，扣非净利润预计亏损2亿元至3亿元，业绩由盈转巨亏[8] - 业绩断崖式下滑核心诱因是子公司安世半导体的控制权受限，荷兰政府层面的干预导致公司对安世半导体的控制权处于临时受限状态[8] - 公司财务总监张彦茹提前两年离任，原定任期至2028年1月，离职原因为“个人原因”[9] - 公司曾表示若相关问题无法在6个月内解决，不排除启动国际仲裁程序，索赔金额最高或可达80亿美元[9] 国内AI与芯片行业动态 - 寒武纪预计2025年实现营业收入60亿元到70亿元，同比增长410.87%到496.02%，实现归母净利润18.5亿元到21.5亿元，成立10年来首次实现年度盈利[16] - 腾讯混元引入AI专家庞天宇担任首席研究科学家和多模态强化学习技术负责人，庞天宇主要研究方向为多模态模型的强化学习[12][13] - 三星、SK海力士与美光三大存储芯片原厂已收紧订单审核，以应对因AI基础设施建设热潮导致的供应紧张和部分客户超额下单或囤货[52] - 爱芯元智启动H股全球发售，发售价定为每股28.20港元，预计2026年2月10日挂牌，公司专注于边缘计算与终端设备AI推理系统芯片[60] 汽车行业业绩与交付情况 - 广汽集团预计2025年归母净利润亏损80亿元至90亿元，扣非净利润亏损89亿元至99亿元，全年累计销量172.15万辆，同比下降14.06%[20] - 蔚来公司2026年1月交付新车27,182台，同比增长96.1%，累计交付量达1,024,774台[26] - 极氪2026年1月交付23,852台，同比增长99.7%，新车型极氪8X定位45万级别超级电混高性能旗舰，将于今年上半年上市[33] - 小米汽车2026年1月交付量超过3.9万辆，雷军回应环比下滑称第一季度是传统淡季且初代SU7已停售，新一代SU7预计春节前样车到店[33] 科技公司产品与安全事件 - 飞牛fnOS被曝存在重大安全漏洞，可通过路径穿越访问NAS上任意文件，官方已紧急推送1.1.15版本安全更新[23] - 腾讯旗下AI助手“元宝派”公测上线，打通腾讯视频、QQ音乐内容生态，公测期间推出10亿元现金红包新春活动[30][31] - 字节跳动旗下红果短剧App日活已过亿，上线不到3年，月活近3亿，断层式优势稳居行业第一[20] 国际科技巨头战略与融资动向 - 苹果CEO库克预告公司今年将带来“前所未见的创新”，结合爆料可能包括折叠屏iPhone Fold和AI眼镜[40][41] - 苹果已收购以色列AI初创公司Q.ai，交易金额接近20亿美元，成为苹果有史以来规模最大的收购案之一[48] - OpenAI正加快推进上市准备工作，计划最早在2025年第四季度启动IPO，估值约5000亿美元，目标抢在竞争对手Anthropic之前[55][56] - Alphabet旗下自动驾驶子公司Waymo计划在新一轮融资中募资约160亿美元，融资完成后估值将接近1100亿美元[44] - SpaceX计划申请部署由100万颗卫星组成的星座，利用太阳能为AI数据中心提供电力，该计划需获得美国监管机构批准[49] IPO市场动态 - 欣旺达二次递表港交所，为全球最大的锂离子电池厂商，2024年全球手机电池市场市占率达34.3%[57] - 上海伯镭智能科技（伯镭科技）递表港交所，公司在递表前6天获得比亚迪1亿元战略投资，为全球最大的纯电自动驾驶矿卡提供商[58][59] - 伊戈尔递交IPO招股书拟赴香港上市，2024年收入46.03亿元，在全球中压变压设备行业市场份额达2.2%[62][63] - 北京奕斯伟计算技术再次向港交所递交招股书，按2024年销售数量计，公司是中国最大的RISC-V主控量产芯片产品供应商[64]

突发，姚顺雨后，清华95后庞天宇加入腾讯，任混元「首席科学家」

36氪· 2026-01-30 19:46

核心观点 - 腾讯近期连续引进顶尖AI青年科学家，继OpenAI的姚顺雨后，前Sea AI Lab高级研究科学家、清华大学博士庞天宇也已正式入职，担任腾讯混元首席研究科学家，负责多模态强化学习技术研发 [1][2] - 此举标志着腾讯的AI战略从跟随转向全面进攻，通过引进处于科研巅峰期的年轻科学家，并调整组织架构，旨在集中资源在智能体（Agent）和多模态等核心赛道上实现追赶甚至超越 [2][11][14] 人才引进与团队建设 - 新引进的科学家庞天宇为95后，拥有清华大学数理基科班学士学位及计算机系人工智能博士学位，师从朱军教授，博士毕业后曾在新加坡Sea AI Lab担任高级研究科学家 [3][5][7] - 庞天宇学术成果丰硕，已在顶级会议和期刊上发表70余篇论文，谷歌学术引用次数超过15000次，h-index为45，曾获百度奖学金（全球仅10人）、微软学者奖学金、英伟达学术先锋奖等多项重量级荣誉 [6][8][9] - 腾讯的人才策略呈现年轻化趋势，高薪挖角90后、95后正处于科研巅峰期的科学家，如96年左右的姚顺雨和95年的庞天宇，他们均拥有“清华+海外/顶尖机构”背景及一线大模型实战经验 [12] 技术战略与研究方向 - 庞天宇的主要研究方向为可信机器学习、生成式模型，并聚焦于多模态模型的强化学习，具体涵盖生成模型（如Diffusion Models）和理解模型（如VLMs） [3][9] - 在腾讯混元团队，庞天宇将作为多模态强化学习技术负责人，重点攻坚多模态生成与理解的对齐问题，其技术能力对于腾讯庞大的游戏和机器人业务至关重要 [9][10] - 新引进的两位科学家研究方向形成互补：姚顺雨主攻推理（Reasoning）能力，解决模型“怎么思考”；庞天宇主攻多模态强化学习（Interaction），解决模型“怎么交互”以打通虚拟与现实的决策壁垒 [2][13] 组织架构与战略意图 - 腾讯近期成立了AI Infra等新部门，并将核心科学家职级大幅提升，使其直接向总裁汇报，通过集中算力和数据资源来修正起步稍晚的劣势 [14] - 公司高层内部讲话表示，希望借助AI社交新玩法，重现类似微信红包的全民热潮 [11] - 公司的战略意图是通过“钞能力”和极高的决策权限，在智能体（Agent）和多模态原生赛道上，实现对DeepSeek、OpenAI等竞争对手的追赶甚至超越 [14]

多模态强化学习

Internet Services

多模态强化学习

Internet Services

腾讯混元再添大将，AI大牛庞天宇任腾讯混元首席研究科学家

新浪财经· 2026-01-30 13:36

公司人才战略与研发方向 - 腾讯混元近期引入了AI领域高端人才庞天宇，其担任首席研究科学家和多模态强化学习技术负责人 [1][3] - 庞天宇在腾讯混元的主要研究方向为多模态模型的强化学习，具体涵盖生成模型和理解模型 [1][3] 关键人员背景与专业成就 - 庞天宇为清华大学计算机系2017级直博生，师从朱军教授，研究方向为机器学习特别是深度学习及其鲁棒性 [1][4] - 他以第一作者身份在机器学习顶级会议ICML、NeurIPS、ICLR上发表多篇文章，并多次被选为Oral或Spotlight报告 [1][4] - 其参与的团队在NIPS2017和GeekPwn2018等多个对抗攻防竞赛中获得第一名 [1][4] - 他多次担任ICML、NeurIPS、ICLR、CVPR、ICCV、ECCV、TPAMI等顶级会议和期刊的审稿人 [1][4] - 他曾荣获微软学者奖学金和英伟达学术先锋奖 [1][4] - 在加入腾讯前，他于新加坡SeaAl实验室担任高级研究科学家 [1][4]

Multimodal RL

Multimodal RL