大语言模型 - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型

搜索文档

智能体将取代APP和SaaS，张亚勤院士发布这些AI洞见

第一财经· 2025-12-10 13:56

人工智能发展趋势与核心洞见 - 新一轮人工智能浪潮的本质是信息智能、物理智能与生物智能的深度融合，信息世界、物理世界与生物世界全面数字化，原子、分子与比特的边界正在消融[1] - 生成式AI正快速演进为智能体AI，智能体已成为近两年AI领域最重要的创新方向之一，其任务复杂度在过去七个月内翻倍，准确率超过50%，意味着AI开始执行复杂任务与决策[3] - AI正在从信息世界走向物理世界和生物世界，即从大语言模型走向视觉-语言-动作模型，以在真实世界中行动[3] 智能体（Agent）的演进与影响 - 未来的SaaS服务和终端APP都将被智能体所取代，智能体即未来的软件与服务形态，将涵盖消费、行业、机器人、自动驾驶等各种领域[4] - 以医疗智能体为例，多智能体网络可模拟三甲医院运作，在很短时间内处理相当于一家三甲医院两到三年积累的病例，且诊断准确率更高，目标是为医生提供强大的智能体助手[4] - 智能体是实现AGI的必经之路，需要新的算法体系、记忆体系和世界模型[6] 算力、成本与规模化法则 - Scaling law在预训练阶段的效果增长已逐渐放缓，智能提升的重点转移至后训练阶段的推理与智能体层面[3] - 推理的单位成本在过去一年下降至原来的十分之一，而智能体对算力的需求则增长了十倍，两者形成动态平衡[3] 机器人、自动驾驶与物理智能 - 机器人被视为未来最大的赛道，十年内机器人的数量或将超过人类[4] - 无人驾驶在2024年已到拐点，预计到2030年，约10%的新车将具备无人驾驶能力，那将是自动驾驶的“DeepSeek时刻”[3] 基础大模型与产业格局 - 人工智能时代的操作系统是基础大模型，它将像PC时代的Windows、移动互联网时代的安卓与iOS一样，彻底重写、重构并重塑整个产业形态[5] - 在此操作系统之下，芯片架构将随之演变；在其之上，以垂直模型、边缘模型和智能体为核心的应用生态将全面重建，整个产业的规模将比PC时代和移动时代大出2-3个数量级[5] - 如同操作系统般的基础大模型，全球最终可能不会超过10个，预计中美将各占半数，可能辅以少数其他国家的模型，形成开源与闭源并行的双轨发展生态[5] 技术架构与长期预测 - 未来五年，自回归架构、Transformer和Diffusion可能会被新的范式颠覆[6] - 实现信息智能、物理智能乃至生物智能的全面突破，预计可能需要十五到二十年的时间[6]

大语言模型

Scaling law（规模化法则）

Artificial Intelligence

大语言模型

Scaling law（规模化法则）

Artificial Intelligence

企业是否该用AI智能体？峰瑞李丰：先评估自身数字化水平，不高可以再等等

新浪财经· 2025-12-10 10:24

峰会背景与主题 - 2025年12月5日至7日，《中国企业家》杂志社在北京主办了“2025（第二十三届）《中国企业家》影响力企业家年会”，会议主题为“涌现·无限——共创智能商业新形态” [1][4] 演讲核心观点：企业应用AI智能体的前提条件 - 企业是否应立即采用AI智能体，取决于其自身及所在行业链条的数字化水平，若数字化水平不高，则建议等待；若企业自身数字化水平很高，则可以在内部使用一些智能体 [3][6] AI大语言模型的发展基础 - 当前这一轮人工智能的发展始于大语言模型，其训练数据来源于过去超过40年互联网公开文本数据的积累 [3][6] 垂直智能体的最佳应用场景特征 - 大语言模型最适用的垂直智能体场景，是在商务和价值实现过程中，以自然语言进行多轮对话交互并最终实现价值兑现的领域 [3][6] 垂直智能体的典型行业应用 - 金融行业是全链条数字化的典型，其业务依赖专业技术和技能进行对话，向客户解释投资原因、金融产品选择、风险与潜在收益，因此最容易受到垂直智能体的改变 [3][6] - 医疗行业同样易于被垂直智能体改变，医生使用数字化设备进行检测，并向患者提供疾病预防建议等信息 [3][6]

大语言模型

大语言模型

自动驾驶VLA全栈学习路线图

自动驾驶之心· 2025-12-10 03:00

自动驾驶行业技术趋势 - 在端到端技术之后，视觉语言动作模型已成为学术界和工业界聚焦的核心方向，它提供了类人思考的能力，通过思维链形式展现车辆决策过程，旨在提供更可靠、更安全的自动驾驶能力 [1] - 传统的BEV感知、车道线、Occupancy等方向已相对成熟，学术界和工业界的关注度正在逐渐下降，目前自动驾驶VLA是各家企业急需攻克的方案 [4] - 主流的自动驾驶企业，包括智驾方案供应商和车企，都在发力自动驾驶VLA的自研 [4] 自动驾驶VLA技术分类与核心内容 - 自动驾驶VLA目前可分为三个子领域：模块化VLA、一体化VLA和推理增强VLA [1] - 该领域涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [6] - 最前沿的算法包括思维链、混合专家模型、检索增强生成、强化学习等 [6] 自动驾驶VLA课程概述与师资 - 课程由清华大学教研团队联合推出，名为《自动驾驶VLA与大模型实战课程》，是国内首个自动驾驶VLA进阶实战教程 [6][21] - 课程旨在推动自动驾驶VLA在学术界和工业界的发展，帮助学习者真正理解VLA [21] - 讲师团队包括来自清华大学和QS30高校的硕士生与博士生，他们在ICCV、IROS、EMNLP等顶级会议发表过多篇论文，研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等，并拥有丰富的研发和实战经验 [8] 课程结构与内容大纲 - **第一章：自动驾驶VLA算法介绍** - 讲解VLA算法的概念、发展历史、任务拆解，并介绍开源的BenchMark和常见评测指标，帮助学员建立整体了解 [11][12] - **第二章：VLA的算法基础** - 讲解Vision、Language和Action三个模块的基础知识，阐述大模型与自动驾驶VLA的结合方式，并扩展讲解以Qwen 2.5VL-72B为例的开源大模型本地部署和使用 [13] - **第三章：VLM作为自动驾驶解释器** - 讲解VLA概念提出前，VLM作为解释器参与场景理解的经典及最新算法，如DriveGPT4、TS-VLM等，重点分析其动机、网络结构与核心算法 [14] - **第四章：模块化&一体化VLA** - 聚焦模块化和一体化VLA，讲解语言模型从被动描述演变为主动规划组件的过程，对比多阶段pipeline与端到端映射的差异，并配套实战代码学习华科与小米最新提出的ReCogDrive模型 [15] - **第五章：推理增强VLA** - 聚焦推理增强VLA，讲解其通过思维链、记忆、工具调用等实现长时序规划与因果解释的特点，重点分析ORION、DriveMoE、DiffVLA、S4-Driver等算法，并配套实战代码学习清华AIR与博世提出的Impromptu VLA模型 [16][17][18] - **第六章：大作业** - 要求学员基于ms-swift框架，从网络构建开始，自定义数据集和加载模型，开启训练任务并进行微调，注重动手实操能力 [19] 课程安排与学习要求 - 课程为离线视频教学，开课时间为10月20日，预计两个半月结课，包含VIP群答疑和三次线上答疑，各章节按计划时间解锁 [22] - 学习要求学员自备GPU，推荐算力在RTX 4090及以上，并需具备一定的自动驾驶领域基础、Transformer大模型、强化学习、BEV感知等概念知识，以及概率论、线性代数、Python和PyTorch基础 [23] - 学后收获包括彻底理解自动驾驶VLA当前进展、掌握三大子领域核心算法、加深对视觉感知等多模态AI技术的了解、能够复现主流算法并应用于实际项目，对实习、校招、社招均有助益 [23]

自动驾驶VLA

大语言模型

自动驾驶VLA

《自动驾驶VLA与大模型实战课程》

自动驾驶VLA

大语言模型

自动驾驶VLA

《自动驾驶VLA与大模型实战课程》

H200获准对华出口英伟达称“是值得肯定的举措”

中国经营报· 2025-12-09 16:39

核心事件与政策 - 美国总统特朗普宣布，在确保国家安全前提下，将允许英伟达向中国及其他国家的合格客户交付其H200芯片产品，但会对每颗芯片收取一定费用 [1] - 美国商务部正在敲定具体细节，同样的方案也将适用于超微半导体、英特尔等其他美国公司，美方将从相关芯片出口中收取25%的分成 [1] - 在特朗普宣布该消息后，英伟达股价在盘后交易中上涨了1.2% [1] 英伟达H200产品详情 - 英伟达H200芯片发布于2023年11月，2024年第二季度开始供货 [1] - 其核心升级在于全球首创的141GB HBM3e内存系统，使处理超大模型的能力实现质的飞跃 [1] - 相比前代H100，H200的内存容量提升76%，带宽增加43%，AI推理性能提升最高90%，特别适合大语言模型和科学计算 [2] - 英伟达H200的当前市场报价主要集中在20万至25万元人民币区间（约合2.8万至3.5万美元） [2] - 包含多块H200 GPU、服务器、网络和冷却基础设施在内的整体H200整机系统（如DGX H200）售价可能超过30万美元，甚至达到60万美元以上 [2] 市场需求与客户构成 - 英伟达CEO黄仁勋在2026财年第三季度财报电话会议上表示，Hopper平台自推出以来的第13个季度，在第三季度录得约20亿美元的营收 [3] - 公司CFO表示，对Hopper架构的需求仍然强劲，H200产品在本季度显著增长 [3] - H200的主要客户群体包括云服务商（微软、亚马逊、谷歌、甲骨文等）、AI研究与开发巨头（OpenAI、Meta、Cohere、Mistral等）、高性能计算与科研机构以及企业级客户（金融、医疗、智能制造、汽车企业） [2] - 截至2025年12月，全球已有超过100家大型组织部署了H200，小型客户和通过云服务间接使用的用户更是不计其数 [2] 对中国市场的影响与竞争格局 - 行业分析师认为，短期来看，英伟达H200能对华出售对英伟达自身更为有利，因为中国是一个相当大的市场，且中国开发者认可CUDA生态，对科研有帮助 [3] - 分析师指出，国内一些非国央企且积极出海的企业，如新能源、车企、物流、零售等可能会购买H200 [3] - 但H200对华出口对国内类GPU厂商影响有限，因为很多国产芯片已经开始追得上，中国云厂商的自研芯片也日益成熟，进一步减少对英伟达的依赖 [3] - 据了解，华为昇腾、阿里平头哥相关芯片产品性能已逼近H200 [4] - 英伟达CEO黄仁勋在12月初曾表示，就算把最好、性能最强的H200卖给中国，他们都不一定会要 [4] - 目前，英伟达最新的Blackwell和Rubin架构芯片仍不能对华出售 [4]

英伟达(US:NVDA)

大语言模型

英伟达H200芯片

英伟达DGX H200整机系统

华为昇腾芯片

大语言模型

英伟达H200芯片

英伟达DGX H200整机系统

华为昇腾芯片

谷歌Gemini 3来势汹汹，奥尔特曼拉响“红色警报”

财富FORTUNE· 2025-12-08 21:05

行业竞争态势 - 人工智能行业竞争加剧，谷歌发布最新模型Gemini 3后，OpenAI首席执行官宣布公司进入“红色警报”状态以应对竞争压力 [2] - 谷歌Gemini 3发布首日便大范围接入了其拥有数十亿用户的庞大生态系统，包括其称为有史以来最快的谷歌搜索部署 [2] - 谷歌在2022年底ChatGPT发布前被认为是全球AI研究领导者，做出了许多使现代生成式AI成为可能的突破，但ChatGPT的发布使行业重心转移，谷歌一度需要奋力追赶 [4] - 目前竞争形势再次逆转，在AI竞赛中需要保卫地盘的是OpenAI [5] 公司动态与战略 - OpenAI首席执行官在内部备忘录中表示，ChatGPT正处于一个关键时刻，公司将推迟其他计划（包括广告计划）以调集更多资源改进ChatGPT [2] - OpenAI首席执行官警告员工注意“暂时的经济逆风”，并预测谷歌的再度崛起将带来“艰难的氛围” [4] - OpenAI计划于下周发布一款新的推理模型，该模型在内部评估中优于谷歌的Gemini 3 [6] - OpenAI在持续消耗资金的同时，指望能够再筹集1000亿美元，并且需要继续增加订阅收入以满足投资者，其预测今年来自ChatGPT的收入将接近100亿美元 [5] - 尽管有数十名OpenAI顶级研究人员离开，加入了竞争对手公司，OpenAI仍必须继续改进ChatGPT [5] 产品表现与市场数据 - 谷歌Gemini在10月份月活跃用户增长至6.5亿 [4] - OpenAI报告ChatGPT有8亿周活跃用户，对许多用户来说，ChatGPT就是AI的代名词 [5] - 谷歌最新模型Gemini 3在多模态推理、数学和代码方面有强劲的基准测试结果 [4] - 谷歌首个Gemini模型在2023年12月推出后，因其输出内容的问题以及不准确的图像和文本而面临强烈反弹，其搜索AI概览功能也曾提供错误信息 [4] 历史背景与行业基础 - 谷歌研究人员在里程碑论文《注意力就是全部》中发明了Transformer架构，该架构是每一个现代大语言模型的基础 [4] - 谷歌在2019年推出了BERT模型，该模型在数年内都是最先进的语言模型 [4] - 谷歌于2014年1月以大约5亿美元收购了AI研究实验室DeepMind，该实验室在ChatGPT出现前已因多项突破（如AlphaGo、AlphaFold）登上全球新闻头条 [5] - 谷歌首席执行官承认，OpenAI在发布聊天机器人方面抢在了谷歌前面，当时谷歌的产品尚未达到可发布且能被接受的水平 [3]

谷歌(US:GOOG)

大语言模型

大语言模型

IBM CEO警告：超大规模云厂商的数据中心投资难以盈利

财富FORTUNE· 2025-12-08 21:05

IBM首席执行官对科技巨头AI基础设施投资的质疑 - 核心观点：IBM首席执行官阿文德·克里希纳认为，谷歌、亚马逊等科技巨头在AI数据中心上的数百亿美元巨额投资“绝无可能”获得合理回报 [2] - 质疑巨额资本支出难以覆盖：仅建设一座1吉瓦的数据中心就需要投资约800亿美元，若企业承诺建设20到30吉瓦，资本支出将高达1.5万亿美元，几乎相当于特斯拉当前市值 [2] - 质疑整体投资回报模型：若所有超大规模云厂商合计扩建至约100吉瓦容量，需要约8万亿美元投资，仅支付利息就需要约8000亿美元利润支撑，所需利润规模惊人 [2][3] - 指出技术迭代导致资产快速过时：数据中心所依赖的芯片会很快过时，必须在五年内充分利用所有设备，之后整套设备需淘汰并重新采购 [4] 对通用人工智能（AGI）发展前景的看法 - 认为以现有技术实现通用人工智能的概率极低：尽管大语言模型性能持续提升，但实现AGI的概率“最多只有1%”，所需技术远超当前大语言模型路线的技术要求 [5] - 肯定AI技术的企业价值：承认该技术对企业具有重要价值，认为它将释放数万亿美元的生产力潜能 [5] - 指出投资热潮的部分动机：科技巨头竞相成为首个实现通用人工智能的企业 [4] 行业投资现状与趋势 - 全球数据中心当前电力需求与AI占比：高盛估算，全球数据中心市场当前总耗电量约为55吉瓦，其中仅约14%与AI相关 [2] - 预计未来电力需求将大幅增长：高盛预计，随着AI需求增长，数据中心市场的电力需求到2027年可能升至84吉瓦 [2] - 各云厂商仍在加速投资：预计今年相关投入将达到约3800亿美元 [5] - 具体公司资本支出上调：谷歌母公司Alphabet将2025年资本支出预期从850亿美元上调至910亿至930亿美元；亚马逊在第三季度将资本支出预期从1180亿美元上调至1250亿美元 [5]

通用人工智能

大语言模型

通用人工智能

大语言模型

复旦大学邓建国：未来是人机共生的世界，大学的使命是让人成为更好的人

新浪财经· 2025-12-08 20:31

AI发展趋势与核心驱动力 - 人工智能的发展根基在于芯片、数据、算法三大核心元素 [3][7] - 在摩尔定律驱动下，借助移动传感器产生的海量数据与强大芯片的分析能力，共同催生了当前的大语言模型 [3][7] AI技术的当前局限与演进方向 - 大语言模型存在缺乏物理身体的“核心短板”，导致其无法提供人类沟通所需的性别、年龄、地域等基础变量，难以建立稳定的信任关系 [3][7] - 为弥补此短板，虚拟数字人、实体机器人相继出现，这一变革对人类沟通模式产生了深远挑战 [3][7] - 即便AI具备身体形态，人类仍渴望线下真实的互动与联结，单纯的人工语音或线上交互难以满足深层需求 [3][7] 人类在AI时代的核心竞争力 - AI或许能替代制作类知识与部分思考类知识，但人类基于碳基生命的共情能力、聚生能力是不可替代的核心竞争力 [4][8] - 人类学习与沟通的本质是多元、多信道、社会性的聚生过程 [3][7] 高等教育在AI时代的使命与转型 - 未来人机共生是必然趋势，大学的使命是让人成为更好的人 [4][8] - 大学应跳出传统显性知识传授的框架，重点培育元知识、默会知识与实践型知识 [3][7] - 大学需强化人类独特的共情与聚生能力，以应对沟通形态变革带来的挑战 [3][7] - 面对AI带来的沟通变革与知识迭代，大学需坚守其社会性与实践性特质，通过培育核心知识与独特能力，帮助人类在人机竞争与协作中保持核心价值 [4][8] AI带来的社会角色转变 - AI的发展将人类从重复性工作中解脱，使其能专注于更具创造性、情感性的价值创造 [4][8] - 浪漫主义运动的兴起源于科学革命解放了人类的繁重劳动，AI的发展将带来类似的解放效应 [4][8]

大语言模型

虚拟数字人

实体机器人

大语言模型

虚拟数字人

实体机器人

DeepSeek双模型发布：一位是“话少助手” 一位是“偏科天才”

科技日报· 2025-12-08 18:03

公司产品发布与技术突破 - 公司于12月1日同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型 [1] - 在公开推理测试中，V3.2水平达到了OpenAI今年8月推出的GPT-5水平，略低于谷歌的Gemini3 Pro [1] - DeepSeek-V3.2定位为高性价比的日常助手，具备更强的推理能力和智能体能力，旨在成为“数字劳动力”以完成自动生成报表、编写代码等复杂工作 [2] - DeepSeek-V3.2-Speciale专攻高难度数学问题求解、学术研究逻辑验证和编程竞赛解题，旨在将开源模型推理能力推向极致 [2] - 新模型实现了两项质的突破：引用领域专用架构和思考型工具调用技术 [2] - 领域专用架构技术可让模型在完成任务时仅检索最关键信息，从而大幅提升效率、降低消耗 [2] - 思考型工具调用技术使模型在得到指令后，能先思考再调用工具执行，然后根据结果继续思考、再次调用，实现多轮交替的复杂问题解决，并保留记录供后续推理使用 [2] - 这是公司首次将思考融入工具使用，改变了以往模型依赖人“喂”数据的发展范式，实现AI的自我训练和进化 [2] - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2，但Speciale版本目前仅以临时API服务形式开放，供社区评测与研究 [4] 行业竞争格局与影响 - 过去一年，以Google、OpenAI等为代表的闭源社区在复杂任务中表现优越，而开源社区受制于架构、资源分配及智能体能力等关键缺陷，与闭源社区性能差距进一步扩大 [3] - 公司发布新模型的根本动力是缩小开源模型与闭源模型间的差距 [4] - 新模型证明了闭源大模型的巅峰并非不可逾越，为我国乃至全球开源大模型的发展注入强心剂 [4] - 公司从今年初发布R1大模型以来，发展主线始终聚焦实用性和泛化能力，让“赶超闭源”从美好愿景变为闭源厂商的现实压力 [4] - 公司为全球开发者提供了一个强大、可控且经济的模型底座，助力大语言模型融入千行百业、形成商业闭环 [4] - 新模型为大语言模型带来了新的治理难题，需警惕工具调用风险，以及学术造假、自动化生成代码漏洞、产业不公平竞争等挑战 [4]

Seek .(US:SKLTY)

大语言模型

思考型工具调用技术

Artificial Intelligence

DeepSeek-V3.2-Speciale

大语言模型

思考型工具调用技术

Artificial Intelligence

DeepSeek-V3.2-Speciale

模型可以“卷”、算力必须“烧”！瑞银：AI巨头密集推新模型，算力投入将继续加码

智通财经网· 2025-12-08 17:54

行业竞争格局 - 近期AI大语言模型领域迎来密集发布潮，谷歌、Anthropic、DeepSeek等企业相继推出新一代模型，推动智能前沿持续突破，行业竞争日益激烈 [1] - 谷歌于11月18日推出Gemini 3 Pro多模态模型，在Hugging Face排行榜中斩获综合性能、文生图及视觉任务三项第一，网页开发任务排名第二 [1] - Anthropic于11月24日发布Claude Opus 4.5模型，其网页开发任务排名位居榜首，同时在模型安全性和防滥用方面实现显著提升 [1] - DeepSeek于12月1日推出开源模型DeepSeek V3.2，其高算力版本“Speciale”性能与Gemini 3 Pro相当，在保持接近闭源前沿模型性能的同时显著降低了推理成本 [1] - 行业竞争加剧对OpenAI等公司构成压力，推动AI行业向多模型、多供应商的格局演进，这一趋势预计将至少持续至2026年 [3] 模型性能突破 - 新一代模型在核心性能指标上展现出突破性进展，ARC-AGI-2基准测试显示，Gemini 3 Deep Think和Claude Opus 4.5的多步推理任务得分分别达到45%和38%，远超此前多数前沿模型10%-20%的水平，接近人类平均60%的表现 [2] - 模型性能的“规模定律”依然有效，算力投入的增加持续带来模型能力的非线性提升 [1][2] - DeepSeek V3.2通过强化学习算法创新和稀疏注意力架构实现了性能与成本效益的平衡 [1] 算力与芯片竞争 - 算力投入是决定AI竞争格局的关键因素 [1] - 芯片领域存在GPU与AI专用ASIC芯片的技术路线竞争，ASIC芯片在特定AI任务上效率更高，但GPU凭借灵活架构和广泛的软件生态支持，目前仍占据数据中心芯片市场90%的份额 [2] - 谷歌披露Gemini 3 Pro完全基于自研TPU芯片训练，随着OpenAI与博通、Anthropic与谷歌等合作的推进，ASIC芯片关注度持续提升，预计未来两类芯片将并行发展 [2] - 英伟达最新财报显示，其下一代GPU产品已获得5000亿美元的营收可见性，彰显算力需求的强劲增长态势 [2] - 随着英伟达Blackwell和Rubin等新一代芯片的推出，算力扩张的竞赛将持续，这也支持了瑞银近期对AI资本支出预测的上调 [3]

Artificial Intelligence

大语言模型

Claude Opus 4.5

Artificial Intelligence

大语言模型

Claude Opus 4.5

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

机器之心· 2025-12-07 12:33

强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型（LLM）的全新强化学习（RL）公式化方法，核心洞察是：为了优化序列级奖励的期望值，可以使用一个替代（surrogate）token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性，包括重要性采样权重、剪切（Clipping）机制以及针对混合专家（MoE）模型的路由重放（Routing Replay）方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验，总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式，而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题，引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中，动态专家路由机制可能破坏token级重要性采样比的有效性，带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化，即对整个模型生成的响应赋予一个标量奖励，而不采用基于价值函数的方法，因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难，主要挑战在于训练与推理之间的数值差异，以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发，通过重要性采样进行等价变换，并引入一个替代的token级优化目标，其梯度形式即为带token级重要性采样权重的基本策略梯度算法（REINFORCE） [11][12] - 该token级目标被视为序列级目标的一阶近似，其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型，专家路由与训练-推理差异、策略陈旧的紧密耦合，更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练，核心思想是在策略优化过程中固定路由到的专家，使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式：Vanilla Routing Replay（R2）旨在减轻专家路由对策略陈旧的影响；Rollout Routing Replay（R3）旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验，构建了包含4096道题目的RL训练提示集，并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中，带重要性采样校正的基本策略梯度算法（MiniRL）取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中，引入长度归一化会导致性能下降，因为其破坏了对真实序列级奖励的一阶近似；移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时，必须同时使用Routing Replay与Clipping才能实现稳定训练，缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致，表明研究重点应更多放在RL方法本身，而非冷启动细节 [10][27] - 无论是on-policy还是off-policy，只要训练过程稳定，其峰值性能都高度一致，说明稳定的训练过程在成功扩展RL中起决定性作用 [27]

大语言模型

Artificial Intelligence

大语言模型

Artificial Intelligence