Workflow
强化学习
icon
搜索文档
马斯克情人节“挥刀自宫”!为了一己私利,还是造福全人类?
电动车公社· 2026-02-12 00:06
FSD商业模式重大变革 - 公司宣布自2月14日起在北美和加拿大停售FSD买断服务,后续仅提供199美元/月(约合人民币1400元)的订阅模式 [2] - 允许终身版FSD“跟人不跟车”的转让权益将于3月31日结束,意味着在2月14日前以8000美元买断是获得永久使用权的最后机会 [3][5] - 公司通过“先砍权益、赠送试用、犹豫期逼单、按月付费”四步策略推动商业模式转变,旨在将一次性买卖转化为持续现金流并拓宽用户群体 [29][30][34][35][36][37][38] AI芯片技术路线与产能规划 - 最新的AI5芯片设计接近完成,目标在9个月内完成设计周期,下一代AI6芯片已启动研发 [5] - AI5芯片算力相比上一代HW 4.0提升约5倍(达2000-2500TOPS),将用于FSD、CyberCab无人驾驶出租车、Optimus人形机器人和Neuralink脑机接口 [5] - 芯片设计取向聚焦成本和功耗,旨在支持打造包含9000万台汽车和上百亿台机器人的规模 [6][7] - 为满足海量需求,公司计划找台积电、三星和英特尔代工,并自建一座晶圆月产能达100万片的TeraFab芯片工厂,且建设工期需从5年压缩至一两年 [11][12] FSD技术进展与性能表现 - FSD V12版本启用端到端算法,面对复杂路况能像真人一样迅速精确处理,操作流畅 [42][43] - 技术核心在于通过“预判”降低感知到决策、决策到执行的延迟,系统每秒能输出36个执行动作,远超许多车型的每秒10个左右 [46] - 2025年FSD V14版本实现0接管横跨美国4400公里(用时68小时)的旅程 [49][50] - 集成xAI后,FSD能理解并回应更复杂的自然语言指令,被评价为可能已通过物理图灵测试 [53] - 截至今年1月,FSD累计行驶里程达百万亿公里,其中城市复杂路况超40万亿公里;Robotaxi路测时间超1000万小时,每天产生的数据相当于人类500年驾驶时长 [56][57] FSD市场数据与商业化动力 - 2025年FSD用户同比增长38%,月付用户增长超100%,但总付费人数仅约110万名,渗透率不足12% [26][28] - 公司CEO绩效奖励目标之一为FSD活跃用户需连续3个月突破1000万 [24] - 若达到1000万月活用户,仅每月199美元的订阅费即可为公司带来20亿美元利润 [26] - 美国保险公司Lemonade宣布,特斯拉车主激活FSD可享车险保费5折优惠,为FSD安全性提供了第三方背书 [40][41] FSD中国本土化前景 - 短期内,公司在中国不会用月付会员制完全替代买断制,FSD价格将维持在6.4万元 [66] - 在中国缺乏大规模车队提供数据且数据出境难,主要依靠视频训练模型进行本土化调优 [64] - 公司在中国自建的训练中心算力规模无法与美国总部相比 [65] - 长期来看,满血版FSD入华时间点不再遥远,公司高管表示欧洲可能在2月用上,中国随后推进,FSD一直在针对中国市场进行适配 [68][69] 公司战略与使命更新 - 公司更新品牌使命,从“加速世界向可持续能源的转变”变为“建设一个富足非凡的世界”,目标转向全面拥抱AI,通过汽车和机器人发展生产力 [15][16] 辅助驾驶技术演进路径 - 技术发展从规则算法(依赖高精地图、激光雷达等)演进到端到端算法和VLM大模型(模仿学习人类驾驶),再到VLA大模型和世界模型(通过强化学习自我探索) [72][74][75][80][81] - 当前技术的天花板是“最强老司机”,实现L4级自动驾驶仍需冗余设计、安全可靠性验证及通过法规考核 [82][83] - 技术持续进步,新一代技术将推动辅助驾驶向自动驾驶发展 [85]
中金:人工智能十年展望:2026关键趋势之模型技术篇
中金· 2026-02-11 13:58
报告投资评级 - 报告未明确给出具体的行业或公司投资评级 [2] 报告核心观点 - 回顾2025年,全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,但通用能力在稳定性、幻觉率等方面仍有短板 [2] - 展望2026年,大模型将在强化学习、模型记忆、上下文工程等方面取得更多突破,从短文本生成向长思维链任务、从文本交互向原生多模态演进,向实现AGI的长期目标更进一步 [2] 技术视角:模型架构优化与提升智能上限 模型能力:聚焦推理、编程、Agentic与多模态 - **推理能力**:2025年模型推理能力上限和思维链利用效率均得到优化,强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思,并与工具调用结合形成“交错思维链” [17][18]。在MMLU-Pro测试中,头部模型如Gemini-3-Pro-Preview得分为90.5%,Claude-Opus-4.1为87.9%,GPT-5为87.1% [19] - **编程能力**:AI编程已进化为具备工程闭环能力的开发者代理,从代码补全到全栈自主构建。2025年约84%的全球开发者使用AI编程工具 [20]。在Code Arena测试中,Claude-opus-4-5-20251101-thinking-32k得分为1510,GPT-5.2-high为1478,Gemini-3-pro为1477 [22] - **Agentic能力**:核心技术突破之一是交错思维链的使用,使智能体能在思考与行动间高频切换,提升实时修正能力并降低幻觉。在HLE测试中,Gemini-3-pro-preview准确率为37.5%,GPT-5-pro为31.6%,GPT-5.2为27.8% [24][25] - **多模态能力**:图片生成在质量、理解与控制能力上实现大幅跃升,进入可控、可用、可规模化生产阶段。原生多模态架构(统一token化)普及,以Gemini-3为代表 [28]。在OpenCompass测试中,Gemini-3-Pro得分为66.4,Seed1.6-vision为61.1,Qwen3-VL-235B-A22B-Thinking为60.2 [30] - **能力差距**:国产大模型整体能力与海外头部模型维持约半年的静态差距,在海外模型推出3到6个月后,国内头部厂商能推出能力相当的模型并达到SOTA水准 [32][33] - **发展路径**:海外模型厂商追求模型智能上限,国内模型厂商在有限资源下通过开源路线、工程及算法优化追求效率与性能的平衡 [37] 模型架构:基于Transformer的优化延续 - **主流架构**:Transformer架构延续,优化聚焦于模型架构、算法和工程,以提升参数利用效率和模型智能潜力 [40] - **MoE架构**:平衡性能与效率的稀疏专家混合网络(MoE)成为共识,通常仅激活模型总参数的10-20%,显著降低计算量。国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [41] - **注意力机制**:基于算法和工程优化提升效率,主要分为全注意力(Full-Attention,复杂度O(N^2))、线性注意力(Linear-Attention,复杂度O(N))和混合注意力(Hybrid-Attention)。模型厂商根据效果持续优化选择,如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入稀疏注意力将计算复杂度降至O(Nk) [49][50] - **工程优化**:核心是降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制、长上下文优化等。通过线性注意力、稀疏注意力、MLA内存优化等技术降低计算复杂度和显存占用 [54][55] 训练范式:预训练与强化学习 - **预训练 Scaling-Law**:预计2026年预训练阶段的Scaling-Law将重现,旗舰模型参数量将更上一个台阶。预训练通过算法和工程优化仍有提升空间,随着英伟达GB系列芯片成熟,模型将基于更高性能的万卡集群进一步突破智能上限 [3][61] - **强化学习重要性**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”。海外模型厂商非常重视,国内厂商如DeepSeek、阿里千问也在跟进。预计2026年海内外模型厂商强化学习占比将进一步提升 [3][61] - **算力与数据基础**:强化学习需要大规模算力提供稳定性,并高度依赖高质量数据。高质量数据用于奖励模型训练和SFT冷启动 [62] - **算法演进**:强化学习路径从RLHF、PPO、DPO演进至推理导向的强化学习(如GRPO),并正从静态离线向动态在线演进 [64][66] 路线展望:持续学习、模型记忆与世界模型 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制,实现持续甚至终身学习。Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是落地的关键 [4][70] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图。当前主要有三条技术路径:李飞飞团队World Labs的Marble模型(创建持久3D世界)、LeCun的JEPA架构(认知预测)、Google DeepMind的Genie 3(交互仿真) [87][90] - **短期与中长期焦点**:2026年模型厂商短期将聚焦强化学习和上下文工程,中长期围绕持续学习、模型记忆和世界模型等创新路线 [67] 回顾与展望:海内外头部大模型巡礼 OpenAI - **2025年进展**:在推理、Agentic、多模态、代码能力上全方位提升,发布了GPT-4.1、o4-mini、GPT-5、Sora-2等模型。开始探索商业化,如在ChatGPT中插入推荐广告,与软件厂商合作探索企业智能代理 [93] - **2026年展望**:预计将加速商业兑现,拓展企业端和广告市场,借鉴Cowork和Moltbot等企业端Agent案例打造新产品 [95] Gemini (Google) - **2025年进展**:Gemini-3的发布使Google跻身第一梯队,其原生多模态能力突出。Nano banana Pro图像生成模型具备空间推理和光影控制能力。商业化上更聚焦产品提效,Gemini月活达6.5亿,API每分钟消耗70亿tokens [98] - **2026年展望**:预计将延续原生多模态优势,推进Scaling-law,提升长链推理和端到端编程能力,并加速探索世界模型 [99] Anthropic - **2025年进展**:延续在编程领域的优势,发布了Claude Opus-4.5等模型,加强了代码与长任务处理能力。推出了面向开发者的Claude Code(ARR已突破10亿美元)和面向泛化用户的Cowork,探索企业Agent场景 [101][102] - **2026年展望**:预计将提升记忆能力,探索更多Agent泛化场景,让Cowork等产品具备“永久记忆”,成为理解用户的专属智能体 [103][104] 阿里通义千问 - **布局**:布局全模态模型矩阵,打开Agent市场空间 [105]
首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈
机器之心· 2026-02-10 16:52
行业技术范式演进 - 当前大模型行业共识正从单纯扩大预训练参数,转向挖掘“测试时扩展”的潜力,利用测试时的算力进行有效训练成为焦点[1][5] - DeepSeek-R1等模型的成功证明了强化学习在推理任务上的威力,但现有强化学习范式通常依赖大量高质量标注,限制了扩展性[7] - 为摆脱对标签的依赖,“测试时训练”应运而生,其核心是在测试阶段利用模型生成的伪标签进行即时更新[7] 现有技术瓶颈与创新动机 - 面对高难度推理任务时,现有测试时训练方法因伪标签噪声过大而陷入“瞎猜”困境,存在“能力错配”悖论[2][8] - 两大核心挑战:1) 伪标签不可靠,基于错误共识训练会导致模型“越学越偏”;2) 缺乏中间难度阶梯,模型无法跨越巨大的难度鸿沟[13] - 创新动机源于思考:模型能否像人类自学者一样,通过自己给自己出题,将难题拆解为一组可解决的练习题,实现螺旋上升[8] TTCS框架核心方法论 - TTCS是一个基于共进化的测试时课程合成框架,不依赖任何外部人工标注[2][10] - 框架构建了一个包含两个共享初始权重Agent的闭环生态系统:Synthesizer(合成器/出题老师)和Solver(求解器/学生)[11][12][14] - 核心机制是通过精密的能力自适应奖励机制寻找模型的“能力边界”,奖励函数设计为迫使Synthesizer生成模型“似懂非懂”的题目[16][19] - 形成闭环效应:Solver能力提升后,其能力边界移动,Synthesizer随之生成更难题目,二者相互追赶,实现动态课程学习[16] 实验性能表现 - 在Qwen2.5-Math-1.5B模型上,TTCS将数学推理平均分从17.30提升至41.49,暴涨24.19分[3][20] - 在Qwen2.5-Math-7B模型上,TTCS平均分达到52.54,相比广泛使用的Self-Consistency方法的32.15分提升20.39分[20] - 在极具挑战的AIME竞赛题上表现突出:在1.5B模型上,AIME 2024得分从TTRL的13.23分跃升至19.79分,提升6.56分;在7B模型上,AIME 2025得分达到19.90分,显著优于TTRL的14.06分[21][23] 框架有效性深度分析 - 具备泛化性:在AIME上进行测试时训练的TTCS模型,在MMLU-Pro和SuperGPQA等通用领域推理任务上也实现了性能跃升,表明学到的是通用推理逻辑而非简单过拟合[22] - “动态老师”优于“静态名师”:共进化的1.5B Synthesizer带来的提升是静态14B Synthesizer的两倍,揭示了适应学生当前水平的老师比单纯水平高的老师更重要[25] - 数据效率惊人:即使只使用10%的测试数据,TTCS在AIME24上的准确率就能达到13.33,远超同等数据量下TTRL的表现[27] 行业意义与展望 - TTCS框架是对“测试时计算”范式的一次重构,证明了模型在测试时应是主动的课程设计者而非被动的解题者[30] - 该框架完美解决了测试时训练中“数据稀缺”和“难度断层”两大痛点[31] - 为提升大模型在复杂数学、代码推理任务上的表现提供了新思路,为未来自进化智能体奠定了坚实基础[31]
强化学习,正在决定智能驾驶的上限
36氪· 2026-02-10 12:45
文章核心观点 - 智能驾驶行业正从概念验证阶段进入工程化落地阶段 技术路径的博弈结果取决于技术范式、工程约束与现实场景的融合[1] - 行业共识是强化学习正从“技术选项”变为“必选项” 被认为是决定智能驾驶能力上限的底层能力[7][9] - 智能驾驶的训练体系正从依赖模仿学习转向结合强化学习 模仿学习确保安全基础 强化学习实现策略进化与能力提升[21][25] - 强化学习的有效应用高度依赖精心设计的奖励函数和高质量的世界模型 这两者是提升系统“含模量”和智能水平的关键[30][41][49][60] 技术路径演进 - 行业早期依赖模仿学习 通过让AI学习人类驾驶数据来快速获得稳定、安全的驾驶能力 但上限受限于数据质量且难以应对未知场景[11][14][16] - 强化学习通过试错和最大化长期奖励进行学习 能让AI超越人类经验 应对复杂博弈和极端长尾场景 是能力进阶的路径[17][19][20] - 端到端模型为强化学习铺平了道路 它将感知、理解、控制打包 让AI能完整接管驾驶任务 两者常组合使用[19] - 当前主流训练范式是结合两者:先用模仿学习将模型拉到“能安全跑”的水平 再用强化学习进行精修和策略提升[24][25] 强化学习的核心机制:奖励函数 - 奖励函数是将“开得好”具象化为机器可理解分数的关键 它定义了AI的驾驶风格与水平[30][31] - 行业普遍围绕五个核心指标设计奖励函数:安全、合规、舒适、效率、稳定性 其中安全是红线指标且权重最高[32][33][36] - 奖励设计需在矛盾目标间找到精妙平衡 例如安全与效率 并通过提供多种驾驶模式来满足用户个性化需求[32][34] - 奖励函数设计是“代码的艺术” 需避免AI“刷分” 通过过程密集拆解和分层控制来引导正确行为 并可能引入人类反馈偏好[37][38][39][41] 强化学习的进阶:世界模型 - 强化学习在智能驾驶中的工程应用可分为三层:调参型、策略型、以及基于世界模型的强化学习[43] - 世界模型是一个高度拟真的虚拟现实系统 它为强化学习提供了可信的“试错”环境 能大幅提升其训练效果和上限[48][49][53] - 世界模型让AI具备长时推演能力 可以训练长期最优策略 而不仅仅是当前最优解[50] - 世界模型与强化学习结合能形成进化飞轮:真实道路数据、世界模型造场景、强化学习练策略、实车验证 形成高速迭代循环[51][52] 行业竞争格局与关键变量 - 头部企业如理想、小鹏、Momenta等都在将资源向强化学习路线倾斜[5] - 华为、文远知行、英伟达等头部玩家正将世界建模与强化学习深度耦合 以构建更强大的智能系统[54] - 竞争维度正在变化:在高质量世界模型与生成式仿真加持下 合成数据能力提升 原始数据的边际价值下降 对世界规律的建模能力变得更为稀缺[56][57][58] - 系统“含模量”成为关键指标 即系统能力有多少是模型自我演化而来 世界模型与强化学习的耦合旨在提升“含模量”[60][61][62]
训练加速1.8倍,推理开销降78%,精准筛选题目高效加速RL训练
36氪· 2026-02-09 18:39
行业技术背景与挑战 - 以DeepSeek R1为代表,基于强化学习(RLVR)微调显著提升大语言模型推理能力,但强化微调成本高昂 [1] - 高昂成本主要源于训练过程中的“低效”,大量算力浪费在无法提供有效学习信号的题目上 [1] - 现有主流“挑题”策略存在明显缺陷:“题海战术”(Uniform Sampling)导致大量算力浪费;“先测后学”(Dynamic Sampling, DS)依赖大模型“自测”,推理成本依然高昂 [2] MoPPS框架核心创新 - 清华大学THU-IDM团队与慕尼黑大学CompVis团队合作,提出全新框架:基于模型预测的提示选择(Model Predictive Prompt Selection, MoPPS) [2] - 核心解决思路是无需昂贵的大模型评估,动态预测题目难度并精准挑选训练数据,以更高效提升模型推理能力 [5] - 将每道题目建模为“老虎机”,每个题目有一个未知的“获胜概率”(即模型在当前参数下答对的成功率) [7] - 采用轻量化的贝叶斯难度预测,为每个题目配备Beta分布来估计其成功率,并通过二值反馈递归更新,计算量极低 [8] - 引入时间衰减因子以适应模型能力动态变化的环境 [9] - 使用Thompson Sampling进行主动问题筛选,从候选集中挑选最接近目标难度(成功率约0.5)的“黄金题”,平衡探索与利用 [10] 性能与效率优势 - 与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [15] - 相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且训练效果更好 [16] - 在R1-Distill-Owen-1.5B模型上,MoPPS在多项基准测试中的平均性能达到51.83,与DS(Oracle)的52.00相当,但仅使用737k Rollouts,远低于DS的2933k [17] - 在R1-Distill-Qwen-7B模型上,MoPPS平均性能达62.20,与DS的62.42相当,但仅使用287k Rollouts,远低于DS的1147k [17] - MoPPS预测的题目难度与真实难度之间具有极高的相关性(Spearman Rank Correlation),证明了其预测的有效性和可靠性 [19] 方法适用性与行业影响 - MoPPS作为“数据筛选器”即插即用,可兼容PPO、GRPO、Reinforce++等多种强化学习算法 [20] - 在PPO (k=1)算法下,MoPPS在CD-34和CD-4基准上的性能分别为69.12和40.11,显著优于Uniform采样的62.33和32.65 [23] - 支持不同采样策略并可引入先验信息,默认采用Top-B采样,也可扩展为阈值采样,并能结合先验知识加速前期训练 [24] - 该工作已被KDD 2026接收,受到包括阿里千问、腾讯混元、蚂蚁等业界的关注,以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用 [4] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,其核心贡献在于提出了一种全新的“先预测,再优化”范式 [26]
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
量子位· 2026-02-09 17:50
文章核心观点 - 清华大学与慕尼黑大学团队提出的MoPPS框架,通过一种轻量化的“先预测,再优化”范式,能够在不依赖昂贵大模型自评估的情况下,动态预测并筛选出难度最合适的训练题目,从而显著降低大语言模型强化学习微调的成本并大幅提升训练效率 [3][6][15][31] 大模型强化微调面临的效率挑战 - 以DeepSeek R1为代表,基于强化学习微调能提升模型推理能力,但训练过程成本高昂,主要源于“低效”学习,即大量算力被浪费在过于简单或过于困难、无法提供有效学习信号的题目上 [1] - 传统“题海战术”从题库中随机抽题训练,会导致梯度坍缩,资源被白白浪费 [2] - 传统“先测后学”策略依赖大模型对候选题目集进行“自测”来筛选,虽然能提升效率,但“自测”本身需要大量LLM推理,成本依然高昂 [2][8] MoPPS框架的核心机制 - MoPPS将每一道训练题目建模为一个“老虎机”臂,其核心目标是估计并优先选择成功率接近0.5的中等难度题目 [9][11] - 采用极低开销的轻量化贝叶斯模型进行难度预测:为每个题目维护一个Beta分布,通过模型训练产生的“成功/失败”二值反馈直接递归更新分布参数,计算量极低 [10][11][12] - 引入时间衰减因子,使难度估计能适应模型能力变化的动态环境 [11] - 使用Thompson Sampling策略进行主动题目筛选,平衡对已知最优题目的利用和对潜在有价值新题的探索 [11][14][20] MoPPS框架的性能优势 - **大幅降低算力成本**:与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46% [18] - **显著提升训练效率**:相较于传统的“题海战术”,MoPPS实现了高达1.6倍至1.8倍的训练加速,且最终训练效果更好 [21] - **难度预测精准可靠**:MoPPS预测的题目难度与真实难度之间具有极高的相关性,证明了其预测的有效性 [25][29] 实验数据与效果验证 - 在AIME24、AMC23、MATH500等多个数学推理基准测试中,基于Qwen-1.5B模型,MoPPS方法取得了32.92、66.72、84.82的分数,性能优于Uniform采样和HIR方法,与需要大量额外计算的DS方法相当甚至更优,且仅使用了737k Rollouts [22] - 基于Qwen-7B模型,MoPPS方法在多个基准上取得48.54至91.04的分数,性能接近DS方法,但Rollouts仅为287k,远低于DS方法的1147k [22] - MoPPS框架具有良好的兼容性,可作为即插即用的“数据筛选器”,适配PPO、GRPO、Reinforce++等多种强化学习算法,并均能带来性能提升 [26][27] 方法适用性与行业影响 - MoPPS框架支持不同的题目筛选策略,并能结合先验知识以加速前期训练 [28][31] - 该工作已被KDD 2026接收,并受到阿里千问、腾讯混元、蚂蚁等业界公司,以及多位知名学者的关注和引用 [5] - 该研究为大模型强化微调领域提供了一个“降本增效”的利器,未来有希望应用于更大规模的大模型强化学习后训练 [31]
一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?
36氪· 2026-02-06 18:15
行业动态:2026年初大模型集中发布潮 - 2026年开年,大模型行业迎来密集发布,Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash接连推出 [1] - OpenAI和Anthropic几乎同时推出小版本迭代GPT-5.3-Codex和Claude Opus 4.6 [2] - 多家中国公司计划在春节前后发布新一代模型,包括智谱的GLM-5、MiniMax的M2.2、字节跳动的Doubao 2.0等模型矩阵,以及可能更新的DeepSeek V3系列 [4][5] - 中美头部玩家几乎同时推进大版本迭代,竞争焦点从参数规模转向定义2026年的AI [7] 技术升级方向:新一代模型的三大重点 - **推理能力普及化**:推理正成为下一代基础模型的默认能力,例如GLM-5强调复杂任务的一致性完成能力,Step 3.5 Flash在196B参数规模下实现秒回应并采用MTP-3技术,Gemini 3.5也强化了深度推理模式 [9][10][13] - **长上下文系统化**:长上下文从“指标”变为“系统能力”,更注重真实工作场景应用,如腾讯混元推出CL-bench基准测试,DeepSeek V4论文提出“Engram条件记忆”机制,在计算量较MoE减少18%的情况下于32768个token任务中反超同参数量MoE模型 [14][16] - **Agent核心化**:Agent正在重新定义基础模型,成为AI系统的核心,强调在较少人工干预下完成完整任务的能力,例如Step 3.5 Flash“为Agent而生”,Claude 5被曝强化多Agent协作的“蜂群模式” [17][19] 竞争格局与市场影响 - 2026年春节前后成为模型集中发布“同步窗口”,原因包括DeepSeek去年春节的成功示范、技术周期成熟以及上市融资等竞争节奏 [20] - 行业可能进入“连续发布”阶段,从春节前持续到3月初,但单一模型难以长期吸引注意力,对模型和营销是巨大考验 [21] - 模型发布后将迅速经历真实场景横向对比,差距会在极短时间内形成共识,胜负关键取决于发布后能否被快速广泛使用并形成入口与调用习惯 [22][25][26] - 本轮更新可能带来代际跃迁,涉及训练方式、推理模式与模型定位的同步变化,使模型从“功能组件”变为“系统底座”,影响未来一年的全球大模型格局 [23][24]
每日投行/机构观点梳理(2026-02-05)
金十数据· 2026-02-05 20:26
贵金属市场 - 路透调查显示,黄金有望在2026年再创新高,预期中值为每盎司4746.50美元,较去年10月预估的4275美元显著上升,一年前的预期仅为2700美元 [1] - 推动金价上涨的主要因素包括地缘政治风险、央行持续购金、对美联储独立性的担忧、美国债务上升、贸易不确定性以及“去美元化”趋势,这些因素预计在2026年继续支撑黄金 [1] - 白银价格预期同样被上调,目前预计2026年白银均价为每盎司79.50美元,而去年10月调查中对2026年的预期仅为50美元 [1] - 受美元走强影响,黄金和白银在亚洲交易时段双双下跌,强势美元成为贵金属走势的阻力 [2] 全球股市与区域配置 - 瑞银预计今年年底全球股市将上涨约10%,美国市场依然是投资者股票配置的核心组成部分,且后续仍有上行潜力 [3] - 瑞银看好中国、日本和欧洲市场,认为战略自主的推进、区域财政扩张和结构性改革有望在各地催生受益者 [3] - 中国政府对本土人工智能模型和芯片制造的明确支持,将为中国科技股进一步上涨奠定基础 [3] - 低利率环境下国内投资者追逐收益,医疗保健企业“走出去”、新消费模式兴起及电网现代化等结构性利好,有望惠及金融、医疗保健、消费、材料和电力设备等行业 [3] 外汇市场动态 - 日元兑美元跌至接近两周低点,市场对首相高市早苗在周日提前举行的选举中巩固执政地位的信心增强,这对日元构成压力 [4] - 三井住友日兴证券策略师认为,即便当局可能干预,日元仍可能进一步走软,市场共识是美元/日元汇率存在上行偏好 [5] - 高盛警告称,日本财政风险仍明显偏向上行,支出方面的担忧正在对日本国债和日元构成压力,除非日本央行转向更快的加息步伐 [5] - 法兴银行表示,欧元在2026年下半年可能转而对美元走弱,因为近期欧元升值的幅度已超过利差所能解释的水平 [6] - 西太平洋银行首席经济学家表示,澳洲联储可能被迫在3月份连续第二次加息,尽管核心预测仍是5月加息,但如果数据表现出更强势头,连续加息就可能发生 [6] 美国货币政策与金融市场 - 中信证券研报称,当前美国金融市场环境不具备缩表的条件,考虑到1月美国资金市场流动性压力才明显缓解,当前准备金占GDP比重仍为10%左右,美联储持有资产占GDP比重为20%左右,已接近疫情前2018年的水平 [6] 人工智能与科技发展 - 中金指出,回顾2025年,全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破 [7] - 银河证券认为,AI带来的收益主要体现在两条路径:平台端带动时长、转化与商业化效率提升;内容与工具端提升生产效率并降本,建议关注港股互联网、AI应用及产业链相关、内容端 [9] 医药行业 - 中泰证券战略看好原料药板块,小核酸、多肽、ADC毒素等创新药热门赛道带来产业链催化不断,在早期临床进展积极、早期市场导入顺利的催化下再度加强 [7] - 重点看好技术、产能领先,业务确定性强的联化科技、奥锐特、九洲药业、诺泰生物、天宇股份、美诺华等,板块多数公司当前处在存量业务见底,增量业务有望发力的拐点区间 [7] 汽车行业 - 中信证券指出,2026年开年,汽车行业受存储、动力电池、上游资源品等原材料超预期涨价影响,一季度利润率面临压力 [8] - 存储涨价因AI超级周期挤占需求,持续时间可能贯穿全年,对智能汽车成本影响刚性、但幅度大概率小于1% [8] - 电池由碳酸锂涨价也面临成本提升,测算2026年全年平均单车成本提升约3000元,不过由于碳酸锂价格传导有缓冲,且主机厂对带电量具有主动调节性,该影响并非刚性 [8] - 铜铝涨价由上游资源品价格异动影响,单车平均增加成本约2000元,久期难以判断,套期保值可部分对冲影响 [8] - 建议关注成本转嫁能力强、产品结构优、全球化布局领先的整车企业 [8] 日本政治与市场 - 中金研报称,日本众议院选举将于2月8日举行,此次选举是选择执政党及首相的关键政治选举 [9] - 目前日本主流媒体的舆论调查显示自民党获得席位或较选举前大幅增加,存在单独过半数的可能性,在此情景下,各类日本资产的价格波动方向或发生日股大幅上升、日债利率上行、日元贬值的走势 [9]
强化学习远不是最优,CMU刚刚提出最大似然强化学习
机器之心· 2026-02-05 15:52
文章核心观点 - 一项来自CMU、清华大学、浙江大学等机构的研究指出,当前广泛使用的强化学习(RL)并未真正优化最大似然目标,而只是在优化其一阶近似,这导致了模型性能提升后期困难 [2][6][7] - 研究团队提出了最大似然强化学习(MaxRL),通过引入一族以计算量为索引的目标函数,使训练目标能逐步逼近真正的最大似然优化,从而在性能和计算效率上显著超越现有强化学习方法 [2][9][22] 传统强化学习的局限与理论新发现 - 在代码生成、数学推理、多步决策等任务中,业界已形成共识:只要反馈是二值的、过程是不可微的,就使用强化学习 [5] - 严格的理论分析显示,基于期望奖励的强化学习只是在优化最大似然目标的一阶近似,并未真正最大化模型生成正确答案的概率 [2][6][7] - 这一理论偏差解释了强化学习在训练后期性能提升越加困难的现象 [8] 最大似然强化学习(MaxRL)的理论框架 - 研究将基于正确性反馈的强化学习形式化为一个潜变量生成的最大似然问题 [9] - 提出了一族以计算量为索引的目标函数,通过对pass@k事件进行Maclaurin展开,在期望回报与精确最大似然之间实现连续插值 [9][11] - 当截断级别T=1时,目标函数还原为标准强化学习;当T→∞时,还原为最大似然;中间的T值则在两者之间插值 [15] - 最大似然目标的梯度可以等价表示为仅对成功轨迹的梯度进行平均,这为构造简洁的梯度估计器提供了直接途径 [18][19] - MaxRL提供了一个原则性框架,通过增加计算量来换取对最大似然目标更高保真度的近似 [16][20] MaxRL的实验性能与效率优势 - 在多个模型规模和多类任务上的系统评估显示,MaxRL在性能与计算效率的权衡上稳定优于现有强化学习方法 [22] - 在相同训练步数下,MaxRL性能提升明显更快,并且随着rollout数的增加持续受益 [24] - 相较于使用GRPO训练的模型,MaxRL测试时的scaling效率最高可提升20倍 [24] - 在迷宫任务中,随着训练rollouts增加,MaxRL能持续降低−log(Pass@k),而GRPO与RLOO的改进幅度则明显更早趋于平缓 [25] - 对于GRPO与RLOO,性能曲线在早期下降后迅速变平,说明额外采样主要用于降低噪声;而MaxRL在不同k值下均保持持续下降,推动模型不断逼近更接近最大似然的优化目标 [26] - 在更大规模设置下,MaxRL的优势依然保持稳定,未出现收益递减过快或优势消失的现象 [29] - 即使在反馈存在噪声或验证信号并非完全可靠的设置下,MaxRL仍然能够保持相对稳定的性能优势 [30]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]