Workflow
强化学习
icon
搜索文档
一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?
36氪· 2026-02-06 18:15
行业动态:2026年初大模型集中发布潮 - 2026年开年,大模型行业迎来密集发布,Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash接连推出 [1] - OpenAI和Anthropic几乎同时推出小版本迭代GPT-5.3-Codex和Claude Opus 4.6 [2] - 多家中国公司计划在春节前后发布新一代模型,包括智谱的GLM-5、MiniMax的M2.2、字节跳动的Doubao 2.0等模型矩阵,以及可能更新的DeepSeek V3系列 [4][5] - 中美头部玩家几乎同时推进大版本迭代,竞争焦点从参数规模转向定义2026年的AI [7] 技术升级方向:新一代模型的三大重点 - **推理能力普及化**:推理正成为下一代基础模型的默认能力,例如GLM-5强调复杂任务的一致性完成能力,Step 3.5 Flash在196B参数规模下实现秒回应并采用MTP-3技术,Gemini 3.5也强化了深度推理模式 [9][10][13] - **长上下文系统化**:长上下文从“指标”变为“系统能力”,更注重真实工作场景应用,如腾讯混元推出CL-bench基准测试,DeepSeek V4论文提出“Engram条件记忆”机制,在计算量较MoE减少18%的情况下于32768个token任务中反超同参数量MoE模型 [14][16] - **Agent核心化**:Agent正在重新定义基础模型,成为AI系统的核心,强调在较少人工干预下完成完整任务的能力,例如Step 3.5 Flash“为Agent而生”,Claude 5被曝强化多Agent协作的“蜂群模式” [17][19] 竞争格局与市场影响 - 2026年春节前后成为模型集中发布“同步窗口”,原因包括DeepSeek去年春节的成功示范、技术周期成熟以及上市融资等竞争节奏 [20] - 行业可能进入“连续发布”阶段,从春节前持续到3月初,但单一模型难以长期吸引注意力,对模型和营销是巨大考验 [21] - 模型发布后将迅速经历真实场景横向对比,差距会在极短时间内形成共识,胜负关键取决于发布后能否被快速广泛使用并形成入口与调用习惯 [22][25][26] - 本轮更新可能带来代际跃迁,涉及训练方式、推理模式与模型定位的同步变化,使模型从“功能组件”变为“系统底座”,影响未来一年的全球大模型格局 [23][24]
每日投行/机构观点梳理(2026-02-05)
金十数据· 2026-02-05 20:26
贵金属市场 - 路透调查显示,黄金有望在2026年再创新高,预期中值为每盎司4746.50美元,较去年10月预估的4275美元显著上升,一年前的预期仅为2700美元 [1] - 推动金价上涨的主要因素包括地缘政治风险、央行持续购金、对美联储独立性的担忧、美国债务上升、贸易不确定性以及“去美元化”趋势,这些因素预计在2026年继续支撑黄金 [1] - 白银价格预期同样被上调,目前预计2026年白银均价为每盎司79.50美元,而去年10月调查中对2026年的预期仅为50美元 [1] - 受美元走强影响,黄金和白银在亚洲交易时段双双下跌,强势美元成为贵金属走势的阻力 [2] 全球股市与区域配置 - 瑞银预计今年年底全球股市将上涨约10%,美国市场依然是投资者股票配置的核心组成部分,且后续仍有上行潜力 [3] - 瑞银看好中国、日本和欧洲市场,认为战略自主的推进、区域财政扩张和结构性改革有望在各地催生受益者 [3] - 中国政府对本土人工智能模型和芯片制造的明确支持,将为中国科技股进一步上涨奠定基础 [3] - 低利率环境下国内投资者追逐收益,医疗保健企业“走出去”、新消费模式兴起及电网现代化等结构性利好,有望惠及金融、医疗保健、消费、材料和电力设备等行业 [3] 外汇市场动态 - 日元兑美元跌至接近两周低点,市场对首相高市早苗在周日提前举行的选举中巩固执政地位的信心增强,这对日元构成压力 [4] - 三井住友日兴证券策略师认为,即便当局可能干预,日元仍可能进一步走软,市场共识是美元/日元汇率存在上行偏好 [5] - 高盛警告称,日本财政风险仍明显偏向上行,支出方面的担忧正在对日本国债和日元构成压力,除非日本央行转向更快的加息步伐 [5] - 法兴银行表示,欧元在2026年下半年可能转而对美元走弱,因为近期欧元升值的幅度已超过利差所能解释的水平 [6] - 西太平洋银行首席经济学家表示,澳洲联储可能被迫在3月份连续第二次加息,尽管核心预测仍是5月加息,但如果数据表现出更强势头,连续加息就可能发生 [6] 美国货币政策与金融市场 - 中信证券研报称,当前美国金融市场环境不具备缩表的条件,考虑到1月美国资金市场流动性压力才明显缓解,当前准备金占GDP比重仍为10%左右,美联储持有资产占GDP比重为20%左右,已接近疫情前2018年的水平 [6] 人工智能与科技发展 - 中金指出,回顾2025年,全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破 [7] - 银河证券认为,AI带来的收益主要体现在两条路径:平台端带动时长、转化与商业化效率提升;内容与工具端提升生产效率并降本,建议关注港股互联网、AI应用及产业链相关、内容端 [9] 医药行业 - 中泰证券战略看好原料药板块,小核酸、多肽、ADC毒素等创新药热门赛道带来产业链催化不断,在早期临床进展积极、早期市场导入顺利的催化下再度加强 [7] - 重点看好技术、产能领先,业务确定性强的联化科技、奥锐特、九洲药业、诺泰生物、天宇股份、美诺华等,板块多数公司当前处在存量业务见底,增量业务有望发力的拐点区间 [7] 汽车行业 - 中信证券指出,2026年开年,汽车行业受存储、动力电池、上游资源品等原材料超预期涨价影响,一季度利润率面临压力 [8] - 存储涨价因AI超级周期挤占需求,持续时间可能贯穿全年,对智能汽车成本影响刚性、但幅度大概率小于1% [8] - 电池由碳酸锂涨价也面临成本提升,测算2026年全年平均单车成本提升约3000元,不过由于碳酸锂价格传导有缓冲,且主机厂对带电量具有主动调节性,该影响并非刚性 [8] - 铜铝涨价由上游资源品价格异动影响,单车平均增加成本约2000元,久期难以判断,套期保值可部分对冲影响 [8] - 建议关注成本转嫁能力强、产品结构优、全球化布局领先的整车企业 [8] 日本政治与市场 - 中金研报称,日本众议院选举将于2月8日举行,此次选举是选择执政党及首相的关键政治选举 [9] - 目前日本主流媒体的舆论调查显示自民党获得席位或较选举前大幅增加,存在单独过半数的可能性,在此情景下,各类日本资产的价格波动方向或发生日股大幅上升、日债利率上行、日元贬值的走势 [9]
强化学习远不是最优,CMU刚刚提出最大似然强化学习
机器之心· 2026-02-05 15:52
文章核心观点 - 一项来自CMU、清华大学、浙江大学等机构的研究指出,当前广泛使用的强化学习(RL)并未真正优化最大似然目标,而只是在优化其一阶近似,这导致了模型性能提升后期困难 [2][6][7] - 研究团队提出了最大似然强化学习(MaxRL),通过引入一族以计算量为索引的目标函数,使训练目标能逐步逼近真正的最大似然优化,从而在性能和计算效率上显著超越现有强化学习方法 [2][9][22] 传统强化学习的局限与理论新发现 - 在代码生成、数学推理、多步决策等任务中,业界已形成共识:只要反馈是二值的、过程是不可微的,就使用强化学习 [5] - 严格的理论分析显示,基于期望奖励的强化学习只是在优化最大似然目标的一阶近似,并未真正最大化模型生成正确答案的概率 [2][6][7] - 这一理论偏差解释了强化学习在训练后期性能提升越加困难的现象 [8] 最大似然强化学习(MaxRL)的理论框架 - 研究将基于正确性反馈的强化学习形式化为一个潜变量生成的最大似然问题 [9] - 提出了一族以计算量为索引的目标函数,通过对pass@k事件进行Maclaurin展开,在期望回报与精确最大似然之间实现连续插值 [9][11] - 当截断级别T=1时,目标函数还原为标准强化学习;当T→∞时,还原为最大似然;中间的T值则在两者之间插值 [15] - 最大似然目标的梯度可以等价表示为仅对成功轨迹的梯度进行平均,这为构造简洁的梯度估计器提供了直接途径 [18][19] - MaxRL提供了一个原则性框架,通过增加计算量来换取对最大似然目标更高保真度的近似 [16][20] MaxRL的实验性能与效率优势 - 在多个模型规模和多类任务上的系统评估显示,MaxRL在性能与计算效率的权衡上稳定优于现有强化学习方法 [22] - 在相同训练步数下,MaxRL性能提升明显更快,并且随着rollout数的增加持续受益 [24] - 相较于使用GRPO训练的模型,MaxRL测试时的scaling效率最高可提升20倍 [24] - 在迷宫任务中,随着训练rollouts增加,MaxRL能持续降低−log(Pass@k),而GRPO与RLOO的改进幅度则明显更早趋于平缓 [25] - 对于GRPO与RLOO,性能曲线在早期下降后迅速变平,说明额外采样主要用于降低噪声;而MaxRL在不同k值下均保持持续下降,推动模型不断逼近更接近最大似然的优化目标 [26] - 在更大规模设置下,MaxRL的优势依然保持稳定,未出现收益递减过快或优势消失的现象 [29] - 即使在反馈存在噪声或验证信号并非完全可靠的设置下,MaxRL仍然能够保持相对稳定的性能优势 [30]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]
致敬Kimi K2:基于slime的全流程INT4量化感知RL训练
机器之心· 2026-02-03 18:35
技术方案核心 - 成功落地了从训练到推理的完整INT4量化感知训练全流程方案 该方案采用“训练端伪量化 + 推理端真实量化”的组合 实现了与BF16全精度训练相媲美的稳定性与训推一致性 [2][3] - 通过INT4极致压缩 将1TB级别的超大模型采样任务容纳于单机H200的141GB显存内 消除了跨机通信瓶颈 显著提高了Rollout效率 [2] - 方案在开源生态中打通了全流程 为社区提供了兼顾高性能与低成本的可落地参考 [3] 技术方案细节 - 总体流程实现了从训练到推理的完整QAT INT4闭环 核心收益包括突破显存瓶颈、实现训推一致以及单机效率倍增 [6] - 在QAT训练阶段 训练侧维护BF16主权重 前向传播通过伪量化引入量化噪声 反向传播则利用STE技术确保梯度能够回传以更新主权重 [8][9] - 在权重转换阶段 将训练收敛的BF16权重导出并执行真实量化 转换为INT4格式 供推理引擎使用 [10] - 在推理阶段 由SGLang加载INT4权重并执行高效的W4A16推理 生成的经验数据回流用于下一轮RL训练 构成迭代闭环 [10] 核心策略选择 - 量化格式参考了Kimi-K2-Thinking 选用了INT4方案 主要考虑其在现有硬件上的支持更广泛 且有成熟的Marlin Kernel实现 [11] - 在1×32量化Scale粒度下 INT4动态范围充足、精度稳定 其性能与生态链路均已高度优化 [11] - 训练方法采用了Fake Quantization配合STE的经典组合 通过维护BF16主权重并在前向计算中模拟量化噪声 最大程度保证了低精度训练的收敛性与稳定性 [11] 训练侧改造与验证 - 在Megatron-LM中实现了Fake Quantization与STE机制 核心是在前向传播中将权重动态映射到INT4精度范围参与计算 但在反向传播时让梯度直接穿透量化层 [16][17] - 通过消融实验验证了QAT方案的必要性 实验证明训练端的Fake Quantization与推理端的Real Quantization必须协同开启 才能有效抑制训推不一致和分布偏移 [18][21] - 在“关闭QAT训练,直接进行INT4 Rollout”的传统PTQ模式下 误差随着训练步数呈现震荡上升的趋势 [21] 权重更新与格式适配 - 工程落地时遇到了“格式鸿沟” QAT训练产出标准格式权重 而SGLang推理引擎的Marlin Kernel要求权重必须经过特定的打包与重排处理 [25] - 设计了一套逆向的`restore_weights_before_loading`保护机制 确保模型能在标准权重格式与Marlin权重格式之间平滑切换 [27] - 实现了动态权重管理机制 在模型权重加载结束后自动触发流程 将标准权重即时转换为高度优化的Marlin权重格式 [28] 推理阶段优化 - SGLang在推理阶段复用了优化成熟的W4A16量化方案 使用紧凑的INT4格式 将两个4-bit权重打包进一个字节 相比BF16节省了75%的内存 [32] - 引入了动态的`moe_align_block_size` 根据当前Token数量和Expert分布自动选择block_size 提升显存带宽利用率 [35] - 将gating部分融合成一个高性能的kernel 避免了反复启动kernel和读写中间结果 [35] 训练与评估效果 - 在Qwen3-235B-A22B与Kimi-K2-Thinking模型上的训练实验表明 “BF16训 - INT4推”配置下的Raw-Reward能保持稳健增长 且增长趋势与“BF16训 - BF16推”及“BF16训 - FP8推”基本一致 [38][41] - 在aime-2024基准测试集上的评估显示 “BF16训 - INT4推”方案的评估分数呈现稳健上升态势 其性能提升的斜率与最终峰值 均与全精度及FP8方案保持了较高的重合度 [42][46] - 在Qwen3-30B与Qwen3-235B模型上的验证显示 INT4 QAT策略下的训推差异与BF16基准呈现出惊人的重合度 且显著低于FP8模式 [51] 性能表现分析 - 在Qwen3-235B的Rollout性能对比中 INT4与FP8均较BF16基线实现了显著加速 但由于NVIDIA H系列GPU没有原生的INT4 Tensor Core INT4在单步推理耗时上仅表现出微弱优势 与FP8基本处于同一性能梯队 [54] - 对于Kimi-K2-Thinking模型 在双节点场景下INT4与FP8性能相似 整体受限于跨节点通信带宽 但在单节点场景下 INT4通过将模型体积减半 成功将1TB级模型加载至单机显存 消除了跨机通信开销 大幅缩减了Rollout耗时 [56][61] - INT4 QAT方案在当前硬件环境下的核心收益在于通过压缩显存 解锁了高效的单机部署Rollout方案 [56] 未来工作方向 - 计划解决训练侧因引入QAT Fake Quantization计算带来的较大额外性能开销问题 旨在实现全链路的加速 [62] - 随着NVIDIA Blackwell架构的普及 将积极探索FP4精度在RL训练与推理中的应用可行性 [62]
雷军官宣小米多篇最新研究成果成功入选ICLR 2026国际顶级会议
搜狐财经· 2026-02-03 11:13
人工智能学术研究进展 - 小米公司团队在人工智能领域的多篇最新研究成果成功入选国际顶级会议ICLR 2026,研究方向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等多个前沿领域 [1] 强化学习效率优化框架 - 针对多模态大语言模型强化学习训练中存在的“优势坍缩”和“轨迹沉默”现象导致的效率低下问题,公司提出了名为Shuffle-R1的高效强化学习框架 [3] - Shuffle-R1框架包含两项核心设计:成对轨迹采样以提高梯度信号质量,以及基于优势的批次重排序以增加有价值轨迹的曝光率 [4] - 实验结果表明,Shuffle-R1在增加极少计算开销的前提下,在多个多模态推理基准上稳定超越了多种强化学习基线方法 [4] 移动GUI Agent过程监督框架 - 针对Mobile GUI Agent在真实落地中面临的高质量思考轨迹稀缺和中间推理步骤监督成本高的瓶颈,公司提出了MobileIPL迭代偏好学习框架 [7] - MobileIPL包含Thinking-level DPO和Instruction Evolution三阶段指令演化机制,旨在以高效、可扩展的方式实现对模型思考过程的监督与优化 [8] - 该框架在AITZ、AMEX、AndroidControl等主流GUI-Agent基准测试中取得了SOTA(最先进水平),并在分布外场景中展现出更强的泛化鲁棒性与稳定性 [8] 小语言模型推理能力增强框架 - 为解决小语言模型在复杂推理和检索任务中性能受限的问题,公司提出了名为FutureMind的模块化推理框架,该框架无需额外训练和增加参数 [12] - FutureMind通过自适应知识蒸馏从大型语言模型中提炼高级认知能力,构建了由问题分析、逻辑推理、策略规划与检索指导模块组成的动态推理流水线,并辅以三种不同的检索范式 [12] - 在多跳问答基准测试上,FutureMind超越了如Search-o1等多项强基线模型,在不同模型架构和规模下均在无需额外训练的前提下实现了SOTA水平 [13] 全模态推理能力迁移框架 - 针对全模态大模型“感知强、推理弱”以及通过训练提升推理能力成本高昂的挑战,公司提出了名为ThinkOmni的Training-free(免训练)框架 [16] - ThinkOmni框架旨在将成熟的文本推理能力“零成本迁移”至全模态场景,核心组件包括利用现成的推理大模型进行指导的解码过程以及自适应平衡感知与推理信号的策略 [16][17] - 该框架在六个多模态推理基准上均展现出一致的性能提升 [17] 移动Agent评估基准 - 公司推出了名为SMAN-Bench的跨系统、多维度移动Agent评估基准,以解决现有评测中在线环境不稳定与离线轨迹过于单一的对立难题 [20] - 该基准基于大规模图结构语料Mobile3M构建,首创了基于槽位的指令生成方法,并引入了真实广告噪声与交互式模糊指令,以构建高保真的移动操作模拟环境 [20] - SMAN-Bench为量化评估多模态大模型在复杂长程任务中的规划能力、抗干扰鲁棒性及主动交互智能提供了实验平台 [20] 高效音频生成框架 - 针对现有音频生成方法中GAN收敛缓慢和扩散类方法推理计算开销大的问题,公司提出了名为Flow2GAN的两阶段音频生成框架 [23] 1. 该框架首先利用改进的Flow Matching预训练学习生成能力,随后通过轻量GAN微调实现高效的少步乃至单步推理 [24] 2. 改进包括将目标函数重构为端点估计以避免优化困难,以及引入基于谱能量的损失缩放策略以强化对低能量区域的建模 [24] 3. 此外,设计了一种多分支网络结构在不同时间-频率分辨率下建模,提升了音频建模能力 [24] - 实验结果表明,Flow2GAN能够从Mel频谱或离散音频token中生成高保真音频,在生成质量与计算效率的权衡上优于现有最先进的GAN及Flow Matching方法 [24]
DeepMind强化学习掌门人David Silver离职创业,Alpha系列AI缔造者,哈萨比斯左膀右臂
36氪· 2026-02-02 16:21
核心人事变动 - 强化学习领域权威专家、DeepMind元老级研究员David Silver已离职,结束了在该公司长达15年的职业生涯 [1] - 其离职已得到Google DeepMind发言人证实,公司对其贡献表示感谢 [5] - 在正式离职前的几个月,David Silver一直处于休假状态 [2] 新公司创立与规划 - David Silver创立了一家名为Ineffable Intelligence的新AI公司 [1] - 该公司早在2025年11月就已成立,并于2026年1月16日正式任命Silver为董事 [2] - 公司总部设在伦敦,目前正处于积极招募AI研究人才和寻求风险投资的阶段 [3] 创始人的背景与成就 - David Silver于2010年DeepMind成立之初便加入,是公司的核心创始成员之一,与CEO Demis Hassabis是大学好友并曾共同创业 [7] - 作为强化学习团队负责人,他主导或深度参与了DeepMind几乎所有里程碑项目,是“Alpha系列”AI的主要缔造者 [7] - 其代表性成就包括:领导开发击败围棋世界冠军李世石的AlphaGo(2016年)[9]、开发不依赖人类棋谱的AlphaZero [9]、开发不被告知规则即可掌握多种游戏的MuZero [9]、领导开发击败《星际争霸II》顶尖玩家的AlphaStar [9]、参与开发能解答国际数学奥林匹克竞赛题目的AlphaProof [9] 以及是Google首个Gemini系列AI模型研究论文的作者之一 [9] - 其学术影响力巨大,是DeepMind发表论文最多的员工之一,谷歌学术统计其论文被引用超过28万次,h-index高达104 [11] - 凭借卓越贡献,他获得了2019年度ACM计算奖和2017年度英国皇家工程院银质奖章等多项荣誉 [10] 新公司的技术愿景与方向 - 创始人离职创业的动机是希望回归“解决AI领域最难题所带来的敬畏与奇迹”,并将实现超级智能视为当前最大的未解挑战 [17] - 公司的核心目标是构建一个能够自我发现所有知识基础、永无止境学习的超级智能 [17] - 创始人对当前主流大语言模型(LLM)提出看法,认为其能力受限于人类已有的知识,因为LLM本质是从人类产出的文本中学习 [17] - 他倡导AI进入“经验时代”,即AI系统应通过强化学习从经验中自我学习,从而发现人类未知的新事物 [19] - 其理念是希望AI摆脱对人类知识和直觉的依赖,从第一性原理出发进行学习,并以AlphaGo对战李世石时走出令所有人类专家误判但最终制胜的第37手棋作为经典例证 [19] 创始人的其他职务 - 除了在DeepMind的工作,David Silver同时担任伦敦大学学院的教授,并且他将继续保持这一职务 [5]
CPU迎来AIAgent时代新机遇
东方证券· 2026-01-31 15:15
行业投资评级 - 行业评级为“看好”(维持)[3] 报告核心观点 - 行业正迎来AI Agent时代,CPU(中央处理器)面临新的结构性机遇,其需求有望持续超预期[1][4] - Intel和AMD的服务器CPU供给紧张,两家公司计划将服务器CPU价格上调10%-15%[4] - 此次涨价由先进制程产能受限和下游需求超预期共同驱动,特别是AI需求[4] - 涨价背后是结构性需求转变,AI Agent与强化学习(RL)使CPU成为核心瓶颈,AI工作负载范式有望从“GPU堆算力”转向“CPU强调度”[4] - CPU的单芯核数、域内外需求都有望持续提升[4] - 国产CPU不仅将受益于需求“量”的放量,更可能凭借供需格局改善实现“价”的提升,开启国产高端CPU量价齐升新周期[4] 投资建议与相关公司 - 由于Intel和AMD服务器CPU供给受限,国产CPU有望受益[2] - 相关标的包括:海光信息(688041,买入)、龙芯中科(688047,未评级)、中国长城(000066,未评级)、禾盛新材(002290,未评级)、中科曙光(603019,买入)等[2] - 海光信息作为国内X86服务器芯片的绝对龙头,与ARM架构的鲲鹏处理器共同占据了国产高端服务器CPU的大部分市场[4] 行业现状与驱动因素 - **供给紧张与涨价**:Intel与AMD在2026全年的服务器CPU产能已基本售罄,计划将价格上调10%-15%[4] - **产能受限原因**:台积电(TSMC)的N2/N3先进制程产能被GPU厂商抢占,Intel的A18制程产能也较为紧张[4] - **需求超预期原因**: - 通用服务器进入大面积更新周期[4] - AI需求持续超预期,对CPU的数量和性能要求持续提升[4] - AI Agent化应用对高单核性能、内存带宽及虚拟化效率提出刚性需求[4] - 强化学习(RL)训练中的环境模拟与奖励计算高度依赖CPU串行性能[4]
AlphaGo之父David Silver离职创业,目标超级智能
机器之心· 2026-01-31 10:34
核心事件 - 谷歌DeepMind知名研究员David Silver已离职并创办AI初创公司Ineffable Intelligence [1] - 公司成立于2025年11月,Silver于2026年1月16日被任命为董事,目前正在伦敦积极招聘研究人员并寻求风险投资 [3][4] - Silver在离职前数月处于休假状态,谷歌DeepMind已证实其离职并高度评价其贡献 [4] 创始人背景与成就 - David Silver是DeepMind创始成员之一,与联合创始人Demis Hassabis大学时期相识,是公司多项突破性成就的关键人物 [9] - 其关键贡献包括:2016年击败世界冠军的围棋AI AlphaGo [9]、2019年达到《星际争霸II》大师级水平的AlphaStar(排名前0.2%)[12]、能超人水平玩多种棋类的AlphaZero与MuZero [14]、2024年达到国际数学奥赛银牌水准的AlphaProof [14] - 他是2023年介绍谷歌首个Gemini系列AI模型研究论文的作者之一 [14] - 目前仍保留伦敦大学学院的教授职位 [9] - 拥有极高的学术影响力:论文总被引次数超过28.5万次,h-index为104,i10-index为180 [16][17] - 是2024年图灵奖得主Richard Sutton的门生,以强化学习研究闻名,被认为是该领域最坚定的支持者之一 [17][18] 创业动机与公司愿景 - Silver渴望重拾“解决AI领域最棘手难题的敬畏与奇妙之感”,并将实现“超级智能”视为最大未解之谜 [14] - 他认为大型语言模型受限于人类知识,呼吁AI进入以强化学习为基础的“经验时代”,以实现超越人类认知的AI [18][20] - Ineffable Intelligence旨在构建一种能够不断学习、自主发现所有知识基础的超级智能 [23] 行业趋势与竞争格局 - 近年来多位顶尖AI研究人员离开大型实验室创办追求超级智能的初创公司,形成趋势 [15] - 例如:OpenAI前首席科学家Ilya Sutskever于2024年创立Safe Superintelligence (SSI),已融资30亿美元,估值达300亿美元 [15] - Silver在DeepMind的同事也离职创办了同样研发超级智能的Reflection AI [15] - Meta重组AI部门成立“超级智能实验室”,而原首席AI科学家Yann LeCun选择离职创业 [15] 技术理念与差异 - Silver认为当前大语言模型的“预训练”和基于人类反馈的“后训练”阶段,其能力上限被人类知识锁死 [18][20] - 强化学习通过试错和反馈进行决策,能使AI自主探索并发现人类未知的新事物,是通往超级智能的途径 [17][18] - 他以AlphaGo和AlphaZero的“非人类”但绝妙的决策为例,说明基于人类偏好的评估可能限制AI潜力 [20][23] - 其理念是AI需要超越并可能摒弃人类知识,从基本原理出发学习以实现目标 [23]