持续学习
搜索文档
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
量子位· 2026-01-27 10:33
研究核心观点 - 提出一种名为“测试时训练以发现”的全新方法,旨在解决开放科学问题,该方法在测试阶段针对单个具体问题,引入强化学习对模型权重进行实时更新,使模型能从失败尝试中获取经验并实现定向进化[1][5][6] - 该方法基于开源模型gpt-oss-120b,在数学、内核工程、算法和生物学等多个领域达到或超越了当前最佳水平,性能优于人类专家与前沿闭源模型[3][8] - 核心思路是“在测试时进行强化学习”,其设计目标是针对特定科学发现任务,找到一个超越已有知识的最佳方案,而非在已知数据分布中实现泛化[9][12] 方法原理与创新 - **学习目标创新**:采用熵目标函数,其核心目标是产生一个极优解,通过调整权重倾向于奖励最高的单个动作,而非优化整条轨迹的平均奖励[9][10][11] - **搜索程序创新**:引入受PUCT启发的重用机制,在缓冲区中维护历史尝试,优先扩展最具潜力的状态,同时兼顾探索,以解决有效时界过短的问题[12][20][22] - **解决数据困境**:模型通过自身生成动作并接收反馈,将大量尝试存入缓冲区,构成针对特定问题的“私有数据集”,从而解决了分布外问题无数据可练的困境[13][14] 技术实现细节 - **算法循环**:在每一步训练中循环执行“挑选-生成-评分-更新”操作,从缓冲区选出最具潜力的起点,生成新尝试并评估,随后立即根据结果更新模型权重[17][18][27] - **状态选择机制**:采用受PUCT启发的评分函数,其中Q值采用子节点的最大奖励,而非平均值,关注“从该状态出发能走到多好”,先验项则编码了高奖励状态可能孕育高奖励后继状态的直觉[24][25][26] - **训练目标公式**:引入熵目标函数与KL惩罚项,显式引导模型偏好奖励最大的动作,同时在强化高优势动作时维持必要的探索能力[22][23] 实验性能表现 - **数学领域**:在Erdős最小重叠问题上,将下界从人类最佳的0.380927和先前最佳AI的0.380924,提升至0.380876[7][8] - **内核工程**:在GPU内核编写任务中,速度比当前最佳人类实现快约2倍[7][27] - **算法领域**:在历届AtCoder比赛题目上取得最高分567,062分,超越了人类最佳成绩566,997分和先前最佳AI的558,026分[7][8] - **生物领域**:在单细胞RNA-seq去噪任务上达到0.71的评分,优于人类专家的0.64[7][8] 应用与成本 - 基于开源模型gpt-oss-120b,通过Tinker API运行,解决单个问题的测试成本约为数百美元[27] - 该方法表明,在测试阶段引入针对性学习,能使中等规模开源模型在解决复杂的分布外科学生问题时展现出卓越能力[29] - 目前主要适用于连续可验证奖励场景,后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题[29] 研究团队背景 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul,共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja[30][31][33] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员,其研究方向为持续学习,自2019年起持续关注测试时训练[34][37]
港股上市后,智谱继续推进A股IPO
21世纪经济报道· 2026-01-26 16:08
继H股上市后,智谱还将继续在A股"吸金"。 近日,中国证监会官网更新了智谱公司的IPO辅导进展信息。根据公告,其辅导机构中金公司已递交了智谱的第三期IPO辅导工 作进展情况报告(下称"辅导报告"),落款日期为2026年1月15日。 这意味着,"大模型第一股"智谱在 2026 年 1 月 8 日完成港股上市后,仍在继续推进其A股上市计划。 | | | | | 全国一体化在线政务服务平台 | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | | | | 中国证券监督管理委员会网上办事服务平台 (试运行) | | | | | | | | 公开发行辅导公示 | | 辅导对象 | 辅导机构 | 备案时间 | 辅导状态 | 派出机构 | 报告类型 报告标题 | | - | 北京 | | 天津 | 北京用龄瑞科医药科技股份 有限公司 | 中信建投证券股份有限公司 | 2025-09-02 | 辅导备案 | 北京证监局 | 辅导备案招售 关于北京圆梦瑞科 ... | | - | 河北 | | 山西 | | | | | | ...
在OpenAI“创新已经变得困难”,离职高管深喉爆料
36氪· 2026-01-23 21:12
OpenAI的创新与结构性困境 - 随着竞争加剧与组织急速膨胀,OpenAI正逐渐陷入一种难以再承担真正高风险研究的结构性困境,一些前沿创新的研究方向已经难以在内部推进 [1] - 成本、增长压力等多重因素影响了OpenAI对风险的“胃口”,同时该公司尚未找到良好的跨团队研究协作模式 [3] - 对OpenAI来说,“集中力量办大事”已经变得有些困难,阻碍AI Lab研究的因素不是算力短缺,而是缺乏专注 [5] 行业竞争格局与路径趋同 - 当前全球范围内争夺“最佳AI模型”的竞争异常激烈且严苛,几乎所有主要AI公司都面临持续展示实力、不断推出最强模型的巨大压力 [8] - 目前大概有五家严肃的AI公司,使用几乎相同的技术配方,在同一技术基础上构建略有差异的产品,模型之间缺乏真正的多样性 [14][15] - 谷歌的崛起与其说是“回归”,不如说是OpenAI自己犯了错误,没能充分把握住自己的领先优势,OpenAI本应该持续领先 [3][47] 技术发展方向与AGI展望 - Transformer架构肯定不是最终形态,模型仍然可以通过多种方式改进,而其中许多路径至今尚未被系统性地实践 [12] - 实现AGI仍然缺失关键拼图,架构创新与持续学习是两大重要方向,AGI预计将会在2029年左右实现 [5][28][32] - 强化学习将卷土重来,在强大的世界表征(通过大规模预训练获得)之上,通过强化学习构建能力层级是未来的方向 [26][27] 人才流动与创新环境 - AI领域的人才争夺战已演变成一场肥皂剧,有些人频繁地更换工作,而真正投入到工作的时间不多 [4][44] - 明星AI研究员并不是驱动创新的核心因素,公司本身能否打造个人责任感强、允许探索和做大事的环境,可能更为关键 [4][66][67] - 研究人员的高薪酬水平可能带来副作用,使人们变得不愿意失去工作,更倾向于追逐短期回报,从而抑制了冒险精神 [18] OpenAI的内部文化与执行力 - OpenAI从2019年约30人发展到现在的几千人,但公司瞄准AGI、改变世界的野心始终没变 [7] - OpenAI早期有相当高比例的波兰裔员工,他们以勤奋和能识破“忽悠”著称 [45][46] - OpenAI真正擅长的是把研究从1推进到100,即采纳初步验证的想法,并找出如何让它们在大规模训练前沿模型时可靠地工作 [64] 对其他AI公司的评价 - 在过去一年里,对Anthropic的钦佩程度大幅上升,其起步更晚、资源受限,但成功构建了正在改变软件开发方式的卓越产品 [53][54] - Meta的策略可能是利用行业已掌握的AI技术来构建连接人和打造体验的产品,从其作为一家极其盈利的社交网络公司角度来看,这可能是一种相当不错的策略 [50][51][52]
速递|“新实验室”浪潮汹涌:前OpenAI团队创立的Applied Compute,13亿美元估值融资在即
Z Potentials· 2026-01-21 13:52
公司融资与估值 - 由三位前OpenAI研究人员创立的初创公司Applied Compute正就以13亿美元估值筹集新资金进行谈判[1] - 若本轮融资成功 公司估值将较不到三个月前公布的上一轮融资(估值约5亿美元)增长逾一倍[2] - 本轮融资金额可能高达7000万美元 由风投机构凯鹏华盈正洽谈领投 谈判尚处早期阶段[2] - 公司此前已从红杉资本 Benchmark和Lux Capital等投资方处募集8000万美元[2] 公司业务与技术 - 公司致力于帮助企业使用自有数据为金融 法律等特定领域开发并培训定制化人工智能模型[3] - 公司采用名为强化学习的培训技术 通过奖励模型完成特定目标 惩罚其他行为来优化其表现[3] - 公司正与DoorDash 编程初创公司Cognition及数据标注企业Mercor等客户合作 将定制模型用于开发能代表企业员工执行任务的人工智能Agent[3] - 公司同时研发使智能Agent能从实际经验中持续学习进化的技术 即“持续学习”概念[3] - 公司首席执行官在X上发文称 公司去年11月实现了1280万美元的年化营收[5] 团队背景与行业动态 - 公司由前OpenAI研究员Rhythm Garg Yash Patil和Linden Li于去年五月创立[3] - 联合创始人在加入OpenAI之前曾于斯坦福大学深造 并在OpenAI参与了包括代码工具Codex和推理模型在内的关键产品研发[5] - 公司目前规模为17人 其研究负责人布兰登·斯奈德即将离职创办自己的公司[2][3] - 投资者对支持专注于研究 有时被称为“新实验室”的初创公司充满兴趣 这些公司以自认被OpenAI Anthropic等大型实验室忽视的方式推进模型和产品开发[2] - 由前xAI Anthropic及谷歌研究员创立的初创公司Humans& 周二宣布已从英伟达 杰夫·贝索斯等投资者处获得4.8亿美元种子轮融资 估值达44.8亿美元[2] - 另一家以定制化为目标的初创公司Thinking Machines Lab 也计划通过强化学习技术根据客户追踪的具体业务指标来定制模型[4]
Anthropic 一夜震撼升级:Claude 获得「永久记忆」!全球打工人变天
程序员的那些事· 2026-01-21 08:51
文章核心观点 - Anthropic公司正在为其AI产品Claude Cowork进行重大升级,核心是引入“知识库”功能以实现“永久记忆”,旨在将Claude从聊天机器人转变为具备长期记忆和协作能力的AI生产力伙伴,此举可能引领AI办公革命并定义下一代AI助手竞争的新阶段 [1][3][44][45] Claude Cowork的核心功能升级:知识库与永久记忆 - Anthropic正在为Claude Cowork开发“知识库”功能,这是一种持久化的知识存储库,使AI能够拥有“永久记忆” [12][13][14] - 知识库功能允许Claude主动检索相关背景信息来回答问题,并能在交互过程中持续学习,将新获取的偏好、决策、事实或经验总结逐步添加到对应的知识库中,实现“越用越懂你” [16][17][18] - 该功能改变了AI依赖混乱“通用记忆”的模式,允许用户自主管理多个清晰、独立的知识库,并可根据任务手动选择调用,例如为写方案、跑自动化、整理文件等不同任务挂载对应的知识库,从而让AI更精准地理解上下文 [19][20] 产品模式与用户界面的整合变革 - Claude Cowork将成为产品的主模式和默认工作空间,传统的“Chat”模式将被折叠进Cowork中,标志着产品重心从聊天转向工作流 [21][22][23] - Cowork被定位为一个融合了聊天、文件、自动化、知识库和产出管理的AI工作台 [26] - 用户界面将进行重大调整,右侧将设有专门的“Artefacts”侧边栏区域,用于持续生成、管理和复用工作成果,强调输出内容的可持续性,重塑用户与AI之间为共同完成项目的关系 [29][30][31][32] 自动化与多模态体验的增强 - 通过引入“MCP连接器体系”,Claude Cowork将能动态管理多个远程连接器,按需安装官方批准的模块,从而大幅提升自动化能力 [33][34][35] - 自动化能力的提升意味着Claude Cowork不仅能协助思考和创作,还能真正帮助用户操作系统和工具,这对现有工具软件可能构成颠覆性影响 [38][39] - 在用户体验层,Claude Web正在开发语音模式,以实现更丝滑的随时随地使用;同时,“Pixelate”图像转像素艺术功能已升级并扩展至桌面应用,这些改进共同表明Claude正在向多模态和高频使用场景进化 [40][41][42] 行业背景与战略意义 - Anthropic此次升级旨在解决AI的“持续学习”或记忆问题,其CEO曾表示持续学习最终将没有看起来那么困难 [47][49] - 从OpenAI到谷歌,硅谷科技圈普遍认为2026年将是“持续学习之年”,OpenAI已于2024年9月向用户开放记忆功能,并在后续更新中强化了参考过往对话提供个性化回复的能力 [51][53][56] - OpenAI的Sam Altman对持久记忆寄予厚望,认为一旦记忆可以持久,智能AI助理的概念将被彻底改变;谷歌DeepMind的Demis Hassabis也判断,实现持续学习可能是实现AGI的首个突破,预计在2026年底 [57][59] - 行业竞争的下一个关键,可能在于谁能最早将“可控的记忆与工具”做成标准件,而不仅仅是展示模型能力 [65]
【全网无错版】上周末,唐杰、杨强、林俊旸、姚顺雨真正说了什么?
机器人圈· 2026-01-13 17:41
文章核心观点 文章记录了2026年初中国AI领域一场汇聚顶尖学者与产业界核心人物的圆桌讨论,探讨了中国大模型行业的发展分化、AGI的下一个技术范式、Agent战略以及中国AI的未来前景[1][6]。核心观点认为,中国AI行业在经历了2025年开源模型的爆发式增长后,正进入一个关键的分化与战略选择期,行业需从追随转向引领,通过聚焦特定方向、探索新范式、发展Agent应用并改善创新环境,以在全球竞争中占据领先地位[6][22][57][70]。 话题1:中国大模型将如何分化? - **市场出现To C与To B的明显分化**:ChatGPT和Claude Code分别被视为To C和To B的典范。To C应用对智能强度的需求增长放缓,而To B应用则因智能直接关联生产力,对最强模型有明确的付费意愿溢价[8][9][10][11]。 - **技术路径出现垂直整合与模型应用分层分化**:在To C场景,模型与产品强耦合的垂直整合模式依然有效(如ChatGPT、豆包)。但在To B生产力场景,趋势是模型层与应用层分离,强大的基座模型被多样化的应用层产品所利用[12]。 - **企业战略分化基于自身基因与数据优势**:腾讯作为To C基因强的公司,其瓶颈在于为模型提供更多上下文(Context)和环境(Environment),而非单纯追求模型规模[13][14]。大公司可利用其内部多样化的真实场景数据来训练模型,这相比依赖外部数据标注商能获得独特优势[15]。 - **分化是自然演进与客户需求驱动的结果**:行业分化并非完全预设,而是在与客户频繁交流中自然发现机会(如Anthropic聚焦Coding和Finance),中国SaaS市场环境与美国不同也影响了分化路径[17][18]。 - **学术界与工业界的分化与协作**:工业界在资源投入上主导发展,学术界应跟进解决基础科学问题,如智能上界、资源分配效率、哥德尔不完备定理下的幻觉消除极限等[19][20]。 话题2:AGI的下一个范式 - **自主学习(Self-learning)成为硅谷共识与热点方向**:该方向已被广泛讨论,但其具体形态因场景和奖励函数不同而多样,例如聊天个性化、编码环境适应、科学探索等[23]。 - **自主学习已在特定场景下以渐变形式发生**:例如ChatGPT利用用户数据优化聊天风格,Claude Code项目95%的代码由自身编写以实现自我改进,这被视为一种特定场景下的AGI体现[24]。 - **新范式的瓶颈在于想象力与评估标准**:实现突破的关键条件可能已部分具备(如Cursor的模型利用实时用户数据更新),但更大的挑战是如何定义和验证“实现了自我学习”的成功标准[25][26]。 - **OpenAI仍被视为最有可能引领新范式的公司**,尽管其商业化可能削弱了部分创新基因[26]。 - **强化学习(RL)的潜力尚未充分释放**:RL的计算规模(Compute)尚未充分扩展,仍存在基础设施(Infra)问题,其潜力有待进一步挖掘[27]。 - **Task-time Scaling(任务时间缩放)与主动性(Active Learning)是关键探索方向**:让AI在单次任务中通过消耗更多计算时间(Token)变得更强,以及让AI能根据环境信号自主启动并规划任务,是重要的范式候选,但伴随安全担忧[27][28]。 - **个性化(Personalization)可能是自主学习早期落地的场景**,但如何衡量AI时代的个性化效果成为新的技术挑战[29][30]。 - **记忆(Memory)技术的突破可能是线性发展后的感知临界点**:技术本身线性发展,但当记忆能力达到某个临界点,用户体验可能发生跃迁,类似电影《Her》中的效果,这可能需要一年左右时间[31]。 - **联邦学习(Federated Learning)代表的协作范式前景广阔**:通过“多个中心协作”模式,能结合通用大模型与本地专业化模型,在医疗、金融等隐私要求高的领域具有应用潜力[34]。 - **2026年出现新范式变革的驱动力增强**:学术界算力资源提升使其具备创新基础;工业界持续投入的边际效率下降,催生对“智能效率”(Intelligence Efficiency)提升新范式的需求[35][36][37]。 话题3:Agent战略 - **To B的Agent已进入价值上升曲线**:Anthropic的路径表明,在To B领域,模型智能提升与解决任务数量、商业收入增长高度一致,使得生产力Agent的发展势头强劲[41]。 - **当前Agent发展的两大瓶颈是环境部署与用户教育**:即使模型能力停滞,通过更好部署到各行业也能带来巨大经济收益(潜在影响GDP 5%~10%,目前远低于1%)。同时,会使用AI工具的人与不会使用的人之间的能力差距正在拉大,教育至关重要[41][42]。 - **产品哲学趋向“模型即产品”(Model as a Product)或“研究即产品”(Research as a Product)**:成功的Agent产品(如Manus)以及OpenAI的模式显示,研究员端到端地将研究转化为产品是重要趋势[43]。 - **未来的Agent将是“托管式”且与自我进化、主动学习强相关**:能够执行长时间、通用任务的Agent,需要在任务过程中自我进化并主动决策,这对模型能力提出更高要求[44]。 - **Agent的终极潜力在于与复杂物理环境交互**:超越电脑环境,指挥机器人进行湿实验等操作,才能实现自动化人类更长时间工作流的愿景,这可能需3-5年并与具身智能结合[45][46]。 - **通用Agent的机会在于解决长尾需求**:与推荐系统类似,解决海量个性化、非标的长尾问题是AI和通用Agent的核心魅力与挑战所在[46][47]。 - **强化学习(RL)降低了修复模型问题的难度**:相比以前,现在只需少量查询(Query)和奖励(Reward)数据,就能通过RL快速优化模型在特定问题上的表现[48][49]。 - **Agent将经历从人工定义到内生自动化的四个阶段**:从当前目标与规划皆由人定义,最终发展为目标和规划均由大模型自主定义的内生(Native)系统[51][52]。 - **Agent成功的三要素是价值、成本与速度**:需解决有真实价值的问题、控制实现成本,并在快速迭代的时间窗口内建立优势[54][55]。 话题4:中国AI的未来 - **中国在技术追赶和工程复现方面具备强大能力**:一旦技术路径被证明可行,中国团队能快速跟进并在局部做到更好,制造业和电动车已有先例[57]。 - **突破新范式需要更多冒险精神与前沿探索**:中国拥有大量顶尖人才,但相较于美国,愿意从事高风险、探索性前沿研究的人可能还不够多,这受经济、商业环境和文化因素影响[58]。 - **研究文化更倾向于做确定性高和看重榜单排名**:国内研究更聚焦已被验证的路径(如预训练),对探索性方向(如长期记忆)相对谨慎。同时,相较于海外更注重实际体验(如Claude的实用性),国内有时对刷榜数字看得更重[60][61]。 - **算力资源分配存在差距,但可能催生“穷则思变”的创新**:美国在用于下一代研究的计算资源上领先中国1-2个数量级,中国大量算力用于产品交付。资源紧张可能反而激励算法与基础设施的联合优化等效率创新[62][63][64]。 - **年轻一代冒险精神增强与营商环境改善是积极信号**:90后、00后的冒险精神更强,结合中国营商环境的持续改善,为创新提供了可能[65][70]。 - **对中国团队3-5年内成为全球AI领导者的概率判断存在分歧**:林俊旸认为概率低于20%,主要因历史积淀和算力差距[66]。姚顺雨表示乐观,认为关键在于能否引领新范式[57][58]。杨强回顾互联网发展,认为中国在应用层面,尤其是To C领域,有望百花齐放并领先[66][68]。 - **成功的关键条件包括人才、环境与坚持**:需要敢于冒险的聪明人、更有利于创新的营商环境(减少交付压力、鼓励竞争),以及从业者在选定的道路上笨拙而持久的坚持[69][70][71]。
美国AI一骑绝尘,中国平均落后7个月,Epoch AI新报告出炉
36氪· 2026-01-08 15:53
中美AI能力差距量化分析 - 根据Epoch AI报告,中国AI模型的综合能力平均落后于美国7个月,最小差距为4个月,最大差距为14个月 [1] - 该差距基于综合能力指数衡量,该指数综合考虑了语言理解与生成、推理与问题分解能力、多任务泛化表现及专家校准 [4] - 差距在时间上呈现收敛趋势:2023年差距接近10-12个月,2024年收敛到6-8个月,2025年稳定在约7个月 [9] 中美AI发展路径与模式差异 - 美国前沿AI发展节奏密集且持续,从GPT-4到o1,再到GPT-5、Gemini 3 Pro,中间几乎没有长时间停滞 [6] - 美国AI能力跃迁不完全依赖参数规模,例如o1系列的核心在于推理路径设计、中间状态建模和训练目标重构 [7] - 中国AI模型呈现“跳跃式”追赶曲线,通过扩大参数规模、采用MoE架构等方式提升能力,但迭代间隔相对更长 [7][8] - 中国领先的大模型普遍具有开源特征,而美国处于前沿的模型如GPT-5、Gemini 3均为闭源 [10] 行业竞争格局与未来范式 - 7个月的差距表明中国大模型已完全进入全球第一竞争梯队,决定未来胜负的关键在于下一次范式跃迁 [14] - 下一代AI进化的核心能力可能围绕持续学习展开,即让AI无需重新训练即可自我学习与迭代进化 [16] - 行业前沿正探索AI推理与行动的深度耦合,实现自我反思、规划及智能体级的系统能力 [15]
IPO首日,智谱创立发起人内部信曝光:明确2026年目标,提及梁文锋
新浪财经· 2026-01-08 10:37
公司战略与目标 - 智谱AI于1月8日上市,并宣布了2026年的目标是“成为国际领跑的大模型企业” [1][2] - 公司首席科学家唐杰表示,对AGI技术的执着追求、探索其上界以及精准的未来预判是公司下一步需要改进和升华的地方 [1][3] 技术发展路径与规划 - 公司认为决定下一阶段格局的关键是底层的模型架构与学习范式 [1][3] - 公司判断应用侧可能会出现“AI替代不同工种/任务的爆发年” [1][3] - 基于以上判断,公司2026年将聚焦于四个具体的技术方向 [1][3] 具体技术方向 - 方向一:即将推出新一代模型GLM-5,通过进一步的Scaling和全新技术改进,旨在帮助用户完成更多真实任务 [1][2][3] - 方向二:探索全新的模型架构设计,以解决已使用近10年的Transformer架构在超长上下文计算开销、记忆与更新机制等方面的不足,并通过芯片-算法协同设计提高计算效率 [2][3] - 方向三:探索具有更强泛化能力的强化学习范式,以突破当前主流RLVR范式依赖人工构造可验证环境的局限,使AI能理解并执行跨越数小时甚至数天的长时程任务 [2][4] - 方向四:最具挑战性的探索是开启通往持续学习与自主进化的道路,对在线学习或持续学习进行前瞻性布局,以改变当前主流AI模型部署后智能静态、知识逐渐过时的现状 [2][5] 行业竞争与反思 - 唐杰提及DeepSeek的出现给他带来了警醒,并感谢其创始人让他对AGI有了更多不一样的思考 [1][3]
Sebastian Raschka万字年终复盘:2025,属于「推理模型」的一年
机器之心· 2026-01-02 17:30
文章核心观点 - 2025年大语言模型领域的发展重点从单纯的参数规模扩展转向了推理能力的强化,以DeepSeek R1为代表的开放权重模型及其采用的RLVR和GRPO算法成为年度技术风向标,同时行业在架构、评估和工具使用等方面也取得了显著进展[1][3][4] 推理模型与算法进展 - 2025年是“推理之年”,DeepSeek R1的发布证明了通过强化学习(特别是RLVR和GRPO算法)可以开发出具有类似推理行为的模型,这改变了行业对模型改进方式的认知[5][6] - DeepSeek R1作为开放权重模型,其性能媲美当时最好的专有模型,并且其成本远低于预期,训练DeepSeek V3模型的成本估计约为557.6万美元,而在其基础上训练R1模型的额外成本仅需29.4万美元[9][10][12] - RLVR中的“可验证奖励”允许使用确定性方法为数学和代码等领域分配正确性标签,从而能够在大规模数据上对LLM进行高效的后训练[13][15][16] - 继DeepSeek R1之后,几乎所有主要的开放权重或专有LLM开发商都发布了其模型的推理(“思考”)变体,标志着RLVR和GRPO成为年度主导技术[19] 大语言模型开发重点演变 - 近年来LLM开发的重点呈现累积性演进:2022年是RLHF+PPO,2023年是LoRA等参数高效微调,2024年是中期训练,而2025年的焦点是RLVR+GRPO[20][21][22] - 预计未来发展方向包括:将RLVR扩展到数学和代码以外的领域、更多地关注推理时扩展(让模型在生成答案时花费更多资源以提升准确性)、以及持续学习(在不重新训练的情况下更新模型知识)[25][27][28][31] 大语言模型架构趋势 - 最先进的模型仍基于解码器风格的Transformer,但开放权重LLM普遍收敛于使用混合专家层以及分组查询注意力、滑动窗口注意力或多头潜在注意力等高效注意力机制[42][43] - 同时,行业也出现了更激进的效率调整架构,如Qwen3-Next和Kimi Linear中的Gated DeltaNets,以及NVIDIA Nemotron 3中的Mamba-2层,旨在实现随序列长度的线性扩展[43] - 预测未来几年基于Transformer的架构仍将主导高性能建模,但出于成本和效率考虑,Gated DeltaNet和Mamba层等高效工程调整将越来越普遍,文本扩散模型等替代方案仍处于实验阶段[53] 推理扩展与工具使用 - 2025年的进步不仅来自训练数据和架构的扩展,更得益于更好的训练流程(中期和后训练)以及推理扩展,后者让LLM能按需投入更多资源解决复杂任务[54] - 工具使用是减少LLM幻觉的重大改进方向,例如让LLM调用搜索引擎或计算器API来获取准确信息,OpenAI的gpt-oss模型就是早期专注于工具使用的开放权重模型之一[54][55] - 基准测试数据显示,使用工具能显著提升模型在多项任务上的表现,例如gpt-oss-120b模型在AIME 2024基准上,使用工具后准确率从56.3%提升至75.4%[56] 行业评估困境与数据优势 - 2025年的年度词汇是“极限刷榜”,指过度优化公开基准测试分数,导致分数无法真实反映模型的实际能力和实用性,基准测试作为LLM性能指标的可信度下降[60][61][63] - 随着通用能力提升趋于平稳,高质量的私有数据将成为LLM在特定行业确立优势的关键,但许多公司因数据是其核心差异化资产而拒绝出售给外部LLM提供商[84][85] - LLM开发正变得越来越商品化,预计未来拥有预算的大型机构将更倾向于开发利用其私有数据的内部LLM,而非完全依赖外部通用模型[88][89] AI辅助工作与影响 - LLM被视为赋予专业人士“超能力”的工具,能大幅提高个人效率,例如自动化编写命令行参数等平凡编码任务,或帮助发现代码错误和改进想法[65][66][68] - 然而,完全由LLM生成的代码库无法取代专家精心设计和构建的系统,深入的专业知识对于有效利用LLM指导和改进工作成果至关重要[71] - 在技术写作和研究领域,LLM是强大的辅助工具,可以帮助检查错误、提高清晰度,但无法替代人类作者的深度判断和专业知识,核心工作仍取决于人类[72][76] - 需警惕过度依赖LLM可能导致工作空虚感和职业倦怠,理想的方式是将AI视为加速学习和扩展工作能力的合作伙伴,而非完全外包思考的替代品[77][80][81]
告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
机器之心· 2026-01-02 09:55
文章核心观点 - 由Astera研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校联合提出的TTT-E2E(端到端测试时训练)技术,是迈向AGI(通用人工智能)持续学习能力的重要一步[2] - TTT-E2E打破了传统模型在推理时静态不变的局限,将长上下文建模从“架构设计”问题转变为“学习问题”,使模型能在推理阶段通过在线优化(梯度下降)来学习和压缩信息[2][9][10] - 该方法采用“以计算换存储”的思路,旨在实现像RNN一样的恒定推理延迟,同时保持像Transformer一样的长距离性能,为处理无限长上下文提供了新路径[8][29] 长上下文建模的现有困境 - 当前长上下文建模面临“召回与效率的永恒博弈”:Transformer的全注意力机制性能优异,但推理成本随上下文长度线性增长,在处理128K或更长文本时延迟压力巨大[5] - 为提升效率而采用的循环神经网络(RNN)或状态空间模型(SSM,如Mamba),虽然拥有恒定每token计算成本,但在处理超长文本时性能大幅下降,无法有效利用远距离信息[5] - 传统RNN性能下降的根源在于“压缩率的固定”,即将无限序列压缩进固定大小的状态向量会导致信息丢失[6][7] TTT-E2E的核心机制 - 核心思想是将模型在测试阶段(推理阶段)的行为定义为一个在线优化过程,模型在读取长上下文时,不仅进行前向传播,还同步进行梯度下降[9][10] - 模型将上下文视为学习资料,在预测下一个token前,先在已读过的token上进行自监督学习,从而将信息编码进模型权重W中,而非存储在外部的KV Cache里[11] - 为实现这一构想,引入了两大核心技术支撑:1) 元学习,通过外层循环优化模型初始化参数,让模型“学会如何学习”;2) 混合架构,结合固定大小(如8K)的滑动窗口注意力处理短期记忆,由TTT更新后的MLP层承担长期记忆[13] 工程实现与架构设计 - 为平衡计算开销,仅针对最后四分之一的Transformer块进行测试时训练(TTT)[14] - 为这些块设计了双MLP结构:一个保持静态以锁定预训练知识,另一个作为“快速权重”在测试时动态更新,以解决知识遗忘问题[15] - 该设计模仿了生物记忆系统的层级结构:滑动窗口如同瞬时感官记忆,动态更新的权重则如同长期经验[13] 实验结果:性能与效率 - 在3B参数规模的模型上进行实验,TTT-E2E展现出与全注意力Transformer几乎一致的性能扩展曲线[18][21] - 当上下文长度从8K扩展到128K时,其他RNN基准模型(如Mamba和Gated DeltaNet)的测试损失在达到32K后显著回升,而TTT-E2E的损失持续下降,始终追赶甚至在某些指标上优于Transformer[21] - 在推理效率上,由于无需存储海量KV Cache,TTT-E2E的推理延迟不随上下文长度增加,在128K上下文测试中,处理速度比全注意力Transformer快了2.7倍[22] 技术局限性与未来方向 - TTT-E2E的训练成本目前较高,由于需要计算“梯度的梯度”(二阶导数),其在短上下文下的训练速度比传统模型慢得多[23] - 团队提出可通过从预训练好的Transformer节点开始微调,或开发专门的CUDA内核来弥补训练速度的短板[24] - 在极度依赖精确召回的任务(如大海捞针NIAH)中,全注意力模型仍是霸主,这印证了TTT的本质是压缩和理解,而非逐字暴力存储[24] 行业意义与未来展望 - TTT-E2E标志着大模型正从静态模型转变为动态个体,模型处理长文档的过程本质上是微型的自我进化[27] - 该“以计算换存储”的思路描绘了未来愿景:模型可在阅读海量资料(如一万本书)过程中不断调整自身,将大量信息浓缩进参数矩阵,而无需担心硬件缓存限制[29]