持续学习
搜索文档
深度|Gemini 3预训练负责人揭秘Gemini 3巨大飞跃的关键,行业正从“数据无限”向“数据有限”范式转变
Z Potentials· 2026-02-21 11:43
Gemini 3的成功逻辑与核心驱动力 - 模型成功并非依赖单一突破,而是庞大团队协作与无数改进创新融合的结果[4][6] - 核心秘诀是更优质的预训练和后训练,基于Transformer的混合专家架构,将计算量使用与参数规模分离[5][23][24] - 规模是提升性能的重要因素但非唯一,架构和数据创新的重要性可能更甚[5][26] - 模型性能的巨大提升源于多个方面(如架构、数据、基础设施、评估)的共同改进,而非单一重大变化[23][32] 行业发展趋势与范式转变 - 行业正从“数据无限”向“数据有限”范式转变,数据量有限但并未枯竭,这改变了研究方向和思维方式[5][29][31] - 合成数据需谨慎使用,存在误用风险,关键挑战在于能否用其训练出优于数据生成模型的新模型[5][28] - 技术路线呈现趋同与差异化并存,顶尖实验室在基础技术(如类Transformer模型)上相似,但在视觉、多模态、推理等具体领域进行差异化深耕[9] - 模型架构的改进能让模型用更少数据实现更好效果,是应对数据有限范式的重要方向[5][31] 预训练领域的关键进展与未来方向 - 长上下文能力是重要发展方向,未来一两年在效率提升和长度扩展上将有更多创新[32] - 注意力机制近期有非常有趣的发现,将塑造未来几个月的研究方向[32] - 评估工作至关重要且极具难度,需要弥合小规模实验与最终规模化模型、以及预训练与后训练之间的差距,评估方面的进步是推动模型和数据改进的关键[5][22][34] - 预训练数据是多模态、多来源的混合[27] - 行业越来越倾向于内部构建评估体系,以避免外部基准测试数据污染导致自欺欺人[35] 模型能力、应用与成本考量 - 每一代新模型都能展现出前所未有的能力,内部员工使用模型提升工作效率的时间持续增加,这是模型能力增强的实际体现[6] - 原生多模态意味着同一神经网络处理所有模态,虽增加了研究复杂性和计算成本,但收益远超成本[25][26] - 预训练阶段需更多考虑模型的部署成本和使用成本,研究如何提升质量同时降低资源消耗[45] - 对于智能体应用,出色的屏幕理解能力是预训练阶段的一个重要方面[42] 研究、工程与团队协作模式 - 谷歌/DeepMind的核心优势在于研究、工程和基础设施的垂直整合与结合[11] - 工作模式强调“研究型工程”,研究与工程的界限越来越模糊,构建庞大系统需要两者紧密结合[11] - 预训练团队规模庞大,约有150到200人每日在数据、模型、基础设施和评估等多个方面协作,成功关键在于整合众多人的工作成果而非少数人领先[12] - 研究品味非常重要,包括研究需能与他人的工作整合、对复杂性保持警惕、管理研究风险,有时会为降低复杂度而在性能上做让步[19] - 研究需平衡短期关键路径改进与长期探索性项目,在模型规模扩张阶段探索性研究更多,在发布新模型前则更关注降低风险和执行力[20] 对初创公司及从业者的启示 - 开发顶尖模型需要庞大团队和大量资源,但当前做法未必最优,未来可能出现颠覆性研究让小型团队实现弯道超车[10] - 初创公司应回顾模型能力的进步轨迹并进行合理推断,在模型持续进步的领域跟进,在进展不大的领域寻找机会[47] - 通用模型能力快速增强,使得为通用任务开发专门模型的价值降低,关于如何使用模型、构建应用框架以及提高其稳健性的研究变得更重要[47] - 对从业者而言,理解从硬件(如TPU)到研究层面的整个技术栈的系统性知识变得非常重要[45]
ARR 140亿美元,新融300亿美元,Anthropic CEO说AI行业2030年将是万亿美元生意 | Jinqiu Select
锦秋集· 2026-02-14 17:08
Anthropic公司最新动态与财务数据 - 公司于2月12日完成了估值3800亿美元的G轮融资,融资额300亿美元,是风投史上第二大单轮融资 [2] - 公司年化营收已达140亿美元,并且营收每年增长约10倍 [2] - 具体营收增长轨迹为:2023年从近零增长至1亿美元,2024年达到10亿美元,2025年预计约90-100亿美元,2025年1月单月又增加了数十亿美元营收 [2][14] AI行业技术发展预测与现状 - 行业领导者认为AI能力的指数增长即将触顶,距离实现“数据中心里的天才国度”(即各专业领域达到或超越诺贝尔奖得主水平的AI系统)仅有1到3年时间,但公众对此严重缺乏认知 [5][8] - 预训练和强化学习的扩展定律依然有效,均展现出对数线性的扩展规律,这符合“大计算块假说” [9][34] - 模型不一定需要像人类一样的持续在职学习,预训练泛化、强化学习泛化加上更长的上下文窗口可能已足够 [10] - 代码能力的发展是一个很长的光谱,从“90%代码由AI写”到“端到端替代软件工程”仍有距离,但公司内部已有工程师完全不写代码 [11] - AI向经济渗透的速度远超历史上任何技术,但受限于企业流程等因素,不可能一夜之间完成 [13] 生产力提升与行业竞争格局 - AI工具切实提高了生产力,公司内部体感明确带来了15-20%的整体加速,且该比例在快速增长中 [12] - AI行业的竞争格局预计将类似云计算,最终形成三四家寡头,存在高进入壁垒和模型差异化,利润不会被压到零 [16] - API商业模式将持久存在,因其作为接近底层的接口,会一直是创业者实验新使用方式的最佳起点 [12][94] 行业市场规模与增长预测 - 结合技术指数和扩散指数,整个AI行业在2030年前几乎必然达到万亿美元级营收 [3][17] - 公司选择了激进但不鲁莽的算力投入策略,因为数据中心需提前一两年购买,需求预测偏差一年就可能导致公司破产 [15] - 当AI泛化能力足够强时,机器人技术(包括设计和控制)将被革新,但可能比纯数字领域滞后一两年 [18] Claude Code产品发展路径 - Claude Code最初是公司工程师自用的内部工具,因内部采用率极高,被判断已有产品市场匹配,才决定对外发布,并成为品类领导者 [20][96][97] AI安全、治理与地缘政治 - 面对生物恐怖主义等风险,应从建立透明度标准入手,随着风险被实际验证再逐步加强监管,保持灵活 [21] - 反对联邦层面在十年内禁止各州监管且自身也不作为的方案,认为这在AI快速发展的背景下极不负责 [22] - 应在非洲等地建设数据中心、扶持AI驱动的生物医药创业,让增长内生化,而非仅靠慈善 [24] - 训练AI时,给予一套行为原则比列出一堆禁止性规则更有效,模型行为更一致、更能覆盖边缘情况 [25] - AI模型的价值观设定应有三层迭代反馈:公司内部调整、不同公司的“宪法”竞争比较、以及社会层面的公众参与 [26] 公司文化与运营 - 公司文化被视为最大的杠杆,CEO花费约三分之一时间维护公司文化,通过每两周的全员分享和在Slack上的坦诚沟通,让2500名员工保持凝聚力 [27] - 决策速度需要极快,未来最关键的决定可能需要在极短时间内做出,历史会高估这些决策的深思熟虑程度 [28]
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
机器之心· 2026-02-10 11:46
大模型持续学习的技术瓶颈与范式转变 - 基础模型在落地和长期使用过程中面临“持续学习”的关键瓶颈,即如何在吸收新知识的同时不丢失已有核心能力[3] - 传统的强教师依赖范式因成本高、数据依赖性强,难以适应高频的持续进化需求[3] - Self-Distillation(自蒸馏)成为破局点,通过上下文引导或反馈机制,让模型构建出比当前更聪明的临时自我,实现内生增长[3] 自蒸馏微调解决灾难性遗忘 - 研究提出自蒸馏微调方法,直接从演示中实现基于策略的学习[8] - 核心机制是利用预训练模型的上下文学习潜力,先通过少量专家演示诱导模型生成高质量的教师分布,再让模型通过自蒸馏拟合该分布[11] - 该方法将持续学习转化为策略内对齐问题,训练信号源于模型自身的上下文学习状态,能最大限度保持原始概率流分布,避免参数剧烈漂移,从而解决监督微调中常见的灾难性遗忘问题[11] - 在技能学习和知识获取任务中,自蒸馏微调的表现一致优于监督微调,不仅实现了更高的新任务准确率,还显著减少了灾难性遗忘[14] - 在顺序学习实验中,自蒸馏微调使单一模型能够随时间累积多种技能而不会出现性能退化[14] 自蒸馏策略优化提升强化学习效率 - 针对强化学习中二值反馈信息密度低、导致信用分配问题和进化停滞的困境,研究提出了自蒸馏策略优化框架[16] - 核心机制是引入富反馈环境,当模型生成错误答案时,环境返回具体报错信息,模型将这些信息作为“自省教师”重新注入上下文以校准错误[19] - 技术突破在于将原本模糊的标量奖励转化为Token级的密集监督信号,通过对比反馈后分布与初始分布的差异,精准定位导致失败的关键Token[19] - 在极难任务中,自蒸馏策略优化展现了极高的采样效率,仅需约三分之一的尝试次数即可达到其他算法的解发现率,实现了3倍的加速[21] - 在整体训练上,该方法能以更少的样本量快速收敛,在k=1000时已能解决70%的困难任务[21] - 在LiveCodeBench等竞赛级编程测试中,自蒸馏策略优化仅需传统GRPO算法四分之一(1/4)的生成样本量即可达到同等精度[21] 策略内自蒸馏挖掘模型推理潜力 - 针对复杂推理任务中搜索空间过大、奖励信号稀疏的问题,研究提出了策略内自蒸馏框架[22] - 核心机制是将模型配置为两种状态:教师策略可接触特权信息以产生高质量分布,学生策略仅凭题目作答[25] - 技术突破是采用策略内采样,训练目标是最小化学生分布与教师分布之间的KL散度,迫使模型通过内生分布对齐,学会从题目直接推导深度推理链路[25] - 在MATH和GSM8K等高难度推理基准测试中,策略内自蒸馏展现了极高的学习效率,其Token利用率比传统的GRPO算法高出4至8倍[27] - 实验证明,监督微调能提供初始方向,但策略内自蒸馏能更进一步挖掘模型内在的“推理潜力”[27] 自蒸馏成为大模型后训练标准配置 - 三项研究的核心逻辑一致:利用模型已有的内生能力,通过不同的上下文构造“信息差”,实现自驱动的闭环升级[27] - Self-Distillation正在成为大模型后训练阶段的标准配置[27] - 行业趋势表明,未来可能不再需要外部强教师教模型变强,而是为其提供“持续学习”的机会[28]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]
OpenAI现离职潮
36氪· 2026-02-04 10:46
公司战略重心转移 - 公司正将发展重心从长期基础研究转向加速推进其旗舰产品ChatGPT [1] - 公司已重新分配资源,减少实验性研究投入,把更多预算用于升级支撑ChatGPT的大语言模型 [1] - 这一战略调整标志着公司从一家研究实验室演变为硅谷最具规模的科技公司之一,需要向投资人证明其收入增长足以支撑高达5000亿美元的估值 [1] 内部影响与人员变动 - 战略转向引发多名资深员工离职,近几个月离职者包括研究副总裁Jerry Tworek、模型政策研究员Andrea Vallone以及经济学家Tom Cunningham [1] - 未参与大语言模型开发的研究者申请算力等资源时往往被拒,或只获得不足以验证研究假设的资源 [2] - 负责视频与图像生成模型Sora和DALL-E的团队感到被忽视、资源不足,因为这些项目被认为与ChatGPT核心战略关联较低 [2] - 另有一些与大语言模型无关的项目在过去一年中被逐步关停,公司进行了团队重组以围绕ChatGPT进一步精简架构 [2] 竞争环境与外部压力 - 公司面临来自谷歌、Anthropic等竞争对手日益激烈的挑战 [1] - 去年12月,谷歌发布的Gemini 3在独立基准测试中超越公司模型,而Anthropic的Claude在代码生成方面快速追赶,促使公司CEO发出提升ChatGPT的“红色警报” [2] - 行业竞争压力巨大,所有公司都想每个季度推出最强模型,形成一场疯狂、残酷的军备竞赛,企业投入的资金令人难以置信 [2] - 公司被锁在与谷歌和Anthropic的激烈竞争中,对手模型实力接近甚至更强,公司已没有放慢脚步的空间 [3] 研究方向的内部争议 - 公司内部有观点认为,现在把语言模型更多当作一个工程问题来处理,通过扩大算力规模、优化算法和数据来获得性能提升,但做真正原创性、突破性研究变得非常困难 [1] - 首席研究官Mark Chen否认上述说法,称长期、基础性的研究仍是公司核心,大部分算力和投资仍投入在这些方向,数百个项目正在探索超越单一产品的长期问题 [1] - 前研究副总裁Jerry Tworek因希望探索“在公司难以开展的研究类型”(如持续学习)而离职,其多次申请更多算力和人员支持遭管理层拒绝,并与首席科学家Jakub Pachocki在科学路径上发生分歧 [3] 市场与护城河观点 - 许多投资人对此战略调整并不担心,认为公司真正的护城河在于数亿ChatGPT用户 [3] - 有观点认为,公司的护城河正从研究能力转向用户行为形成的平台锁定效应,这种优势更难被撼动 [4]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
36氪· 2026-01-29 15:16
核心观点 - 前OpenAI核心研究员Jerry Tworek离职后迅速创立Core Automation公司,旨在开发具备“持续学习”能力的新型AI模型,并计划激进地筹集5亿至10亿美元资金 [1][8] - 公司认为当前主流大模型“训完就上线”的静态模式存在局限,而“持续学习”是提升AI在真实世界中适应性、降低成本效率并迈向AGI的关键路径 [5][10][13] 公司概况与创始人背景 - 新公司名为Core Automation,由OpenAI前员工Jerry Tworek在离职不到一个月后创立 [1] - Jerry Tworek是OpenAI推动大模型具备推理能力的核心人物之一,拥有数学硕士背景及量化研究经验,主导了推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等核心模型线的构建 [3] 技术方向与计划 - Core Automation的技术切入点是解决“持续学习”问题,目标是让AI模型能够像人类一样,从连续不断的新数据、新任务和新经验中学习新知识,同时尽可能不遗忘旧知识 [5][7] - 具体实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [8] 融资目标 - 公司计划筹集5亿到10亿美元资金,折合人民币约70亿元,旨在以“下一代基础模型实验室”的规格起步 [1][8] 行业趋势与竞争格局 - “持续学习”被视为实现AGI的关键前提,因其能让模型持续进化、处理长时序任务并可能降低对海量静态数据预训练的依赖,从而提升成本效率 [10][11][12][13] - OpenAI联合创始人Ilya Sutskever创办的SSI公司也专注于类似方向,其理念与Jerry高度重合,认为真正的AGI应是在真实世界中不断学习积累经验的系统 [15] - 谷歌研究院等大型科技公司也在推进相关研究,例如提出了“Nested Learning”和“Titans”等新思路,通过引入可学习的长期记忆模块来增强模型的持续学习能力 [17] - DeepMind的强化学习研究员Ronak Malde预测2026年将成为“持续学习元年” [19]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
量子位· 2026-01-29 13:03
核心观点 - OpenAI前核心研究员Jerry Tworek离职后迅速创立Core Automation公司,瞄准“持续学习”领域,计划筹集5亿至10亿美元资金,旨在开发能够像人类一样从新数据和新经验中不断学习且不遗忘旧知识的新型AI模型 [1][15][18] Jerry Tworek的背景与成就 - Jerry Tworek拥有强大的理论与数理功底,在华沙大学获得数学硕士学位,并曾从事量化研究工作,专注于优化问题与噪声数据处理 [6][7][8] - 2019年加入OpenAI后,他将强化学习的方法论带入大模型研究,主导了首个推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等多条核心模型线的构建,是推动大模型从生成走向推理的核心人物之一 [9][10] Core Automation公司的技术方向与目标 - 公司致力于解决“持续学习”问题,目标是让AI模型能够在真实世界的使用过程中,从连续不断的新数据、新任务和新经验中逐步学习新知识,同时尽可能保留旧知识 [15][16] - 技术实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [17] - 融资目标激进,计划筹集5亿到10亿美元,旨在按照下一代基础模型实验室的规格起步 [18] 持续学习领域的重要性与行业动态 - 持续学习被视为解决当前大模型“训完就上线”模式弊病的路径,该模式导致模型部署后能力基本固定,无法有效利用遇到的新情况 [12][13] - 从成本与效率角度看,持续学习路径被认为更具优势,它主张模型在真实使用中吸收新经验,用更少的交互实现进步,从而降低对训练数据和算力的依赖 [20][21][22] - 行业共识认为,要实现AGI,模型必须具备持续进化、处理长时序任务等“生物”能力,而“持续学习”是达成此目标的关键前提 [23] - 该领域已吸引多方关注:OpenAI联合创始人Ilya创立的SSI公司也专注于相近方向 [25];Google Research提出了“Nested Learning”和“Titans”等新思路以增强模型的持续学习能力 [28];DeepMind研究员预测2026年将成为“持续学习元年” [31]
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
36氪· 2026-01-27 17:17
研究核心观点 - 斯坦福、英伟达等机构的研究者提出了一种名为“测试时训练以发现”的新方法,该方法在测试阶段针对单个具体问题,通过强化学习实时更新模型权重,使模型能从失败尝试中学习并定向进化,从而在多个科学发现领域达到或超越最先进水平 [1][2] 方法原理与创新 - 该方法摒弃了传统的“测试时缩放”或仅通过提示调度冻结模型的做法,核心是在测试时进行强化学习 [2][3] - 其学习目标采用熵目标函数,旨在产生一个极优解,而非优化所有任务的平均奖励 [3] - 搜索过程引入了受PUCT启发的重用机制,在缓冲区维护历史尝试,优先扩展最具潜力的状态,以平衡探索与利用 [4][7] - 模型通过自身生成动作并接收反馈,将大量尝试存入缓冲区,形成针对特定问题的“私有数据集”,从而解决了分布外问题无数据可练的困境 [5] 性能表现 - 该方法基于开源模型gpt-oss-120b,在多个领域达到SOTA [2] - 在数学的Erdős最小重叠问题上,将下界从0.380927优化至0.380876 [2] - 在内核工程任务中,在GPUMode上比顶级人类工程师快2倍,具体在A100上达到2198.190皮秒,优于人类的4531.516微秒 [2][9] - 在算法竞赛中,在历届AtCoder比赛题目上取得最高分567,062分,优于此前最佳AI的558,026分和最佳人类的566,997分 [2] - 在生物学的单细胞RNA-seq去噪任务上,性能达到0.71,优于人类专家的0.64 [2] 实现细节与成本 - 在具体算法中,搜索和学习过程均利用策略生成动作,并由问题描述诱导出环境转移函数 [5] - 训练循环包括从缓冲区挑选最具潜力的起点、生成新尝试、评分、更新模型权重,并重复此过程 [8] - 研究基于Tinker API运行,单个问题的测试成本约为数百美元 [9] 适用性与前景 - 该方法表明,在测试阶段引入针对性学习,能使中等规模开源模型在解决复杂的分布外科学问题上展现出卓越能力 [10] - 目前该方法主要适用于连续奖励场景,后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题 [10] 研究背景与作者 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul,共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja [11][13] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员,其研究方向为持续学习,自2019年起持续关注测试时训练 [14][16]
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
量子位· 2026-01-27 10:33
研究核心观点 - 提出一种名为“测试时训练以发现”的全新方法,旨在解决开放科学问题,该方法在测试阶段针对单个具体问题,引入强化学习对模型权重进行实时更新,使模型能从失败尝试中获取经验并实现定向进化[1][5][6] - 该方法基于开源模型gpt-oss-120b,在数学、内核工程、算法和生物学等多个领域达到或超越了当前最佳水平,性能优于人类专家与前沿闭源模型[3][8] - 核心思路是“在测试时进行强化学习”,其设计目标是针对特定科学发现任务,找到一个超越已有知识的最佳方案,而非在已知数据分布中实现泛化[9][12] 方法原理与创新 - **学习目标创新**:采用熵目标函数,其核心目标是产生一个极优解,通过调整权重倾向于奖励最高的单个动作,而非优化整条轨迹的平均奖励[9][10][11] - **搜索程序创新**:引入受PUCT启发的重用机制,在缓冲区中维护历史尝试,优先扩展最具潜力的状态,同时兼顾探索,以解决有效时界过短的问题[12][20][22] - **解决数据困境**:模型通过自身生成动作并接收反馈,将大量尝试存入缓冲区,构成针对特定问题的“私有数据集”,从而解决了分布外问题无数据可练的困境[13][14] 技术实现细节 - **算法循环**:在每一步训练中循环执行“挑选-生成-评分-更新”操作,从缓冲区选出最具潜力的起点,生成新尝试并评估,随后立即根据结果更新模型权重[17][18][27] - **状态选择机制**:采用受PUCT启发的评分函数,其中Q值采用子节点的最大奖励,而非平均值,关注“从该状态出发能走到多好”,先验项则编码了高奖励状态可能孕育高奖励后继状态的直觉[24][25][26] - **训练目标公式**:引入熵目标函数与KL惩罚项,显式引导模型偏好奖励最大的动作,同时在强化高优势动作时维持必要的探索能力[22][23] 实验性能表现 - **数学领域**:在Erdős最小重叠问题上,将下界从人类最佳的0.380927和先前最佳AI的0.380924,提升至0.380876[7][8] - **内核工程**:在GPU内核编写任务中,速度比当前最佳人类实现快约2倍[7][27] - **算法领域**:在历届AtCoder比赛题目上取得最高分567,062分,超越了人类最佳成绩566,997分和先前最佳AI的558,026分[7][8] - **生物领域**:在单细胞RNA-seq去噪任务上达到0.71的评分,优于人类专家的0.64[7][8] 应用与成本 - 基于开源模型gpt-oss-120b,通过Tinker API运行,解决单个问题的测试成本约为数百美元[27] - 该方法表明,在测试阶段引入针对性学习,能使中等规模开源模型在解决复杂的分布外科学生问题时展现出卓越能力[29] - 目前主要适用于连续可验证奖励场景,后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题[29] 研究团队背景 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul,共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja[30][31][33] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员,其研究方向为持续学习,自2019年起持续关注测试时训练[34][37]