强化学习
搜索文档
 0人工参与实现梯度更新,,MIT新框架让AI自动生成微调数据,权重自主升级
 36氪· 2025-10-14 15:16
大模型终于学会更新自己了! MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。 该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。 这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。 SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。 模型自动学习知识更新策略 SEAL在论文中通过两个主要实验任务验证其效果,分别是知识注入(knowledge incorporation)和小样本学习(few-shot learning)。 这两类任务分别对应模型进化中的两种基本情境——记住新知识,以及快速适应新任务。 知识注入 在知识注入实验中,研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。 每轮训练开始时,模型接收到一个新的段落作为输入上下文,但不会看到与之配套的问题答案。 模型首先根据这段输入生成训练数据,然后使用LoRA进行一次小规模微调,该过程仅基于生成后的数据,不 ...
 蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
 机器之心· 2025-10-14 14:33
 模型发布与市场反响 - 蚂蚁集团在短短十余天内连续开源三款大模型,最新发布的是全球首个开源万亿参数思考模型Ring-1T [3][6] - Ring-1T上线HuggingFace仅四天下载量便突破千次,显示出较高的市场关注度 [3] - 此次正式发布的Ring-1T完成了完整的训练流程,包括通过大规模可验证奖励强化学习和人类反馈强化学习进一步增强能力 [7]   技术性能表现 - 在IMO 2025测试中,Ring-1T首次尝试便解出4题全对,达到IMO银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统 [7] - 在八个重要基准测试中,Ring-1T性能几乎全面超越其Preview版本,在ARC-AGI-v1、Arena-Hard-v2.0等高难度测试中表现尤为突出 [12][14] - 在逻辑推理任务ARC-AGI-v1上,Ring-1T刷新开源SOTA,显著领先Gemini-2.5-Pro,非常接近GPT-5-Thinking (High) [16] - 在ICPC World Finals 2025中,Ring-1T成功解出5题,表现超越Gemini-2.5-Pro (3题),逼近GPT-5-Thinking (6题) [19]   实际应用演示 - 在代码生成方面,Ring-1T能够快速生成功能完整的游戏代码,如Flappy Bird和贪吃蛇小游戏,实现交互功能与平滑动画 [20][23] - 模型在逻辑推理测试中表现出色,能够准确分析复杂情境并给出合理解答,如三只兔子赛跑问题和俱乐部成员身份推理题 [29][33] - 在创意写作领域,Ring-1T能够生成符合播客口语化风格的历史文案,语言生动且具吸引力 [40]   技术创新与工程突破 - 团队开发了强化学习算法IcePop,通过"双向截断+Masked Clipping"机制解决MoE模型训推不一致问题,显著提升训练稳定性 [45][46] - IcePop让模型在AIME25等复杂推理任务上成绩更优,输出更稳、更具多样性 [48] - 蚂蚁自研了强化学习基础框架ASystem,采用SingleController + SPMD架构,解决万亿规模训练的硬件资源调度与效率瓶颈 [50] - ASystem通过显存透明卸载与跨节点显存池化技术降低OOM风险,并实现权重秒级交换 [51] - 系统集成大规模Serverless Sandbox,支持毫秒级冷启动和10K/s吞吐量的奖励评估 [51]   开源战略与行业影响 - 蚂蚁集团在9-10月密集上线多款新品,平均每4天发布一个新模型,展现出快速迭代能力 [52] - 公司开源的不只是模型,还包括底层能力如强化学习框架AReaL,让社区能复用其在RL工程上的积累 [52] - 蚂蚁将开源视为AI普惠落地的现实路径,旨在让AI能力像电力与支付那样无处不在 [52]
 0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
 量子位· 2025-10-14 12:08
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。 SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。 模型自动学习知识更新策略 SEAL在论文中通过两个主要实验任务验证其效果,分别是 知识注入 (knowledge incorporation)和 小样本学习 (few-shot learning)。 这两类任务分别对应模型进化中的两种基本情境——记住新知识,以及快速适应新任务。 大模型终于学会更新自己了! MIT提出一种新的强化学习框架, 让模型生成微调数据和自我更新指令 ,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。 该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。 知识注入 在知识注入实验中,研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。 每轮训练开始时,模型接收到一个新的段落作为输入上下文,但不会看到与之配套的问题答案。 模型首先根据这段输入生成训练数 ...
 卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
 36氪· 2025-10-14 11:40
 项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码,基于Rust语言实现,可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时,整体成本仅需约100美元,即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2]   技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型,该数据集被重新打包为简单、完全打乱的分片,总计约24GB [15][16] - 项目训练了自定义分词器,词汇表大小为65,536个tokens,在训练集包含2B字符上训练约1分钟,实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练,在SmolTalk对话数据集和多项选择题数据集上微调,使模型适应对话格式并理解多选题机制,此过程约8分钟 [35][36][37] - 随后进行监督微调(SFT)以提升对话质量,并可选地进行强化学习(RL)训练,针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48]   性能表现 - 模型在预训练后CORE指标达到0.2219,略高于GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [3][32] - 经过中期训练和监督微调后,模型在多项基准测试上表现提升:ARC-Easy从0.3561提升至0.3876,GSM8K从0.0250提升至0.0455,HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后,模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后(算力消耗为GPT-3的千分之一),在MMLU数据集上可达40多分,在ARC-Easy上达70多分,在GSM8K上达20多分 [6]   项目特点与影响 - 项目代码完全手写,作者尝试使用AI编程助手但效果不佳,最终产出约8000行代码,旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目,有潜力发展为研究工具框架或基准测试工具,类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注,GitHub Star数飙升至4.8k,被评论为具有高教育价值和可理解智慧 [8]   成本与效率 - 使用云服务(如Lambda GPU Cloud)启动一台8卡H100服务器,每小时成本约24美元,总训练时间约4小时,成本约100美元 [10][53] - 若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟,总成本约为92.4美元 [53]
 卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
 量子位· 2025-10-14 10:19
 项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目,旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时,复刻基础对话功能的模型 [4] - 整个代码库约8000行,基于Rust语言实现,包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5]   技术架构与流程 - 采用Transformer架构,在FineWeb-EDU数据集上预训练,使用自定义分词器(词汇量65,536)实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练(BASE)、中期训练(MID)、监督微调(SFT)和强化学习(RL)四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用(如Python解释器),提供CLI和类ChatGPT的WebUI交互界面 [5][43]   性能表现 - 预训练模型CORE指标达0.2219,超越GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [7][41] - 经过中期训练和监督微调后,模型在多项基准测试中提升:ARC-Easy从0.3561升至0.3876,GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能进一步提升至0.0758,总训练耗时3小时51分钟,成本约92.4美元 [7][53][56][57]   可扩展性与社区影响 - 项目设计为可调优框架,用户可通过修改深度参数(如depth=30)探索更大模型,预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性,已获GitHub 4.8k星关注,被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容,推动AI教育普及 [12][75]
 《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
 36氪· 2025-10-13 18:46
 对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11]   对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15]   对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20]   对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23]   对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28]   对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31]   对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34]   对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36]   对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40]   对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
 真正的AI竞争力,藏在大模型“后训练”这一步
 量子位· 2025-10-13 16:47
 后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路,旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式,并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒[4]   企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路:准备高质量数据(Data)、选择合适的基座模型(Model)、设计有效的奖励机制(Reward)、构建可量化的模型评测(Evaluation)并与业务指标挂钩[8]   第一步:准备高质量数据 - 数据质量是后训练效果的上限,企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量,汽车之家利用20年积累的结构化私域数据进行增量预训练,百融云创则建立工业化数据生产线,通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13]   第二步:选择合适的基座模型 - 选对基座模型是后训练成功的一半,多家企业选择通义千问系列模型,因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万,全球下载量超过6亿,在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本,微博和网易伏羲采用模型蒸馏方案,将大模型能力迁移至更轻量的模型上,微博蒸馏至7B模型,实现了接近大模型的效果但成本更低[19][21]   第三步:设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号,技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作,将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数,汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26]   第四步:构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值,盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制,盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型,百融云创使模型回答质量分提升10%,业务违规率从1%降至千分之三[28]   企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维,2025年为高考志愿填报场景生成超1200万份报告,服务4000万用户,实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域,后训练使NPC具备多维度决策能力,如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发,成为企业真正的护城河[32]
 改变强化学习范式,Meta新作呼应Sutton「经验时代」预言
 机器之心· 2025-10-13 14:37
机器之心报道 编辑:张倩、泽南 然而,在许多环境中,基于经验数据使用强化学习来训练智能体仍然面临挑战。一方面,这些环境往往缺乏可验证或密集的奖励信号 —— 尤其是在开放式场景中 (例如网页环境通常不会返回明确的任务反馈);另一方面,智能体可能需要在长时间跨度内进行低效的探索与泛化,例如跨多轮的工具使用或复杂交互流程。 目前大多数语言智能体采用监督微调(SFT)从专家示范中学习,以避免依赖奖励信号。虽然这种方法训练高效,但缺乏环境交互,无法从失败中学习或主动探 索,同时对高质量专家数据依赖强、成本高、泛化性有限。因此,一个关键问题浮出水面: 如何让智能体在没有外部奖励的情况下,从自身经验中学习成长? 上周末,一篇来自 META 超级智能实验室(MSL)、FAIR、俄亥俄州立大学的研究为该问题提供了一种解法。 他们创新性地尝试使用一种介于模仿学习与强化学习之间的中间范式来解决上述问题,它被称为「早期经验」:智能体不仅从人工整理的数据中学习,还从自身 在环境中执行动作后产生的未来状态中学习。这些未来状态代表着智能体的「自身经验」,可以被转化为监督信号,使其能 够直接从行动后果中成 长,而无需依 赖外部奖励。 在这个 ...
 摆脱即时爽感,用小事找回创业节奏
 36氪· 2025-10-13 08:20
 多巴胺驱动的伪忙碌行为 - 创业者常将凌晨工作、喝咖啡、频繁刷数据等行为视为抓住机会的必要动作,但这些行为本质是多巴胺驱动的无效消耗[1] - 将靠外界刺激提神误认为抗压能力强,例如用重油重糖夜宵缓解疲惫或喝第三杯冰美式维持清醒[2] - 工作中存在即时反馈依赖,如每15分钟刷新用户数据看到日活上涨0.5%就认为业务在前进,或过度关注行业群消息以保持敏感度[2]   自然奖励与代理奖励的机制 - 强化学习和行为驱动的核心动力源于身体内部无意识的生理反馈,即内感受,而非仅来自外部感官刺激[5] - 自然奖励是行为改善身体内部状态的结果,如进食后血糖回升;代理奖励是外部线索,如食物香气,仅预示自然奖励即将到来[5] - 创业者误读高效信号的原因是将外部即时反馈当作自然奖励,忽视了解决用户痛点、改善业务状态等真正的自然奖励[6]   用自然奖励替代代理奖励的实践方法 - 早餐时用杂粮粥、鸡蛋等慢消化食物提供稳定能量,替代咖啡因代偿,感受胃里踏实不胀气的内感受信号[8] - 通勤时将刷碎片化资讯改为听深度行业音频课程并记录1个可落地点,或阅读后写3句话读后感,以获取真实收获的自然奖励[9] - 休息时通过察觉身体疲劳信号,如眼皮沉、肩膀紧,进行小憩或拉伸活动,替代刷手机带来的虚假放松感[10]   将内感受训练植入工作场景 - 工作中开会时不刷工作群,专注听团队问题反馈;分析数据时不纠结日活微小波动,聚焦数据异常背后的用户行为原因[12] - 项目复盘时不罗列做了多少事,而是聚焦解决了哪些业务痛点、避免了什么风险,让复盘真正推动后续优化[12] - 在碎片化时间植入微动作,如开会前感受身体接触椅子的触感,签批文件时感受笔尖压力,以保持对当下的觉察[13]
 聊聊 AI Agent 到底有多大创新?
 自动驾驶之心· 2025-10-13 07:33
作者 | sunnyzhao 编辑 | 大模型之心Tech 1,planing阶段带来了巨大的耗时,当tool变多后,turbo系列模型的准确率堪忧,因此不得不使用旗舰模型,这让延时进一步增 加。 2,planing的质量不够高,原来的task bot做任务所使用的workflow是人工决定的,现在改成了模型自助决定,从目前的测试来 看,由模型构建的复杂工作流的可用率远远不及人类水平。简单工作流使用判别式小模型反而性能更好。 3,reflection是一种时间换准确度的策略,然而这个策略非常容易重复进行自我内耗,和死循环。 这几个问题,确实是目前AI Agent技术的通病。如果把Agent当成"LLM+工具调用"的简单组合,没有认真处理工程细节,实际的 效果也确实未必比工作流编排就更好。主要结合看到一些论文,和一点实际经验,按题主说到的三点谈一下自己的看法。 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 Planning慢的本质原因 原文链接: https://www.zhihu.com/question/657739588/ ...