Workflow
强化学习
icon
搜索文档
腾讯发布超低成本AI训练法!120元效果秒杀70000元微调方案
量子位· 2025-10-15 14:27
文章核心观点 - 腾讯优图团队提出一种名为“无训练组相对策略优化”的新方法,该方法无需调整大语言模型参数,仅通过在提示词中学习简短经验即可显著提升模型性能 [1][2] - 该方法成本效益极高,在671B大型模型上应用仅需约18美元,远低于传统微调方法超过10000美元的成本 [5][28] - 实验证明该方法在数学推理和网页搜索任务上能实现显著的跨领域性能提升,例如将DeepSeek-V3.1-Terminus模型在AIME25上的得分从67.9%提升至73.3% [4][27][28] 技术原理与方法 - 该方法保持模型参数永久冻结,转而维护一个外部经验知识库,通过动态更新知识库而非模型参数来实现性能优化 [14] - 核心流程包括生成分析摘要、提取自然语言经验、以及通过添加、删除、修改或保留操作来更新经验库 [18][19][24] - 该方法通过改变上下文而非模型参数本身,将模型引向高奖励输出,被冻结的基础模型起到了强先验作用,保证输出的连贯性和稳定性 [22] 数学推理任务性能 - 在AIME24和AIME25基准测试中,应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型得分分别从80.0%提升至82.7%,从67.9%提升至73.3% [27][28] - 该方法仅使用100个跨域训练样本且无需梯度更新,成本约18美元,而传统强化学习方法需要数千个训练样本,成本超过10000美元 [28] - 随着每一步学习,模型表现持续提升,平均工具调用次数下降,表明模型学会了更高效地使用工具 [30][31] 网页搜索任务性能 - 在WebWalkerQA基准测试中,应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型的Pass@1得分从63.2%提升至67.8% [34][35] - 完整的Training-Free GRPO方法取得了最佳表现,Pass@1为68.6%,Pass@3为78.4%,凸显了结合真实答案指导、语义优势和经验优化的重要性 [38][39] - 该方法的有效性依赖于基础模型的能力,在QwQ-32B模型上应用时性能提升不明显,甚至低于基线 [40] 成本效益分析 - 与传统微调32B模型相比,该方法在671B大型模型上所需训练数据更少、成本更低 [5] - 对于不同规模的模型,该方法都展现出高性价比,如在Qwen3-32B模型上应用成本仅约4美元,在Qwen2.5-72B-Instruct模型上成本约3美元 [27] - 该方法以极低的成本实现了显著的性能提升,被网友评价为“太划算了吧” [7]
刚刚,UCLA周博磊也加入了一家机器人公司
机器之心· 2025-10-15 10:54
公司战略与实验室成立 - 加州大学洛杉矶分校副教授周博磊加入机器人初创公司Coco Robotics,并担任新成立的Physical AI Lab的首席AI科学家 [1] - Coco Robotics成立于2020年,专注于解决“最后一公里”配送的自动驾驶难题,其长期目标是实现完全自动驾驶以降低配送成本 [2] - 公司已积累真实世界数百万英里的运行数据,数据规模达到临界点,认为可以加速Physical AI的研究进展 [4] 技术基础与数据合作 - 公司早期依赖远程操作员协助机器人规避障碍,如今计划深入挖掘其机器人车队采集的大量运行数据以推进自动化研发 [2] - Coco Robotics与OpenAI有独立合作关系,允许Coco使用OpenAI的模型,同时OpenAI的研究实验室能访问Coco机器人采集的数据,但Physical AI Lab是独立于此合作的研究项目 [5] - 公司计划将实验室的研究成果用于提升自身自动化水平与运行效率,主要应用于其机器人所依赖的本地模型,暂无出售数据给同行的打算,但可能向运营城市分享研究成果以改善基础设施 [6] 核心人物背景与研究方向 - 周博磊本科毕业于上海交通大学,硕士毕业于香港中文大学,2018年在麻省理工学院计算机科学与人工智能实验室获得博士学位,现任UCLA计算机科学系副教授 [9] - 他的研究方向为机器感知和智能决策,重点是通过学习可解释、结构化的表征,使机器在复杂环境中感知、推理和行动 [11] - 他在人工智能顶级会议和期刊发表百余篇论文,总引用数超过6万次,h-index为78,其中一篇一作论文引用接近14000次 [12] 关键技术贡献与影响 - 周博磊提出的类别激活映射技术能有效可视化卷积神经网络在图像分类时关注的具体区域,对可解释性人工智能领域产生深远影响 [13] - 他进一步提出了网络剖析方法,能自动识别和量化神经网络中单个神经元所代表的语义概念,有助于理解整个模型内部知识的表征方式 [16] - 他领导创建了Places数据库,包含超过1000万张已标注场景照片,为场景识别任务训练强大的深度卷积神经网络树立了行业基准 [18]
卡帕西 8000 行代码手搓 ChatGPT,成本仅100美元,训练 12 小时 CORE 表现超越GPT-2
程序员的那些事· 2025-10-15 08:44
项目概述 - Andrej Karpathy发布名为nanochat的极简全栈训练/推理pipeline项目,旨在从零开始构建简易版ChatGPT [1][2] - 项目包含约8000行代码,采用全新Rust语言实现,依赖少量单一代码库 [4][5] - 核心目标是将完整技术栈整合为统一、极简、易读、可修改、易分发的代码库,作为LLM101n课程的压轴项目 [11][12] 成本与效率 - 在8×H100 GPU服务器上训练4小时,总成本约100美元即可复刻基础对话版ChatGPT模型 [3][4] - 总训练时间约3小时51分钟,总成本为92.4美元,若包含强化学习阶段总时间接近5小时 [7][57] - 训练深度为30的模型24小时后(算力消耗仅为GPT-3的千分之一),在MMLU数据集可达40多分,ARC-Easy达70多分,GSM8K达20多分 [10] 技术架构与流程 - 实现完整训练pipeline:预训练分词器、在FineWeb数据集预训练Transformer、中期训练、指令微调、可选强化学习 [5] - 推理引擎支持KV缓存、预填充/解码流程、工具使用(Python解释器),可通过CLI或类ChatGPT的WebUI交互 [5][49] - 训练20层Transformer模型,参数量约560M,需11.2B tokens训练,计算量达4e19 FLOPs [33][34][35] 性能表现 - 基础模型CORE指标达0.2219,超越GPT-2 large(0.21),略低于GPT-2 xl(0.26) [7][41] - 监督微调后模型在ARC-Easy达0.3876,GSM8K达0.0455,HumanEval达0.0854,MMLU达0.3151 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能从0.0455提升至0.0758 [7][56] 分词器优化 - 自定义分词器词汇表大小65,536 tokens,训练集包含2B字符,训练时间仅1分钟,压缩比达4.8 [25][26] - 相比GPT-2分词器(50257 tokens),在新闻文本(+7.2%)、代码(+14.6%)、科学内容(+12.3%)压缩效率更优 [27] - 在FineWeb数据集上压缩效率以微弱优势超越GPT-4分词器(100,277 tokens) [27] 社区影响与扩展性 - 项目发布后GitHub Star数迅速飙升至4.8k,被评价为"可被理解的智慧" [14] - 支持通过调整深度参数探索模型系列,深度26时CORE指标可达0.25,接近GPT-2性能 [61] - 项目具备成为研究工具框架或基准测试工具的潜力,所有模块可在社区进一步优化 [13][59]
CoreWeave:一场价值数万亿美元的盛宴
36氪· 2025-10-15 08:29
行业趋势:AI向自主智能体演进 - 大语言模型与强化学习的融合正加速催生能自主决策和执行任务的自主智能体系统[1] - AI范式正从静态模型转向智能体模型,智能体决策对算力与基础设施复杂度的要求远超传统静态推理[9] - 智能体AI经济消耗的算力将是传统静态推理的数个数量级,一次决策可能调用数百次模型前向计算[6] - 全球数据中心的算力支出规模有望从当前的数百亿级跃升至万亿级,突破速度将远超多数人预期[7] 公司战略定位:从算力供应商到智能体运行平台 - 公司定位为真正能满足强化学习主导型未来需求的核心云服务商,布局AI基础设施的智能体阶段[1] - 通过收购OpenPipe获得强化学习工具包,向价值链上游突破,掌握智能体训练核心技术并打通全流程[2] - 从硬件层加API接口质变为智能体全周期支持平台,整合任务推进引擎、记忆模块、奖励评估系统等形成一站式解决方案[3] - 核心目标是将智能体专属需求深度嵌入自身基础设施,满足高吞吐量系统互联、高速内存、回滚架构等全新要求[5] 财务与运营表现 - 季度销售额同比激增200%,达到约12.1亿美元[8] - 已签约的履约义务订单储备接近300亿美元,且无论同比还是环比都保持高速增长[8] - 季度营业利润为正但规模有限,净利润仍为亏损,主要因业务扩张投入,是高速扩张期企业的典型表现[8] - 公司已与主要客户扩大合作协议,并新增了数据中心设施,可见的需求增长与设施扩张为其切入智能体基础设施赛道提供支撑[8] 竞争优势与增长驱动 - 在电力供应、散热效率与GPU资源获取上,相比超大规模云厂商具备持久竞争优势[1][7] - 自研强化学习工具与运行时服务将显著扩大利润率,智能体调度服务的利润率将远超单纯的硬件租赁[4][10] - 智能体运行调度服务让公司能从整个决策循环中捕获更多价值,技术整合度与低延迟保障构成先发优势[9] - 客户的切换成本持续上升,当客户将核心系统部署在平台后,迁移成本极高且伴随巨大风险,增强了竞争壁垒[10] 市场潜力与估值前景 - 到2030年,若有1亿专业人士与企业依赖智能体AI系统,平均每天执行5000次推理计算,年化算力支出将达1.8万亿美元[9] - 公司合理估值区间为800-1000亿美元,若强化学习训练需求加速增长,企业价值可能接近1200亿美元[13] - 估值重估的核心驱动因素是强化学习平台的变现速度,平台收入增长越快,估值溢价空间越大[13] - 随着营收结构向强化学习工具链倾斜,合理估值区间有望逐步扩大,智能体技术的普及速度超预期将释放更大估值弹性[13]
CoreWeave:一场价值数万亿美元的盛宴
美股研究社· 2025-10-14 20:30
核心观点 - 大语言模型与强化学习的融合正加速催生自主智能体发展,公司定位为满足强化学习主导型未来需求的核心云服务商,是布局AI基础设施智能体阶段的高确定性标的 [1] 战略转型:从算力供应商到智能体运行平台 - 收购OpenPipe是公司向价值链上游突破的关键动作,获得强化学习工具包技术及开发者群体认可,打通智能体训练全流程 [4] - 转型是从硬件层加API接口到智能体全周期支持平台的质变,形成一站式解决方案 [5] - 智能体工作负载呈指数级增长,自研强化学习工具与运行时服务将显著扩大利润率 [6] - 公司将任务推进引擎、记忆模块、奖励评估系统等功能整合进技术栈,构筑竞争对手难以跨越的准入壁垒 [7] 技术优势:适配智能体的基础设施需求 - 智能体决策需要成百上千次前向计算,对高吞吐量系统互联、高速内存、回滚架构等提出全新要求 [9] - 传统云厂商无法满足智能体进化属性所需的日志记录、反馈循环、安全防护等专属需求,公司目标是将这些需求深度嵌入基础设施 [9] - 智能体AI经济消耗算力将是传统静态推理的数个数量级,一次决策可能调用数百次模型前向计算 [11] - 公司作为AI原生新云厂商领军者,占据强化学习训练先发优势,符合低成本电力、高密度散热方案、高性能GPU集群等赢家特质 [12] 财务表现与增长潜力 - 季度销售额同比激增200%,达到约12.1亿美元,已签约履约义务订单储备接近300亿美元,提供未来数年业绩可见性 [14] - 营收高增长但利润率承压是高速扩张期典型表现,向软件层平台层升级将长期改善利润率结构 [14] - 若核心平台通过GPU租赁及智能体调度相关软件服务盈利,长期利润率将迎来质的提升 [14] 市场机遇与估值逻辑 - AI范式从静态模型转向智能体模型是公司冲击万亿估值的核心前提,智能体决策循环对算力需求呈爆发式增长 [16] - 到2030年,若1亿专业人士与企业依赖智能体AI系统,平均每天执行5000次推理计算,每次计算收费0.00001美元,年化算力支出将达1.8万亿美元 [17] - 掌控从GPU硬件到强化学习工具包的垂直技术栈价值远高于按小时算力收费,智能体运行调度服务能从整个决策循环中捕获更多价值 [17] - 客户切换成本持续上升,依赖关系增强竞争壁垒并带来更高利润率 [17] - 采用混合估值模型,基础设施业务按6倍EV/Sales、智能体平台业务按14倍EV/Sales,企业价值合理区间为800-1000亿美元 [20] - 若强化学习训练需求加速增长,平台业务收入占比提升至30%,前瞻市销率可进一步升至7-9倍,企业价值或接近1200亿美元 [20]
各大顶会对RL和这些工作的结合很青睐~
具身智能之心· 2025-10-14 18:00
最近社区内部有同学留言,强化学习是不是比较古老的学科,审稿人还会青睐吗? 先回答这位同学的问题,RL是个学科,但是以发展时间来判断fashionable不是很合理。最近这段时间,在 arxiv上看到了很多关于RL、RL+VLA的内容,应用在机械臂、人形等本体上。 甚至其他领域也在依靠RL来做产品优化比如自驾,可以说,RL相当重要,相关工作在顶会上出现的也比较 多。 强化学习发挥着重要作用~ 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具身 必须要攻克的难关。 而目前主要方案即是强化学习,宇树、智元等公司的人形机器人大多通过强化学习完成对应任务,包括: 爬楼梯、爬山、跑步、跳舞、翻跟头等各类高难度动作的学习,从而赋予产品能够适应救援、测量、危险 环境的场景。 除此之外机械臂的VLA+RL方案在学术领域越来越受欢迎,RL让机器人执行的更高效、丝滑与顺畅。 但强化学习涉及的体系较大、内容繁杂,很多小白根本不知道 怎么入门,发出一篇论文更是难度极大。没有完整的学习体 系,将会处处踩坑,久久不能入门,导致最终放弃学习,错失 了机会。为了解决这个痛点,具身智能之心联合业内专家, ...
0人工参与实现梯度更新,,MIT新框架让AI自动生成微调数据,权重自主升级
36氪· 2025-10-14 15:16
大模型终于学会更新自己了! MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。 该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。 这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。 SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。 模型自动学习知识更新策略 SEAL在论文中通过两个主要实验任务验证其效果,分别是知识注入(knowledge incorporation)和小样本学习(few-shot learning)。 这两类任务分别对应模型进化中的两种基本情境——记住新知识,以及快速适应新任务。 知识注入 在知识注入实验中,研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。 每轮训练开始时,模型接收到一个新的段落作为输入上下文,但不会看到与之配套的问题答案。 模型首先根据这段输入生成训练数据,然后使用LoRA进行一次小规模微调,该过程仅基于生成后的数据,不 ...
蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
机器之心· 2025-10-14 14:33
模型发布与市场反响 - 蚂蚁集团在短短十余天内连续开源三款大模型,最新发布的是全球首个开源万亿参数思考模型Ring-1T [3][6] - Ring-1T上线HuggingFace仅四天下载量便突破千次,显示出较高的市场关注度 [3] - 此次正式发布的Ring-1T完成了完整的训练流程,包括通过大规模可验证奖励强化学习和人类反馈强化学习进一步增强能力 [7] 技术性能表现 - 在IMO 2025测试中,Ring-1T首次尝试便解出4题全对,达到IMO银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统 [7] - 在八个重要基准测试中,Ring-1T性能几乎全面超越其Preview版本,在ARC-AGI-v1、Arena-Hard-v2.0等高难度测试中表现尤为突出 [12][14] - 在逻辑推理任务ARC-AGI-v1上,Ring-1T刷新开源SOTA,显著领先Gemini-2.5-Pro,非常接近GPT-5-Thinking (High) [16] - 在ICPC World Finals 2025中,Ring-1T成功解出5题,表现超越Gemini-2.5-Pro (3题),逼近GPT-5-Thinking (6题) [19] 实际应用演示 - 在代码生成方面,Ring-1T能够快速生成功能完整的游戏代码,如Flappy Bird和贪吃蛇小游戏,实现交互功能与平滑动画 [20][23] - 模型在逻辑推理测试中表现出色,能够准确分析复杂情境并给出合理解答,如三只兔子赛跑问题和俱乐部成员身份推理题 [29][33] - 在创意写作领域,Ring-1T能够生成符合播客口语化风格的历史文案,语言生动且具吸引力 [40] 技术创新与工程突破 - 团队开发了强化学习算法IcePop,通过"双向截断+Masked Clipping"机制解决MoE模型训推不一致问题,显著提升训练稳定性 [45][46] - IcePop让模型在AIME25等复杂推理任务上成绩更优,输出更稳、更具多样性 [48] - 蚂蚁自研了强化学习基础框架ASystem,采用SingleController + SPMD架构,解决万亿规模训练的硬件资源调度与效率瓶颈 [50] - ASystem通过显存透明卸载与跨节点显存池化技术降低OOM风险,并实现权重秒级交换 [51] - 系统集成大规模Serverless Sandbox,支持毫秒级冷启动和10K/s吞吐量的奖励评估 [51] 开源战略与行业影响 - 蚂蚁集团在9-10月密集上线多款新品,平均每4天发布一个新模型,展现出快速迭代能力 [52] - 公司开源的不只是模型,还包括底层能力如强化学习框架AReaL,让社区能复用其在RL工程上的积累 [52] - 蚂蚁将开源视为AI普惠落地的现实路径,旨在让AI能力像电力与支付那样无处不在 [52]
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
量子位· 2025-10-14 12:08
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。 SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。 模型自动学习知识更新策略 SEAL在论文中通过两个主要实验任务验证其效果,分别是 知识注入 (knowledge incorporation)和 小样本学习 (few-shot learning)。 这两类任务分别对应模型进化中的两种基本情境——记住新知识,以及快速适应新任务。 大模型终于学会更新自己了! MIT提出一种新的强化学习框架, 让模型生成微调数据和自我更新指令 ,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。 该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。 知识注入 在知识注入实验中,研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。 每轮训练开始时,模型接收到一个新的段落作为输入上下文,但不会看到与之配套的问题答案。 模型首先根据这段输入生成训练数 ...
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
36氪· 2025-10-14 11:40
项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码,基于Rust语言实现,可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时,整体成本仅需约100美元,即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型,该数据集被重新打包为简单、完全打乱的分片,总计约24GB [15][16] - 项目训练了自定义分词器,词汇表大小为65,536个tokens,在训练集包含2B字符上训练约1分钟,实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练,在SmolTalk对话数据集和多项选择题数据集上微调,使模型适应对话格式并理解多选题机制,此过程约8分钟 [35][36][37] - 随后进行监督微调(SFT)以提升对话质量,并可选地进行强化学习(RL)训练,针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219,略高于GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [3][32] - 经过中期训练和监督微调后,模型在多项基准测试上表现提升:ARC-Easy从0.3561提升至0.3876,GSM8K从0.0250提升至0.0455,HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后,模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后(算力消耗为GPT-3的千分之一),在MMLU数据集上可达40多分,在ARC-Easy上达70多分,在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写,作者尝试使用AI编程助手但效果不佳,最终产出约8000行代码,旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目,有潜力发展为研究工具框架或基准测试工具,类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注,GitHub Star数飙升至4.8k,被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务(如Lambda GPU Cloud)启动一台8卡H100服务器,每小时成本约24美元,总训练时间约4小时,成本约100美元 [10][53] - 若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟,总成本约为92.4美元 [53]