Workflow
强化学习
icon
搜索文档
Nature公开谷歌IMO金牌模型技术细节,核心团队仅10人,一年给AI编出8000万道数学题训练
36氪· 2025-11-13 17:01
核心技术架构 - 系统基于Lean定理证明器构建强化学习环境,将数学证明过程转化为游戏,通过选择策略推进证明[6] - 采用30亿参数的编码器-解码器transformer模型作为核心证明网络,同时输出策略建议和完成证明所需步数估计[8][9] - 搜索算法采用受AlphaZero启发的树搜索,并引入AND-OR树结构处理多个独立子目标,加入渐进采样机制探索多样证明策略[10] 训练方法与数据 - 预训练使用约3000亿个token的代码和数学文本,随后用Mathlib库中约30万个人工编写证明进行微调[11] - 通过基于Gemini 1.5 Pro的翻译系统,从约100万道自然语言数学题生成约8000万道形式化问题,远超现有数据集[11] - 主强化学习训练阶段消耗约8万TPU天计算资源,通过不断尝试证明自动生成的命题来更新神经网络[11][12] 测试时强化学习机制 - 面对困难目标问题时,变体生成器会围绕该题产生约40万个相关变体,创建小型专用数据集[16] - 变体包含简化特殊情况、推广到更一般形式等数学直觉,系统启动独立AlphaZero式学习过程专门训练[17] - 该机制可并行处理多个目标问题,每个问题都有专属的变体课程和学习进程[17] IMO比赛表现 - 在2024年IMO上成功解决代数和数论的三道题,包括最难的P6题,该题609名参赛者中仅5人完全解出[17][19] - 每道题的测试时强化学习过程需要2-3天计算时间,最终成绩达到金牌水平[17][19][20] - 比赛期间团队规模较小,大部分时间约10人,临近比赛才扩充,核心突破来自IMO金牌得主Miklós Horváth的变体生成方法[3] 应用反馈与局限性 - 数学家试用发现系统擅长找出反例,能快速指出陈述问题,有助于迭代得到正确形式化陈述[23] - 面对充满"定制化定义"的证明时遇到困难,在Lean中已有概念成熟的数学子领域性能更佳[24] - 依赖持续演进的Lean定理证明器造成不稳定环境,且独特数学题数量有限,生成自有问题是未来拓展方向[24]
打工人犯困就电一下?发明“电子咖啡手环”的人,真该找个牢坐
36氪· 2025-11-13 16:55
产品与市场现象 - 电击腕带类产品作为“高效觉醒神器”进入职场人日常生活,通过微电流刺激帮助用户在疲惫时保持清醒 [1] - 此类产品在社交媒体和年轻职场群体中蔓延,关键词如“醒神手环”、“智能电击手环”、“办公提神神器”的网络搜索增长趋势明显 [6] - 产品原理是使用低强度电流或机械夹压刺激皮肤,激活痛觉神经末梢,促使脑干蓝斑核释放去甲肾上腺素,从而激活交感神经系统 [17] 产品流行背景与驱动因素 - 现代职场中加班、任务碎片化、注意力分散成为常态,工作重压导致身心疲惫 [7] - 当“必须清醒”变为默认状态,疲惫被贴上“低效”、“拖拉”标签,促使部分人转向极端辅助手段 [7] - 科技与商业营销将原本用于惩罚宠物的电子设备重新定位,赋予“提升效率”、“击败疲劳”标签进行推广 [9] - 互联网平台、社交网络及职场绩效系统建立在“操作性条件作用”或“强化学习”机制上,通过点赞、表扬等微小奖励塑造持续高压工作的行为 [11][13] 产品作用机制与健康影响 - 电击腕带激活的是一种应激反应,其清醒性质更接近“恐惧”,而非自然的专注状态 [17] - 与咖啡因通过阻断腺苷受体减缓大脑疲劳信号的温和机制不同,电击直接暴力启动痛觉与恐惧回路 [18][21] - 长期使用此类产品相当于拔掉身体报警器开关,可能导致使用者耗尽能量 [16] - 长期慢性压力会使“压力负荷”持续升高,追踪近二十年的健康数据显示,其使整体死亡风险增加约22%,因心血管疾病去世的风险高出约31% [16] - 慢性压力还会导致“皮质醇钝化”,造成清晨难以提神、夜晚难以入睡的恶性循环 [16] 替代解决方案与健康建议 - 真正的高精力人群善于利用科学休息方法恢复能量,而非依赖外部刺激硬撑 [22] - 建议的碎片化休息方式包括五分钟按摩、五分钟大脑放空、5-10分钟正念冥想等,有助于大脑重启注意力系统 [22] - 规律运动如每天快走十五分钟、每周三次力量训练,能增强心肺功能,优化激素调节,从根本上保证清醒 [22] - 2017年研究发现,适量咖啡消费(每日2-4杯)与较低的心血管疾病、糖尿病和全因死亡风险相关 [20]
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化
机器之心· 2025-11-13 12:12
文章核心观点 - 中山大学等机构联合提出GRPO-Guard解决方案,旨在解决GRPO在流模型训练中出现的过度优化问题[3] - GRPO-Guard通过比率归一化和跨步梯度平衡两项关键技术,恢复裁剪机制有效性并均衡梯度贡献[19][21] - 该方法在多种GRPO变体、扩散骨干模型和代理任务中均能显著缓解过度优化,保持甚至提升生成质量[26][35] 技术问题分析 - GRPO在流模型训练中存在重要性比值分布偏移问题,导致均值长期低于1且方差差异显著[10][12] - 分布偏移使预先设定的clip机制失效,无法有效约束过度自信的正样本梯度[8][14] - 不同去噪步骤的梯度贡献差异显著,高噪声步骤贡献小,低噪声步骤贡献大,导致训练偏向单一噪声条件[15][16] - 上述问题共同导致模型陷入过度优化状态,代理奖励上升但实际图像质量和对齐度下降[2][23] 解决方案 - 比率归一化对每个去噪步骤的重要性比值分布进行标准化,使其均值接近1且方差一致[19] - 跨步梯度平衡基于RatioNorm均衡各去噪步骤梯度,使策略在整个噪声时间表上均匀探索[21] - 改进后的策略损失函数能防止单步过拟合,提升训练稳定性与生成多样性[21] 实验结果 - 在SD3.5-M模型上,Flow-GRPO结合GRPO-Guard在1860步时GenEval得分提升0.01至0.95,PickScore提升0.4至20.9[27] - 在1020步时文本渲染得分提升0.04至0.68,Gold Score平均提升0.04至1.20[27] - 在Flux 1-dev模型上,DanceGRPO结合GRPO-Guard在1260步时PickScore提升0.5至21.7,Gold Score平均提升0.14至1.02[27] - 可视化结果显示GRPO-Guard能有效保持训练后期图像质量,缓解baseline方法出现的文本响应退化和人体比例不一致问题[28][33]
桥介数物完成PreA+轮融资:深创投独家投资,创始人尚阳星年仅26岁
搜狐财经· 2025-11-13 09:46
融资与资本动态 - 公司于近期完成PreA+轮融资 由深创投独家投资[1] - 本轮融资是公司在2024年内完成的第三轮融资 三个月前刚完成PreA轮融资[1] - 融资资金将主要用于下一代云原生机器人动作开发平台的迭代升级和商业化落地 以及加速推进公司出海战略布局[1] 公司业务与技术 - 公司是一家足式机器人控制系统提供商 成立于2023年[1] - 公司行为控制方案已成功部署于50余种不同构型的机器人型号 覆盖人形、四足及轮足等多元应用场景[1] - 在2024年8月的世界机器人大会上 20多家人形机器人厂商中有11家采购了公司的运动控制解决方案[1] - 公司已帮助多家人形机器人公司完成从0到1的强化学习运动控制demo开发[1] 公司治理与创始人 - 公司实际控制人为尚阳星 总持股比例为55.14% 表决权为63.82% 并担任公司董事长[1] - 创始人尚阳星出生于1999年 本科毕业于华中科技大学(2017-2021年) 后保研至南方科技大学 师从逐际动力创始人张巍教授 并于2023年创立公司[3]
强化学习 AI 系统的设计实现及未来发展
AI前线· 2025-11-12 12:53
核心观点 - 强化学习是提升大语言模型智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [2] - 行业正从单轮、单信号的人类反馈强化学习向多轮复杂交互条件下的端到端强化学习进化 [27] - 超大规模强化学习系统面临推理、评估和训练三方面的协同挑战,需要算法与系统的协同设计 [27][58] 理论基础与工程化 - 强化学习算法理论要求策略与环境交互,使大语言模型高效探索世界并获得更好奖励以适应环境目标 [4] - 策略层面的核心是学习算法,指导策略更新梯度;环境层面的核心是奖励函数,用于对问题给予正确奖励 [4] - 算法理论看似简洁,但实际工程化执行逻辑极为复杂,涉及多个算法组件的相互作用 [5] - 工程化实践的现状是框架运行图高度复杂,远超理论抽象 [5] 核心算法演进 - 人类反馈强化学习是早期关键实践,通过人工评价模型响应并训练奖励模型拟合人类判断 [10] - 该方法优势是模型结构简单、训练稳定,但存在奖励劫持风险,且人类标注无法覆盖所有行为方面 [11] - 行业实践转向人类反馈与机器反馈结合,例如DeepSeek的生成式奖励模型会在输出分数前给出文字解释 [11] - 传统PPO算法全链路复杂,涉及推理、评估和训练三个环节,需同时训练Actor和Critic模型 [13][14][15] - 算法演进出现两条路径:一是基于偏好对的DPO类算法,可跳过奖励模型训练但假设强且易过拟合 [17];二是DeepSeek R1应用的GRPO算法,通过重复推理估计优势,避免Critic函数训练稳定性问题 [19] - GRPO在编程等纯推理场景优势明显,但未来在多轮长上下文交互中,价值函数可能发挥更大作用 [19] 超大规模系统挑战 - 强化学习进展迅速,应用范围从模型安全对齐扩展到追求推理能力上限 [24] - 超大规模系统需整合推理、评估和训练,每个维度都面临升级挑战 [27] - 推理引擎需支持权重动态更新和高效传递,例如670亿参数模型的权重需广播到整个集群 [28][35] - 需要灵活的打断机制,在权重更新时停止推理以避免产生无效数据,并优化路由机制利用KV Cache等资源 [35] - 评估环节目前主要基于CPU,但未来复杂场景需GPU参与,评估系统算力占比将大幅提升 [41][58] - 训练框架需在兼容性和效率间权衡,行业多在Megatron、DeepSpeed/FSDP等方案中选择 [44] 开源生态现状 - 中国厂商推出多个高质量开源框架,包括OpenRLHF、VeRL、AReaL、ROLL、Slime等 [50][53][56] - 各框架在调度引擎、训练引擎、推理引擎选择上各有特点,但核心都是对超大规模系统设计的思考 [55][56] - 开源系统未来需在推理效率、评估系统算力、训练性能与生态平衡方面进一步共建 [58]
从目前的信息来看,端到端的落地上限应该很高......
自动驾驶之心· 2025-11-12 08:04
行业技术趋势 - 地平线HSD表现超预期,一段式端到端方案重新成为行业量产重心,其性能上限很高 [1] - 小鹏VLA2.0采用视觉和语言并行输入,印证了VLA是技术核心 [1] - 行业整体技术路线正从两段式端到端向一段式端到端过渡,并进一步向VLA演进,多家团队已进行相应调整 [1] 课程核心内容 - 课程重点聚焦量产实践,涵盖一段式、两段式端到端、强化学习、导航应用、轨迹优化及兜底方案 [3] - 课程仅限40名学员,旨在面向就业直击落地 [3] 讲师背景 - 讲师王路拥有C9本科和QS50博士学历,发表多篇CCF-A/B论文 [5] - 现任国内顶级Tier1算法专家,从事大模型、世界模型等前沿算法的预研与量产,具备丰富的端到端算法研发和实战经验 [5] 课程大纲详解 - **第一章**:介绍主流的感知模型一体化架构和经典的规控learning化方案,以及端到端开源数据集和评测方式 [8] - **第二章**:讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递、优缺点分析,并通过PLUTO算法实战加深理解 [9] - **第三章**:介绍一段式端到端算法框架,其可实现信息无损传递,性能优于两段式,涵盖基于VLA和Diffusion等方法,并通过VAD系列进行实战 [10] - **第四章**:讲解导航地图的格式、内容信息,及其在端到端模型中的编码与嵌入方式,以有效发挥导航能力 [11] - **第五章**:重点介绍强化学习算法及训练策略,以弥补纯模仿学习的不足,实现更好的泛化能力 [12] - **第六章**:进行NN Planner项目实战,包括基于模仿学习(扩散模型、自回归算法)和强化学习的结合应用 [13] - **第七章**:介绍量产中的轨迹平滑优化等兜底方案,包括多模态轨迹打分搜索和轨迹平滑算法,确保输出轨迹稳定可靠 [14] - **第八章**:从数据、模型、场景、规则等多视角分享量产经验,讲解如何选用合适策略快速提升系统能力边界 [15] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学,辅以VIP群答疑和三次线上答疑 [16] - 课程章节按周解锁,例如12月7日解锁第二章,12月14日解锁第三章等 [16][18] - 学员需自备GPU,推荐算力在4090及以上,并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型等,具备Python、PyTorch及数学基础 [17]
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]
不怕Claude断供,豆包编程模型来了,5分钟造“我的世界”翻版,花费2毛钱
36氪· 2025-11-11 17:25
产品发布与定位 - 字节跳动旗下火山引擎发布豆包大模型家族首款编程模型Doubao-Seed-Code,该模型专门为Agentic Coding任务优化并在性价比上实现突破[1] - 模型在业内多个主流编程测评集中得分超过DeepSeek-V3.1、Kimi-K2、GLM-4.6等国产模型,整体表现仅次于顶级模型Claude Sonnet 4.5[1] - 该模型是国内首个支持视觉理解能力的编程模型,可参照UI设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对以完成样式和Bug修复[3] 性能与技术规格 - Doubao-Seed-Code拥有原生256K上下文,高于Claude Sonnet 4.5的200K上下文[1] - 模型与字节跳动AI原生IDE产品Trae中国版结合,在权威编程基准测试SWE-Bench-Verified中登顶SOTA,解决率达到78.80%[3][4] - 模型采用大规模Agent强化学习训练系统,使用覆盖10万容器镜像的数据集,并具备万级并发沙盒session能力和千卡GPU集群支持超大规模并行训练[27] 定价策略与成本优势 - 模型采用分层定价,在0-32K输入区间上输入价格为1.20元/百万Tokens,输出价格8.00元/百万Tokens[4] - 使用全量透明缓存后模型使用成本可降低80%,综合使用成本降低62.7%[4] - 实测复刻经典游戏《我的世界》成本不到2毛钱,相同tokens量下Claude Sonnet 4.5完成任务的成本超过3元[6] 功能特性与实测表现 - 模型原生兼容Anthropic API,可无缝接入Claude Code,降低开发者学习成本[7] - 在真实编程场景中能自主规划开发计划、快速搭建前端网页、深入数据库修改,并具备错误主动修复、补充注释和优化结构的能力[6][16] - 模型展现复杂代码修复能力,采取分步骤增量式修改策略,每次修改后立即验证,并能理解程序逻辑和业务需求以改进异常处理和输入验证[19][21] 生态整合与市场机遇 - 火山引擎同步发布Coding Plan,Lite套餐首购首月价格9.9元,Pro套餐首购首月价格49.9元,支持在Claude Code、veCLI、Cursor等主流智能编程环境中使用[31][32] - 国产编程模型的崛起正填补因海外AI编程模型断供风险带来的空白,为开发者提供稳定可控的替代方案[33]
上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体
机器之心· 2025-11-11 16:40
研究核心观点 - 提出“环境-智能体”训练框架,通过构建虚拟临床环境DiagGym和诊断智能体DiagAgent,将AI诊断从静态问答升级为动态多轮决策过程[7][11][13] - 该框架在诊断智能体多轮诊断流程管理能力方面显著优于DeepSeek、Claude-4等先进模型[2] - 研究团队设计了聚焦诊断推理过程的评测基准DiagBench,包含750个病例和973条医生手工撰写的评估准则[2][12] 技术框架与创新 - 构建医学诊断世界模型DiagGym,基于超过11万份真实诊疗数据训练,覆盖近5000种疾病,能模拟从典型到罕见的各种诊疗路径[10][14] - 诊断智能体DiagAgent通过端到端强化学习进行训练,学习动态决策策略,包括主动检查推荐和适时诊断收敛[11][15] - 创新性地引入带权重的诊断过程评估准则,推动AI诊断评估从“唯结果论”转向关注决策过程合理性[12][20] 实验性能结果 - DiagGym在步骤相似度和整链一致性上表现卓越,分别达到3.57/5分和96.9%,远超基线模型[24] - DiagAgent-7B检查推荐命中率达72.56%,而MedGemma和DeepSeek-v3等模型仅为20%-28%[25] - 在端到端诊断任务中,DiagAgent-14B平均交互6.66轮,检查推荐F1分数46.59%,最终诊断准确率61.27%,全面领先其他模型[28] 效率与成本优势 - DiagGym仅需单卡A100即可部署,单次生成耗时约0.52 GPU·s,而DeepSeek-v3-671B需要至少16张GPU和超过62 GPU·s的算力[24] - 强化学习策略为模型带来10至15个百分点以上的诊断准确率增益,显著优于监督微调[34] 研究价值与行业影响 - 开创“环境-智能体”闭环训练范式,为诊断智能体提供安全、可扩展的训练场,摆脱对有限诊断过程数据的依赖[37] - 代码、模型、测试数据已全部开源,推动行业技术发展[3][5] - 未来可扩展到千亿级模型,并将治疗方案、预后评估等环节纳入,构建诊疗一体化超级智能体[38][39]
腾讯优图提出Training-Free GRPO,8美元即可对DeepSeek-V3.2做强化学习
腾讯研究院· 2025-11-10 19:08
文章核心观点 - 腾讯优图实验室提出革命性方法Training-Free GRPO,实现不更新模型参数的强化学习,大幅降低成本并提升模型性能 [7][8][28] - 该方法核心思想是通过积累和迭代“经验知识”指导模型行为,而非修改模型参数,与强化学习之父Richard Sutton倡导的从经验中学习理念一致 [8] - 传统RL训练32B模型成本约1万美元,而Training-Free GRPO优化671B模型仅需8-18美元,实现成本数量级降低 [4][25] 技术原理与流程 - 方法分为四步:多路径探索生成多个解答路径、强化学习奖励进行客观评分、语义优势提炼比较不同解答优劣、经验库优化动态更新知识库 [12][14][15][17][20] - 整个过程冻结模型参数,通过多轮强化学习更新优化经验库,在推理时注入学习到的经验知识 [11] - 语义层面的洞察比单纯数值评分更有指导意义,模型能自我反思总结有效策略 [15][16] 性能提升效果 - 在数学推理任务上,仅用100个训练样本和约8-18美元成本,即在671B的DeepSeek-V3模型上实现AIME榜单性能提升 [4][18] - DeepSeek-V3.1-Terminus使用代码工具时,AIME25指标从67.9%提升至73.3%,提升5.4个百分点 [19] - 网页搜索场景中,DeepSeek-V3.1-Terminus的Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [22][23] - 训练过程中平均工具调用次数减少,表明方法能教会代理更高效使用工具 [22] 成本优势与应用场景 - 相比传统RL训练1万美元成本,新方法仅需8-18美元,降低三个数量级 [25] - 训练和推理仅需API调用,随用随付,无需准备专用GPU资源 [25] - 特别适合长尾细分场景适配、快速迭代需求以及预算有限的个人开发者、中小企业和研究机构 [26]