Workflow
强化学习
icon
搜索文档
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 17:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 13:20
核心观点 - 通过"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT)技术可显著提升模型性能,突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿(如智能解码、思维链推理、潜在思考等方法)能提升智能水平 [2] - 该方法与人类思考方式深度关联,借鉴了心理学中的双系统理论(系统1快速直觉 vs 系统2慢速逻辑) [10][11] 心理学类比 - 人类思考分为系统1(快速直觉但易出错)和系统2(慢速逻辑更理性),模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考,模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍,稀疏模型(如MoE)计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量,提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤(如数学题推导)和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集(如STEM题目)上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样(如N选1、束搜索)通过多候选筛选提升准确性,但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误,但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习(如SCoRe框架)通过多轮次优化实现自我修正 [41] - 外部工具(如代码解释器、知识搜索API)可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构(如Universal Transformer)动态调整计算步数提升效率 [50] - 显式/隐式标记技术(如暂停标记、Quiet-STaR)可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
机器之心· 2025-05-18 12:25
大模型测试时计算优化 - 核心观点:通过延长模型"思考时间"(测试时计算)可显著提升大语言模型在复杂推理任务中的性能表现,该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化,在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍,而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量,早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能,近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大,"思考时间"带来的性能收益越显著,在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解,实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升,需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略,高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异,验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗,蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务,扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成,实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作,验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间,在数字推理任务效果显著[85] - Quiet-STaR实现token级推理,通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效,但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关,但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时,表明基础模型能力仍是关键[112]
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位· 2025-05-17 11:50
强化学习框架ZeroSearch的核心创新 - 开源ZeroSearch框架通过模拟搜索引擎环境实现无需真实API交互的强化学习训练,显著降低训练成本[4][19] - 仅需3B参数LLM作为检索模块即可达到与真实搜索引擎相当的效果,14B参数版本甚至超越谷歌搜索性能[5][30][31] - 采用渐进式抗噪训练策略,初期提供高质量文档,后期按指数曲线增加噪声比例以提升模型鲁棒性[12][13][17] 技术实现细节 - 轻量微调使LLM具备生成"有用结果"和"噪声干扰"文档的双重能力,模拟真实搜索场景[7][10][11] - 兼容PPO和GRPO等多种强化学习算法,GRPO在稳定性上表现更优,PPO在任务灵活性上更具优势[19][21][34][35] - 通过课程学习机制动态调整文档质量,使模型从简单场景逐步过渡到复杂检索任务[13][14][17] 性能表现对比 - 在单跳问答任务中,ZeroSearch-base模型平均准确率达38.61%,显著高于RAG(25.51%)和RA-Agent(20.71%)[24][25] - 多跳问答任务中,ZeroSearch-instruction版本以40.54%平均准确率超越所有基线方法,展示复杂推理能力[24][26] - LLaMA-3.2-3B模型上ZeroSearch奖励曲线比真实搜索引擎(Search-R1)更平滑且最终性能更高[28][29] 经济性与扩展性优势 - 完全消除搜索引擎API调用成本,使大规模RL训练经济可行[19][22] - 7B参数模型即达到谷歌搜索水平,参数扩展性验证其在大型模型的应用潜力[30][31] - 训练数据自生成机制形成闭环生态,提升训练灵活性和可扩展性[18][22][37]
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 11:50
GPT-5整合计划 - 下一代基础模型GPT-5计划整合Codex、Operator、Deep Research和Memory等工具,减少模型切换 [2][11] - 核心目标是提升现有模型能力,使其成为多功能助手而非仅提供建议 [10] Codex项目发展 - Codex最初是工程师的业余项目,因内部工作流未充分利用模型而启动 [5] - 内部使用Codex后编程效率提升约3倍,代码和功能交付量显著增加 [5][17] - 团队探索按需付费等灵活定价方案,未来可能推出o3-pro或codex-1-pro版本 [5] 技术实现细节 - Codex CLI工具采用TypeScript编写,因开发者熟悉且适合UI开发,未来将支持多语言扩展 [8] - 云端运行Agent可实现并行化和沙盒化,保障代码安全执行 [9] - 模型利用容器运行时加载的GitHub仓库等静态信息,未来可能结合RAG技术动态引用外部知识库 [15] 效率提升与行业影响 - Codex通过生成多版本代码并筛选最优解,改变传统"氛围编码"范式 [10] - 与良好软件工程实践结合后,开发效率提升显著,测试流程和代码结构优化成为关键 [17] - 未来10年愿景是实现软件需求到可运行版本的高效可靠转化 [18] 开发者生态策略 - Codex定位为辅助工具而非替代品,帮助初级开发者降低学习门槛 [19] - 计划面向Plus/Pro用户推出免费API积分以推广Codex CLI使用 [20] - 官方发布《Codex上手指南》,涵盖GitHub连接、任务提交及提示词技巧等实操内容 [24][25] 技术研究方法 - 采用强化学习提升模型编码能力、代码风格及报告准确性 [15][16] - 团队对强化学习在LLM和编码领域的应用前景持乐观态度 [16]
OpenAI首席科学家帕乔茨基:AI已开始具备原创性研究能力
36氪· 2025-05-16 18:14
OpenAI首席科学家雅库布・帕乔茨基于近日接受了《自然》杂志的专访。帕乔茨基在访谈中表示,目 前强化学习正在推动AI模型逼近"推理"边界,AGI正从理论走向现实,而开源与安全之间的张力是当前 AI发展的一大挑战。 雅库布・帕乔茨基:现在我们能与模型对话,但它仍然需要持续指导。我认为未来的重大变化之一,就 是这一点(指AI作为助手角色)将被根本性地改善。 我们已经看到类似OpenAI 的 "Deep Research"等 工具(可整合大量信息)在无人监督的情况下,能运行 10到20分钟并产出有价值的内容,而完成这些任务所需的计算资源其实很少。 帕乔茨基预计,未来AI将能够独立完成真正具有原创性的科学研究任务,推动软件工程、硬件设计等 多个学科的发展。 那么,如果我们面临开放性研究问题,花更多算力是值得的。 以下为访谈内容摘要: 我相信未来我们将拥有真正具备原创研究能力的AI。我们将在诸如自动软件工程、硬件组件自主设计 等领域取得巨大进展,并扩展到其他学科的类似应用中。 问:目前,科学家们越来越多地使用推理模型。你认为这些模型在五年后会扮演怎样的角色? 问:在构建OpenAI的推理模型方面,强化学习发挥了多大作 ...
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 12:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 23:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]
锦秋基金臧天宇:2025年AI创投趋势
锦秋集· 2025-05-14 18:02
国内AI投资趋势观察 - 近60%的投资项目分布在应用层 得益于模型智能提升和调用成本下降 应用层迎来显著爆发期 [6] - 底层算力占比超10% 作为AI"能源"是推动模型训练和推理的基础要素 [6] - 具身智能(Physical AI)占比超10% 成为中美共同关注的热点领域 [6] - 2023年投资集中于大语言模型(LLM) 2024-2025年重心转向应用层 [6] 应用层投资细分方向 - Agent方向占比近40% 包括Coding Agent和Vertical Agent(营销/客服/法律/金融等) [8] - 创意工具占比20% 涵盖图像/视频/个性化商品等生成式AI应用 [8] - 内容与情绪消费占比20% 衍生出对话+剧情/游戏化等新内容形态 [8] 算力与具身智能布局 - 算力层关注存算一体/光计算等新架构 以提升推理效能 [9][23] - 具身智能重点投资软硬一体机器人产品 及上游关节/数据服务 [9] 中间层/工具链投资 - 大语言模型安全领域布局 防范提示词注入等新型风险 [10] - 强化学习基础设施投资 支持Vertical Agent持续优化 [10] AI投资核心变量 - 智能提升维度: 从预训练Scaling Law转向后训练优化 进入Test Time Scaling阶段 [14] - 成本下降维度: Token价格从5元/万Token降至0.8元/百万Token 降幅达10倍 [19][20] - 两大趋势叠加催生应用层机会 类比互联网/移动互联网变革 [26][27] 应用层机会框架 - 信息/内容/服务供给极大丰富: 编辑成本趋零/创作成本下降/新内容模态涌现 [30][31][32] - 分发模式进化: 从精准推荐到主动式服务 基于更细粒度用户建模 [34][36] Physical AI发展 - 通用机器人是终极目标 需解决真实数据获取与软硬件协同优化 [39][40] - 模型层进展显著: pi0.5模型验证数据重要性 DYNA-1实现单任务真机部署 [38]
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]