推理能力

搜索文档
揭秘:OpenAI是如何发展出推理模型的?
华尔街见闻· 2025-08-04 15:02
文章核心观点 - OpenAI的ChatGPT成功被视为一次意外收获 公司真正的长期战略是开发具备推理能力的通用AI智能体(AI Agents) 其技术突破源于数学推理研究[1][2][3] - 公司通过结合大语言模型、强化学习和测试时计算三大技术 实现推理能力飞跃 关键突破内部代号为"Q*"或"Strawberry"[4][5] - 基于新方法开发的o1推理模型在2024年秋季问世 该模型使OpenAI在国际数学奥林匹克竞赛(IMO)中获得金牌[3][6] - 公司面临Google、Anthropic、xAI和Meta等竞争对手的激烈追赶 行业竞赛焦点在于谁能率先实现通用AI智能体愿景[9] OpenAI技术发展路径 - 数学领域被选为推理能力研究的起点 因为数学是纯粹逻辑和推理的试金石 2022年MathGen团队专注训练AI模型解答高中数学竞赛题[2] - 从语言处理到逻辑推理的跨越通过三大技术结合实现:大语言模型提供知识基础 强化学习通过奖惩机制优化决策 测试时计算允许模型反复验证思考步骤[5] - 新技术催生"思考链"(Chain-of-Thought)方法 模型展示完整解题思路而非直接输出答案 研究员观察到模型具备回溯错误和情绪化反应的特征[6] 推理能力的技术本质 - 公司从计算机科学角度定义推理为"有效消耗算力得到答案"的过程 强调功能实现而非形式模仿[7] - 研究文化采用自下而上模式 团队只需证明想法突破性即可获得GPU和人才资源支持 这种机制保障了对AGI使命的长期投入[7] - AI推理与人类思考的关系被类比为飞机与鸟类飞行 不同机制可实现相同甚至更强大的结果[7] 未来发展方向 - 当前AI智能体擅长定义明确的可验证任务(如编程) 但在处理主观性任务(如停车位选择或旅行规划)时仍存在瓶颈[8] - 核心挑战在于缺乏训练主观任务的数据 公司已开发新的通用强化学习技术训练模型处理无标准答案的问题[8] - IMO金牌模型采用多智能体协作机制 同时探索不同解题路径后选择最优解 这代表未来AI演进方向[8] - 终极目标是开发能处理互联网任何事务并理解用户偏好的超级智能体 所有研究均指向该方向[8] 行业竞争格局 - OpenAI曾为AI行业绝对引领者 但目前面临Google、Anthropic、xAI和Meta等对手的强势竞争[9] - 行业竞争焦点转向实现"智能体未来"的时间赛跑 关键在于能否在被超越前率先达到技术终点[9]
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
机器之心· 2025-05-06 16:04
大模型推理能力发展 - 推理能力成为衡量AI模型智能的关键指标,是行业竞争焦点[2] - 推理效率已成为模型部署和性能的关键限制因素[3] - 英伟达推出Llama-Nemotron系列模型,专注高效推理,采用开放许可方式[3] Llama-Nemotron系列模型概况 - 包含三个模型规模:Nano(8B)、Super(49B)、Ultra(253B),另有支持超长上下文的UltraLong(8B)变体[4] - 模型权重和部分训练数据在Hugging Face公开,遵循NVIDIA Open Model License和Llama社区许可,可商业使用[5] - 首批支持动态推理切换的开源模型,用户可在标准聊天模式和推理模式间自由切换[6] 模型性能与优化技术 - LN-Ultra模型相比DeepSeek-R1显著提高推理吞吐量和部署效率[6] - 通过Puzzle框架实现高效推理优化,支持模块替换和精度-效率权衡[12][15] - 采用移除注意力机制和FFN压缩技术,优化总体吞吐量与内存节省[16] - LN-Super在单块H100 GPU上实现5倍推理吞吐提升,TP1配置下保持≥2.17×吞吐优势[19] - LN-Ultra在8张H100 GPU节点上实现1.71倍延迟提升,支持300万FP8精度Token缓存[20][21] 训练方法与知识迁移 - 多阶段后训练流程强化推理和非推理任务表现,包括监督微调和强化学习[9] - Qwen负责数学和科学数据生成,DeepSeek-R1作为核心教师模型迁移深度逻辑能力[9] - 通过"detailed thinking on/off"指令机制实现推理深度与回答风格的灵活切换[27] - LN-Ultra在MMLU、MATH500、HumanEval等基准测试上超越或接近Llama 3系列[25] 强化学习与性能提升 - 大规模强化学习(RL)帮助学生模型超越教师模型性能[31] - 采用GRPO算法提升科学推理能力,训练消耗约14万张H100 GPU小时[32] - 课程化学习策略显著帮助模型在复杂推理问题上的收敛和泛化[35] - FP8精度生成模式实现1.8倍吞吐提升,单个GPU最高达32 token/s[37] 指令跟随与人类反馈优化 - 短周期强化学习训练优化指令跟随能力,提升传统评测和推理任务表现[39] - LN-Super在Arena Hard评测中取得88.3分,超越多个专有模型和更大规模开源模型[40] - 迭代式在线RPO训练方式最大化偏好奖励,Arena Hard分数从69.1提升至88.1[40][41]
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 21:04
算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差,导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法,有效避免优化偏差,提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间,动态采样过滤无效样本,Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size(如TBS=1024)增强训练效率与稳定性 On-policy策略相比Off-policy更具优势,促进模型探索 Tollout Times增加(如n=64)提升训练效果,Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略(从KL=1×10⁻³到KL=0余弦衰减)平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为 迭代完善规则设计后,要求模型按特定格式输出并构建规则式奖励系统,格式正确得1分错误得-1分,答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响 在业务没有明确答案时,建议结合ruled-based数据(如数学、编程任务)与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程,没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为(如反思、验证),后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系 响应长度增加可能提供更多探索空间,但核心提升源于对有效推理步骤的优化 通常response越长准确性越低,因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化 在逻辑题上使用RL对数学题也有提升,表明推理可能是模型的通用能力 [7][9]
影响推理能力的关键脑区确定
科技日报· 2025-04-21 07:51
研究背景与方法 - 英国伦敦大学学院研究人员通过损伤缺陷映射法定位人脑功能 对247名单侧局灶性脑损伤患者和81名健康个体进行对比研究[1] - 研究聚焦左或右额叶脑损伤患者 旨在确定对推理能力至关重要的大脑区域[1] - 该方法克服了功能成像技术的局限性 提供因果性证据而非相关性证据[1] 实验设计与测试内容 - 开发语言类比推理测试 要求参与者通过单词关系解决问题 例如比较A B C的智力水平[2] - 设计非语言演绎推理测试 要求通过图片形状或数字识别逻辑模式 例如数字序列匹配[2] - 测试评估能力包括理解结论推导和新问题处理[2] 关键研究发现 - 右前叶受损患者在两种测试中表现最差 错误率比其他组别高出约15%[2] - 右前脑网络同时关联推理能力和流体智力 即无经验状态下解决问题的能力[2] - 研究确认大脑中存在共同区域对推理和流体智力发挥关键作用[2]
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
技术趋势 - 硅谷巨头形成新共识:推理能力应作为大模型的核心组成部分而非附加功能,OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光:结合GPT-4.5基础模型与推理模型o3,采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈:Grok 3(10万张GPU训练)、GPT-4.5(10亿美元投入)、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式:无监督学习(GPT-3.5/4/4.5主导)与推理能力(o1/o3-mini推动),OpenAI计划分层服务用户[6] - 模型封装引发争议:斯坦福学者批评系统黑箱化导致底层机制不可解释[7],中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆:OpenAI版本支持多层级订阅(20/200美元/月),分析师评价其接近AGI水平,效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键:强化学习驱动的端到端训练优于人工编排规则,高质量数据集决定模型上限[14] - 应用局限显现:热门话题易受低质信息污染,冷门领域价值更高,无法获取未公开信息[13] - Manus提出Agent开发哲学:主张"less structure, more intelligence",重构AI浏览器、搜索等产品形态[13][15] - 投资人观点:推理/编程/工具使用能力突破临界点,催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增:阿里宣布三年3800亿元(530亿美元)投入,字节2025年资本开支达200亿美元,腾讯GPU采购大幅增长[17] - DeepSeek成关键变量:6710亿参数模型推动部署需求,完整版R1需80台H800(月成本500-600万)[17] - 算力需求矛盾显现:黄仁勋称下一代模型算力需求增长100倍[18],微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡:2月先涨17%后跌20%,中国收入占比降至15%(禁令前30%)[19][20] 投融资动态 - 并购市场活跃:3笔超1亿美元交易包括Voyage AI(2.2亿被MongoDB收购)、Humane(1.16亿被惠普收购)、Kinara(3.07亿被恩智浦收购)[21] - 基础设施领域火热:CoreWeave拟IPO募40亿(估值350亿),Together AI获3.05亿融资(估值33亿),Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化:Safe Superintelligence(OpenAI系)寻求300亿估值融资,Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司:23家获超5000万融资企业中,仅2家成立于2023年后(Genspark、Eudia),医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新:OpenAI以100美元时薪雇佣300名专家生成高质量数据(如医学/物理问题,单问题耗时2小时)[32][33] - 数据质量决定上限:行业从AI生成数据(如DeepSeek专家模型)转向人工专家生产,Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升:GPT-4.5后训练阶段依赖高价专业数据,OpenAI投入超600万美元/月用于专家数据生产[33]