推理能力 - 财报，业绩电话会，研报，新闻

推理能力

搜索文档

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

机器之心· 2025-05-06 16:04

大模型推理能力发展 - 推理能力成为衡量AI模型智能的关键指标，是行业竞争焦点[2] - 推理效率已成为模型部署和性能的关键限制因素[3] - 英伟达推出Llama-Nemotron系列模型，专注高效推理，采用开放许可方式[3] Llama-Nemotron系列模型概况 - 包含三个模型规模：Nano（8B）、Super（49B）、Ultra（253B），另有支持超长上下文的UltraLong（8B）变体[4] - 模型权重和部分训练数据在Hugging Face公开，遵循NVIDIA Open Model License和Llama社区许可，可商业使用[5] - 首批支持动态推理切换的开源模型，用户可在标准聊天模式和推理模式间自由切换[6] 模型性能与优化技术 - LN-Ultra模型相比DeepSeek-R1显著提高推理吞吐量和部署效率[6] - 通过Puzzle框架实现高效推理优化，支持模块替换和精度-效率权衡[12][15] - 采用移除注意力机制和FFN压缩技术，优化总体吞吐量与内存节省[16] - LN-Super在单块H100 GPU上实现5倍推理吞吐提升，TP1配置下保持≥2.17×吞吐优势[19] - LN-Ultra在8张H100 GPU节点上实现1.71倍延迟提升，支持300万FP8精度Token缓存[20][21] 训练方法与知识迁移 - 多阶段后训练流程强化推理和非推理任务表现，包括监督微调和强化学习[9] - Qwen负责数学和科学数据生成，DeepSeek-R1作为核心教师模型迁移深度逻辑能力[9] - 通过"detailed thinking on/off"指令机制实现推理深度与回答风格的灵活切换[27] - LN-Ultra在MMLU、MATH500、HumanEval等基准测试上超越或接近Llama 3系列[25] 强化学习与性能提升 - 大规模强化学习（RL）帮助学生模型超越教师模型性能[31] - 采用GRPO算法提升科学推理能力，训练消耗约14万张H100 GPU小时[32] - 课程化学习策略显著帮助模型在复杂推理问题上的收敛和泛化[35] - FP8精度生成模式实现1.8倍吞吐提升，单个GPU最高达32 token/s[37] 指令跟随与人类反馈优化 - 短周期强化学习训练优化指令跟随能力，提升传统评测和推理任务表现[39] - LN-Super在Arena Hard评测中取得88.3分，超越多个专有模型和更大规模开源模型[40] - 迭代式在线RPO训练方式最大化偏好奖励，Arena Hard分数从69.1提升至88.1[40][41]

从论文中积累复现 R1 的 insight

理想TOP2· 2025-04-30 21:04

算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差，导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法，有效避免优化偏差，提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间，动态采样过滤无效样本，Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size（如TBS=1024）增强训练效率与稳定性 On-policy策略相比Off-policy更具优势，促进模型探索 Tollout Times增加（如n=64）提升训练效果，Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略（从KL=1×10⁻³到KL=0余弦衰减）平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为迭代完善规则设计后，要求模型按特定格式输出并构建规则式奖励系统，格式正确得1分错误得-1分，答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响在业务没有明确答案时，建议结合ruled-based数据（如数学、编程任务）与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程，没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为（如反思、验证），后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系响应长度增加可能提供更多探索空间，但核心提升源于对有效推理步骤的优化通常response越长准确性越低，因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化在逻辑题上使用RL对数学题也有提升，表明推理可能是模型的通用能力 [7][9]

科技日报· 2025-04-21 07:51

研究背景与方法 - 英国伦敦大学学院研究人员通过损伤缺陷映射法定位人脑功能对247名单侧局灶性脑损伤患者和81名健康个体进行对比研究[1] - 研究聚焦左或右额叶脑损伤患者旨在确定对推理能力至关重要的大脑区域[1] - 该方法克服了功能成像技术的局限性提供因果性证据而非相关性证据[1] 实验设计与测试内容 - 开发语言类比推理测试要求参与者通过单词关系解决问题例如比较A B C的智力水平[2] - 设计非语言演绎推理测试要求通过图片形状或数字识别逻辑模式例如数字序列匹配[2] - 测试评估能力包括理解结论推导和新问题处理[2] 关键研究发现 - 右前叶受损患者在两种测试中表现最差错误率比其他组别高出约15%[2] - 右前脑网络同时关联推理能力和流体智力即无经验状态下解决问题的能力[2] - 研究确认大脑中存在共同区域对推理和流体智力发挥关键作用[2]

GPT-5 有了雏形；OpenAI 和 Manus 研发 Agent 的经验；中国大公司扩大算力投资丨 AI 月报

晚点LatePost· 2025-03-08 20:17

技术趋势 - 硅谷巨头形成新共识：推理能力应作为大模型的核心组成部分而非附加功能，OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光：结合GPT-4.5基础模型与推理模型o3，采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈：Grok 3（10万张GPU训练）、GPT-4.5（10亿美元投入）、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式：无监督学习（GPT-3.5/4/4.5主导）与推理能力（o1/o3-mini推动），OpenAI计划分层服务用户[6] - 模型封装引发争议：斯坦福学者批评系统黑箱化导致底层机制不可解释[7]，中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆：OpenAI版本支持多层级订阅（20/200美元/月），分析师评价其接近AGI水平，效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键：强化学习驱动的端到端训练优于人工编排规则，高质量数据集决定模型上限[14] - 应用局限显现：热门话题易受低质信息污染，冷门领域价值更高，无法获取未公开信息[13] - Manus提出Agent开发哲学：主张"less structure, more intelligence"，重构AI浏览器、搜索等产品形态[13][15] - 投资人观点：推理/编程/工具使用能力突破临界点，催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增：阿里宣布三年3800亿元（530亿美元）投入，字节2025年资本开支达200亿美元，腾讯GPU采购大幅增长[17] - DeepSeek成关键变量：6710亿参数模型推动部署需求，完整版R1需80台H800（月成本500-600万）[17] - 算力需求矛盾显现：黄仁勋称下一代模型算力需求增长100倍[18]，微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡：2月先涨17%后跌20%，中国收入占比降至15%（禁令前30%）[19][20] 投融资动态 - 并购市场活跃：3笔超1亿美元交易包括Voyage AI（2.2亿被MongoDB收购）、Humane（1.16亿被惠普收购）、Kinara（3.07亿被恩智浦收购）[21] - 基础设施领域火热：CoreWeave拟IPO募40亿（估值350亿），Together AI获3.05亿融资（估值33亿），Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化：Safe Superintelligence（OpenAI系）寻求300亿估值融资，Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司：23家获超5000万融资企业中，仅2家成立于2023年后（Genspark、Eudia），医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新：OpenAI以100美元时薪雇佣300名专家生成高质量数据（如医学/物理问题，单问题耗时2小时）[32][33] - 数据质量决定上限：行业从AI生成数据（如DeepSeek专家模型）转向人工专家生产，Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升：GPT-4.5后训练阶段依赖高价专业数据，OpenAI投入超600万美元/月用于专家数据生产[33]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Previous Next