强化学习
搜索文档
AGI的不归之途
虎嗅APP· 2025-06-03 21:52
大模型与智能体进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等大模型密集发布 智能体协议MCP、A2A的融合推动AGI进程加速 [3] - 硅谷研究机构METR数据显示智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 初级白领岗位面临大规模替代风险 [3] - Anthropic创始人预测2026年将出现"一人独角兽公司" 智能体技术正在突破鲍莫尔病对服务业效率的限制 [3] 科技巨头战略调整 - 美国科技七雄大幅增加AI基础设施投入 同时裁撤可替代岗位 OpenAI年化收入达百亿美元 Anthropic收入半年内从10亿增至30亿美元 [4] - 中国科技巨头创始人深度参与技术变革 阿里、腾讯、字节等企业成为创新引擎 [10] - ChatGPT用户增长爆发 显示技术优势与用户体验并非完全正相关 [22] 中美AI竞争格局 - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro 逼近OpenAI o3 在开源模型领域建立成本优势 [5] - 中美前沿大模型差距从ChatGPT发布时的2年缩短至2025年上半年的不足3个月 [11] - 中国在开源社区和国家级基础设施方面快速推进 形成与美国全面对标的竞争态势 [11][36] 下一代技术突破 - OpenAI计划将GPT-5打造为推理与生成统一的原生多模态模型 已陆续拆分部分功能提前发布 [17] - DeepSeek下一代模型V4/R2将采用NSA稀疏注意力机制 支持端到端训练 提升长期记忆能力 [18][19] - 文本扩散生成技术取得进展 Gemini Diffusion实现每秒1500 token输出 中国高校及企业推出LlaDA-8B等创新模型 [31][32] AGI探索新路径 - OpenAI前成员创立SSI(估值320亿)和Thinking Machines Lab(估值90亿) 探索强化学习与思维链等新范式 [24][25] - 程序合成技术被视为突破传统范式局限的关键 AlphaEvolve已展示解决复杂数学问题的能力 [29][30] - 研究显示AI"思考时长"与"思考方式"同等重要 需建立自我规划思考深度的机制 [26] 商业化与生态演进 - AI行业呈现高增长+高投入特征 中国科技大厂增加资本支出准备大规模商业化 [35] - 智能体时代商业模式可能打破"赢家通吃" 横向平台与垂直专家的融合成为关键 [35] - 变现逻辑从使用频率转向注意力、语境与控制权的争夺 地缘竞争成为核心变量 [36]
AGI的不归之途
虎嗅· 2025-06-03 07:53
大模型技术进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等前沿大模型密集发布 智能体MCP、A2A等协议推动应用加速发展 [1] - 智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 正从初级白领工作开始逐步接管更多人类任务 [1][2] - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro并逼近OpenAI o3 在缺乏算力基础上通过后训练实现性能跃升 且具有开源和成本优势 [3] - 中国在开源领域确立优势 通义千问2024年9月超越Llama 3 DeepSeek R1 2025年初赶上o1 Llama 4推出未改变中企领跑格局 [4] - GPT-5将整合推理与生成功能 成为原生多模态模型 OpenAI已逐步拆分发布其部分功能 可能受DeepSeek竞争压力影响 [16] 行业竞争格局 - OpenAI年化收入达百亿美元 Anthropic半年内从10亿增至30亿美元 AI应用在编程、设计、医疗等领域初现规模产出 [2] - 美国科技七雄和中国阿里、腾讯等巨头创始人深度参与AI革命 中国响应速度明显快于1995年互联网时代 [8][9] - 中美前沿大模型差距从ChatGPT发布时的两年缩短至不足三个月 中国已建立全面对标的竞争态势 [10] - ChatGPT用户增长爆发显示技术优势不等于应用体验优势 开源模型如何打造杀手级应用成为中国AI创新者挑战 [22] - AI商业化将呈现高增长+高投入态势 中国科技大厂增加资本支出准备放手一搏 [35] 技术突破方向 - DeepSeek下一代模型可能采用原生多模态架构 聚焦代码、数学和自然语言 已探索数学证明模型Prover和多模态模型Janus [17] - DeepSeek研发NSA稀疏注意力机制和BSBR技术 支持端到端训练和长期记忆检索 提升代码生成和多轮互动能力 [18] - 程序合成技术成为AGI新探索方向 可通过少量示例实现问题泛化 谷歌AlphaEvolve已展示其在数学解题中的潜力 [27][28] - 文本扩散生成技术取得进展 Gemini Diffusion达每秒1500token 中国多所高校和企业推出相关模型探索技术边界 [30][31] 地缘政治影响 - AI领导力可能带来地缘政治领导力 中国在开源社区和国家级基础设施方面快速推进 形成与美国差异化优势 [9][39] - 全球AI竞争核心是美中战略博弈 两国都将AI视为经济杠杆和地缘政治影响力来源 [40] - ChatGPT主要用户来自亚洲人口大国 美国比中国更依赖全球市场 [11]
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 11:40
核心观点 - 熵最小化(EM)是一种无监督方法,仅用一条无标签数据和10步训练即可显著提升大语言模型(LLM)性能,甚至超越使用大量数据的强化学习(RL)方法 [1] - EM通过最小化模型预测分布的熵来优化模型,无需标注数据或外部监督,与预训练目标完全兼容 [4][8] - 在数学推理任务上,EM方法将Qwen2.5-Math-7B的准确率从53%提升到78.8%(MATH500测试集),从11%提升到35.3%(Minerva Math测试集),从44.1%提升到70.3%(AMC23测试集) [13][14] - EM与RL对模型置信度的影响方向相反:EM导致Logits分布右移,强化模型自信;RL导致左移,受真实信号引导 [15][16][17][18][19] - EM适合未经过大量RL调优的基础模型、需要快速部署或资源有限的场景,但可能对已深度调优的RL模型产生负面影响 [30][31][34] 从RL到EM:LLM微调的困境与新思路 - 当前LLM后训练主流方法是强化学习(RL),特别是结合可验证奖励的RL(RLVR) [2] - RL方法面临高质量标注数据依赖、复杂奖励函数设计、额外奖励模型需求和巨额计算开销等问题 [3][4] - EM提出全新思路,仅依赖模型自身预测分布的熵进行优化,无需外部监督 [4][8] 熵最小化(EM)的实现方法 - EM通过最小化标记级别的熵来减少模型预测不确定性,核心公式涉及条件熵和总体EM损失 [5][6][7] - 该方法鼓励模型提高对自身预测的信心,不依赖外部监督信号或奖励函数 [8] - EM成功依赖示例选择,研究者采用基于模型表现方差的筛选方法,挑选预测不一致性高的示例 [9][10][11] 实验结果 - 仅用一条示例和10步训练,EM方法使Qwen2.5-Math-7B在多个数学推理任务上性能大幅提升 [12][13] - 在MATH500测试集准确率提升25.8个百分点,Minerva Math提升24.3个百分点,AMC23提升26.2个百分点 [14] - EM方法缩小了与先进RL模型的差距,在AMC23基准测试中达到70.3分 [14] EM与RL的对比分析 - EM训练导致Logits分布右移,强化模型自信,增加高概率候选token数量 [16][17] - RL训练导致Logits分布左移,受真实信号引导,减少高概率路径数量 [18][19][20] - 这种差异通过Logits分布偏度量化:EM提高偏度呈现右偏,RL降低偏度甚至导致左偏 [21] EM的局限性 - 存在"过度自信"陷阱,训练约10步后性能达到顶峰,继续训练反而导致性能下降 [26] - EM训练具有显著随机性,相同设置下因种子不同平均得分可能相差高达两倍 [29] EM适用场景 - 适合未进行大量RL调优的基础模型或仅经过SFT的模型 [30] - 适合需要快速部署、资源有限的场景,对数据需求极低 [31] - 可作为现有后训练范式的补充或起点,在RL之前应用能带来增益 [32][33] - 对已深度调优的RL模型可能产生负面影响 [34] 未来研究方向 - 需要探索训练稳定性与鲁棒性,如早停标准或自适应调度机制 [35] - 研究泛化能力与跨领域应用,如对话、摘要、代码生成等领域 [36] - 探索与现有技术(SFT、RLHF等)的融合,构建更强大混合方法 [37] - 深入研究EM作为轻量级信心校准方法的潜力 [38][39]
见证历史!DeepSeek 跃居全球第二 AI 实验室,R1 登顶开源王座,R2 全网催更
程序员的那些事· 2025-06-01 10:04
模型性能升级 - DeepSeek-R1-0528在数学、编程、通用逻辑性能上媲美最强o3和Gemini 2.5 Pro [1][2] - 在AIME 2025测试中准确率从70%提升至87.5% [16] - MMLU-Pro (EM)得分从84.0提升至85.0,GPQA-Diamond (Pass@1)从71.5提升至81.0 [17] 技术优化亮点 - 幻觉率降低45%-50%,尤其在改写润色、总结摘要等场景表现更可靠 [24][25] - 支持JSON输出和函数调用,工具调用能力在Tau-Bench测评达airline 53.5%/retail 63.9% [7][31] - 前端代码生成能力增强,可快速生成完整应用(如单词复习卡片APP) [33][34] 开源模型突破 - 基于Qwen3-8B Base微调的DeepSeek-R1-0528-Qwen3-8B性能超越Qwen3-235B,参数仅为其1/30 [36][38] - 在AIME 2024测试中得分86.0,超越Gemini-2.5-Flash的82.3 [39][40] - 数学性能强于Phi-4 14B,与Qwen3-235B相当 [37][39] 行业地位提升 - DeepSeek成为全球第二大AI实验室,开源模型领导者 [9][44] - 智能指数从60分跃升至68分,进步幅度与OpenAI o1到o3相当 [46] - 性能超越xAI Grok 3 mini、Meta Llama 4 Maverick等,与Gemini 2.5 Pro并驾齐驱 [47] 训练与基准表现 - 基于DeepSeek V3 Base训练,后训练阶段增加计算资源与算法优化 [14] - 在AIME测试中平均token消耗从12K增至23K,Pass@2得分达70.7%与Claude 4 Opus相当 [18] - Codeforces-Div1评分从1230提升至1930,SWE Verified解决率从49.2%提升至57.6% [17]
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 12:00
核心观点 - RM-R1框架将奖励建模重新定义为推理任务,提出推理奖励模型(ReasRMs),通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素,两阶段训练范式(推理蒸馏+强化学习)展现出高效性,链式评估准则(CoR)机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型,性能提升高达8.7%,证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则(CoR)机制,将任务动态分类为推理型或对话型,分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准,对话型任务则生成带权重的评估准则和理由,实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹,实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程:推理蒸馏阶段从高质量推理链提取知识,强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素,单独的强化学习无法弥补性能差距,CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能,展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%,远超此前最佳表现(数学73%,代码63%)[26] - 模型规模与性能呈线性关系,32B版本在多个基准平均表现达81.5%,超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上,14B版本性能达79.6%,32B版本提升至81.5%,显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式,为大模型对齐研究提供新方向,强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断,在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案,具有显著经济优势[31][35]
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位· 2025-05-31 11:34
AI生成内核性能超越人工优化 - 斯坦福研究发现AI意外生成的内核性能超越人类专家优化版本,在NVIDIA L40S GPU测试中最高提升400% [1][2] - 测试阶段生成的合成数据可直接产生高性能内核,无需专门训练生成模型 [4][40] - 具体性能提升:层归一化达PyTorch的484.4%,Conv2D+ReLU+MaxPool组合操作达PyTorch参考实现的290.1% [6] 创新优化方法 - 采用语言推理步骤增强搜索多样性,通过"思考"产生优化思路而非逐步修改 [9][10] - 使用多分支探索模式,每个想法衍生多个实现并选择性能最优者作为下一轮种子 [15][16] - 优化策略包括内存访问优化、异步操作、数据类型优化等6大类技术 [24] 技术实现细节 - 内核用纯CUDA-C编写,无需CUTLASS和Triton等库 [13] - 通过自然语言生成优化思想再转化为代码变体,避免陷入局部最优 [14] - 使用OpenAI o3和Gemini 2.5 Pro在KernelBench 1级任务测试,最佳结果多出现在第4-5轮 [18][19] 研究背景与团队 - 华人主创团队包括斯坦福博士生Anne Ouyang(前英伟达cuDNN团队)、助理教授Azalia Mirhoseini(前DeepMind/Google Brain)和Percy Liang教授 [29][30][32][35] - 研究初衷为生成训练数据,意外发现测试数据可直接产生优质内核 [39][40][41] - 搜索资源消耗仅300万token输入和400万token输出 [49] 行业影响与展望 - 与DeepMind AlphaEvolve等研究共同显示大模型能力达到新层级 [21][45] - 显示大规模再训练非必需,智能搜索策略可解决复杂问题 [44][45] - 当前局限:FP16 Matmul性能仅达torch.matmul的52%,Flash Attention仅9% [46] - Cognition公司已开源强化学习编写CUDA内核的Kevin-32B模型 [51][52]
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 17:48
华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环,集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术,推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案: - 提升训练集群利用率:通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略,将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力:采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案,实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新:RL Fusion训推共卡技术支持多维并行策略动态切换,准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构:7180亿参数,61层Transformer(3稠密层+58 MoE层),256路由专家+1共享专家,隐层维度7680[35] - 预训练性能:6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU,预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能:CloudMatrix 384超节点实现35K Tokens/s吞吐,支持4K卡集群扩展,等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略:采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化:分层专家并行通信结合虚拟流水线并行掩盖策略,实现计算通信深度融合[18] - 内存管理:构建自适应内存优化框架,支持模块级到张量级的细粒度内存调配[26] - 训推协同:支持分离部署/训推共卡/全共卡三种模式,秒级完成状态转换[28][33]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
量子位· 2025-05-30 15:10
机器狗羽毛球技术突破 - 基于强化学习的全身视觉运动控制策略同步控制18个自由度的腿部移动和手臂挥拍动作[4] - 最高挥拍速度达12米/秒,与人类业余选手协作时实现单回合连续击球10次[5][6][23] - 在发球区拦截成功率接近100%,但正上方/后方来球拦截仍存在挑战[29][30][31] 硬件与感知系统配置 - 采用ANYmal-D四足底座+DynaArm动态手臂组合,配备ZED X立体相机(400Hz控制频率/100Hz策略更新)[13][16] - 球拍45°腕关节定向经仿真验证为最优配置,感知模块平均轨迹判断耗时0.357秒[15][20] - Jetson AGX Orin模块以60Hz异步运行轨迹预测系统,击球位置误差0.117米(12m/s挥拍时)[17][37] 运动控制性能 - 10m/s指令速度下跟踪精准,超10m/s时精度下降,实测最高执行速度12.06m/s(指令19m/s)[34][35] - 动态调整步态:短距微调/中距不规则步态/长距类疾驰步态,远距拦截采用快跑模式[38][39] - 击球后自动回位中心的行为涌现,模拟人类球员站位调整策略[25][26] 算法创新与局限 - 统一强化学习策略解决18自由度协同控制问题,突破传统固定基座方案局限[47][48] - 感知噪声模型缩小仿真与部署差距,较基准降低28%感知误差(无显式视野奖励)[51][56] - 当前依赖单一立体相机EKF估计,未来可通过扭矩/声音/RGB-D等多模态传感升级[58][59] 学术价值与场景拓展 - 苏黎世联邦理工学院团队成果发表于《Science Robotics》,验证足式机器人在动态体育场景的可行性[8][10][11] - 系统在电流/关节速度极限下运行,为复杂环境中的移动操作任务建立新基准[35][47] - 技术框架可扩展至其他需要动态协调的运动场景,如应急响应或服务业[47][58]
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 12:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]