Workflow
强化学习
icon
搜索文档
中美AI巨头都在描述哪种AGI叙事?
腾讯研究院· 2026-01-14 16:33
文章核心观点 - 2025年人工智能领域的技术发展标志着“暴力美学”时代的终结,行业从单纯依赖堆砌参数转向深化基础研究,以突破通用人工智能的瓶颈 [5] - 技术进步主要集中在流体推理、长期记忆、空间智能和元学习四大领域,旨在解决模型在即时推理、长期记忆和视觉处理等方面的能力偏科问题 [6] - 通过测试时计算、新型记忆架构、世界模型和元学习等方向的突破,行业在“补短板”方面取得了显著成功,为模型能力的整体提升和未来演进奠定了基础 [7] 流体推理的进化 - **测试时计算的范式革新**:智能被重新定义为不仅是参数的函数,也是时间的函数,以OpenAI o1和DeepSeek R1为代表的模型通过在推理阶段投入更多计算资源进行“慢思考”,实现了推理能力从0到8的质变 [11][12][13] - **强化学习工程优化**:强化学习在提升推理能力中扮演关键角色,其工程可拆分为探索策略、评分系统和参数更新算法三部分,2025年后两部分有明显发展 [15] - **评分系统革新**:基于可验证奖励的强化学习和稀疏奖励指标全面崛起,通过给予模型对错结论作为奖励信号,使其能自发探索推理过程,大幅提升了在数学、代码等领域的能力 [16][17] - **参数更新算法革新**:GPRO算法流行,它通过让模型生成一组答案并计算平均分来替代传统的评论家模型,节省了50%的显存,成为国内各家公司在2025年延展的基础框架 [19] - **强化学习存在天花板**:研究发现强化学习的性能增长符合S型曲线而非幂律,存在性能天花板,但其工程实践(如使用长思维链和大批量大小)已变得更加精确和可预测 [21][23] 记忆与学习 - **记忆能力是短板**:长期记忆存储是通往通用人工智能得分中仍为0的能力分支,缺乏记忆导致模型无法在现实中自我学习,且个性化体验难以实现 [25][26] - **Titans架构突破**:这是一个深度的神经长期记忆模块,能在推理时实时更新自身参数,根据输入信息的“惊奇度”决定存储内容,并引入遗忘机制,从根本上挑战了Transformer的无状态假设 [28][29][30][31] - **Nested Learning架构**:将模型参数按低、中、高频率分层更新,使整个模型参数非冻结,能够持续学习和保有长期记忆,其成本低于传统的监督微调和强化学习方法 [31][33] - **RAG的模型化演进**:检索增强生成系统从静态资料库演变为具备反思与进化能力的系统,例如ReMem引入了“行动-思考-记忆-优化”的全链路处理,能对记忆进行修剪、重组和清理,实现经验复用 [35][36][38] - **克服灾难性遗忘**:通过稀疏记忆微调等方法,模型在注入新知识时仅更新部分参数槽位,在TriviaQA任务中仅导致11%的旧知识遗忘,远优于全量微调的89% [39][40] - **策略蒸馏进步**:在策略蒸馏结合了强化学习的采样和监督微调的密集反馈,让学生模型在自己的“犯错分布”中学习,提供了一种低成本且避免遗忘的参数更新方式 [42] 空间智能与世界模型 - **视觉处理能力提升**:在Sora 2、Veo 3等视频生成模型爆发的推动下,视觉处理能力从2024年的0分提升至2025年的5分,模型开始展现出对物理规律的掌握 [45] - **自监督生成模型的缩放定律**:视觉自回归模型和扩散Transformer被证实遵循特定的缩放定律,例如DiT模型对批量大小和学习率高度敏感,但遵循特定定律后能力可大幅提升 [46][47] - **原生多模态的优势**:研究发现,尽管训练效率较低,但原生多模态架构在参数利用率上可能比晚期融合架构有更高的性能上限 [49] - **VAE的替代方案**:SVG模型通过直接用图像理解模型代替变分自编码器,统一了语义空间,据称训练效率提升6200%,并在多项指标上击败了扩散Transformer和SDXL [50] - **符号主义的世界构建**:以李飞飞团队Marble平台为代表,其基于3D高斯泼溅等技术,从多模态输入生成可探索的3D空间表示,追求更稳定和可控的生成效果 [53][55][56] - **预测即理解的路径**:Meta的V-JEPA 2通过预测被遮挡的视觉内容来学习物理规则的表征,在使用超100万小时视频训练后,模型展现出了反事实预测的能力 [57][58][59] 元学习 - **元学习的核心价值**:赋予模型“学习如何学习”的能力,使其能通过少量样本快速适应新问题,是实现低成本快速适应和应对未知世界的关键 [62][63] - **对上下文学习的重新审视**:有研究认为上下文学习可能只是激活了预训练知识而非真正学习,这与元学习理念不同,但2025年出现了利用改进的上下文框架进行元学习的新尝试 [64][65] - **测试时计算催生隐式元学习**:研究证明模型在推理时的长思维链探索本质上是寻找最优路径,通过优化探索策略(如最小化累积遗憾)可以引导模型学会如何分配算力进行有效思考 [66][69] - **显式元学习系统的探索**:例如DiscoRL系统,通过内外双层循环让AI自主发现学习算法,其发现的Disco57算法在雅达利基准上击败了人类设计的顶级算法,并展现出强大的泛化能力 [70][72] - **中训练路径**:介于预训练和强化学习之间,让智能体通过自主探索产生后果并反思,以建立因果模型,在复杂环境中的成功率平均提升9.6% [72][73] 其他关键技术进展 - **对抗数据与算力瓶颈**:行业通过混合专家模型、合成数据与强化学习结合来突破瓶颈,例如利用DeepSeek-R1生成的长思维链数据对小模型微调,效果优于人类专家编写的数据 [81][82] - **数据质量重于数量**:研究表明数据达到一定规模后存在冗余,筛选前10%最长、最复杂的推理路径样本进行训练,其效果可匹配甚至超越全量数据集 [83] - **合成数据与模型崩溃**:大规模使用合成数据可能导致模型崩溃,但通过自我验证机制过滤(如设定置信度阈值)或使用另一个模型作为裁判进行清洗,可以有效缓解此问题 [85][86] - **小模型能力的飞跃**:蒸馏技术的进步是关键,包括针对混合专家模型的特化蒸馏方案(学习所有专家的“暗知识”)以及思维融合蒸馏(提取多个教师模型的稳健推理逻辑) [88][90][92] - **注意力机制演进**:多头潜在注意力及其变体普及,用于降低显存占用;线性注意力通过混合架构(如Kimi Linear的3:1设计)在性能上首次全面超越全注意力,并在1M上下文解码时吞吐量达到全注意力的6.3倍 [94][96] - **连续空间建模**:大型概念模型和连续自回归语言模型等尝试打破离散词元的限制,通过预测连续概念向量来提升语义带宽和推理速度 [97][100] 2026年可能的技术方向 - **记忆工程化实践**:记忆技术预计将在2026年迎来大规模工程化落地,涉及架构层革新或现有RAG、监督微调技术的精修,以实现持续学习和个性化智能体 [103][104] - **标准架构变革**:模型架构可能向分区、分层、增加功能层(如记忆层)的混合架构演进,以更贴近人脑运作模式,补齐能力短板 [105][106] - **自进化AI的探索**:在记忆、合成数据和元学习等技术完善的基础上,能够让AI进行自我对弈、自我算法优化的自进化研究将在2026年产生更多可能性 [107][112]
人形机器人和强化学习交流群成立了
具身智能之心· 2026-01-14 10:02
行业动态 - 行业正围绕具身智能和人形机器人领域建立技术交流社群,社群聚焦于强化学习技术 [1] - 社群面向从事强化学习与人形机器人相关方向的专业人士,旨在促进技术交流与合作 [1]
西湖大学提出RDPO强化学习框架,实现扩散模型并行推理加速
量子位· 2026-01-13 15:21
行业技术趋势 - 扩散模型顺序去噪的特性导致采样延迟高,成为速度提升的瓶颈 [2] - 世界模型实时生成高清视频的浪潮正在冲击传统逐张生成高分辨率图像的时代 [1] 技术问题与现有方案局限 - 扩散模型因顺序去噪面临高采样延迟问题 [5] - 现有基于求解器的加速方法在低延迟预算下常导致严重的图像质量退化,主要原因是无法捕获高曲率轨迹段导致的累积截断误差 [5] 西湖大学AGI Lab提出的解决方案:EPD-Solver与RDPO框架 - 提出集成并行方向求解器,通过整合多个并行梯度评估来减少截断误差 [5] - EPD-Solver利用采样轨迹受限于低维流形的几何洞察,通过向量值函数均值定理更准确地逼近积分解 [5] - 额外的梯度计算相互独立,可完全并行化,从而保持低延迟采样特性 [6] - 引入两阶段优化框架:先通过蒸馏方法优化可学习参数,再通过RDPO框架进行强化学习微调 [6] - RDPO框架将求解器重构为随机的狄利克雷策略,优化严格在低维求解器空间内运行 [6] - 该方法可作为插件改进现有的ODE采样器 [6] RDPO框架的核心设计原理 - 设计精髓是先找准基准线,再做残差微调 [12] - 将任务转化为低维空间的策略优化问题,不暴力拆解模型本体,而是锁定求解器的参数空间 [11][13] - 第一阶段利用轨迹蒸馏技术,让EPD-Solver学习高精度教师求解器的采样路径,确保基本盘正确 [13] - 第二阶段进行残差策略优化,RL并非从零开始,而是以第一阶段参数为起点,只学习极小的残差项 [14][15] - 优化空间被严格限制在求解器参数层面,采样轨迹被约束在数学上的单纯形空间内,有效缓解了奖励作弊现象 [6][17][19] 技术性能与实验结果 - 在相同步数下,该方法在CIFAR-10、FFHQ、ImageNet等多个基准测试中取得领先的图像生成效果 [6] - 在Text-to-Image任务中,经过RDPO优化的EPD-Solver显著提升了Stable Diffusion v1.5和SD3-Medium的生成能力,在更少的步数下达到更优的质量 [7] - 定量测试显示,在NFE=20的设置下,EPD-Solver在10步时HPSv2.1得分为0.2823,优于DDIM(20步,0.2769)、Heun(10步,0.2707)、DPM-Solver-2(10步,0.2759)和iPNDM(20步,0.2805) [23] 技术影响与潜力 - 该方法证明了高质量的生成不一定要靠堆算力硬磕大模型参数,巧妙的优化策略能以极小代价换取极大增益 [23] - 不仅解决了加速问题,更提供了一种极其稳健的RLHF对齐新范式 [23] - 展示出在低延迟高质量生成任务中的巨大潜力 [6]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
具身智能之心· 2026-01-13 08:54
文章核心观点 - 英伟达的研究指出,在多奖励强化学习优化场景中,当前广泛采用的GRPO算法存在根本性缺陷,它会将不同的奖励信号混合归一化,导致训练信号被削弱和信息损失 [2][4] - 为解决此问题,英伟达提出了一种新的策略优化方法GDPO,该方法通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,从而实现了更准确的多奖励优化和更稳定的训练过程 [4] - 在工具调用、数学推理和代码推理等多项任务上的实验结果表明,GDPO在所有设置中均稳定地优于GRPO,能够实现更强的目标偏好对齐和更优的跨目标权衡 [7][37] GRPO算法在多奖励优化中的问题 - GRPO通常用于优化单一目标奖励,但在多奖励优化中,常见的做法是将所有奖励分量相加后直接应用GRPO,这会导致问题 [10] - GRPO会对聚合后的总奖励进行群组级归一化,这本质上压缩了奖励信号,导致优势估计中的信息损失 [10] - 具体示例显示,在涉及两个二值奖励的场景中,尽管存在六种不同的奖励组合,但GRPO归一化后只产生两个唯一的优势组,例如(0,1)、(0,2)和(1,2)会产生相同的归一化优势值,这削弱了学习信号 [11][12] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,出现了部分训练坍塌 [12] - 移除标准差归一化项的GRPO变体仅能略微增加不同优势组的数量,但并未带来更好的收敛性或更优的下游评估表现,在工具调用任务中甚至导致格式奖励完全失败 [13][26] GDPO算法的核心改进 - GDPO的核心创新在于“解耦归一化”,即在聚合之前对每个奖励分别进行群组级归一化,计算各自的归一化优势,然后再求和并进行批次级优势归一化,以保持数值稳定 [17] - 这种方法避免了不同奖励信号被混合“抹平”,更真实地保留了它们的相对差异 [4] - 理论分析表明,GDPO能产生显著更多的不同优势组,随着rollout数量或奖励数量的增加,其优势粒度也逐步增大,实现了更精确的优势估计 [18] - GDPO能够持续产生更稳定的训练曲线和更好的收敛性,例如在工具调用任务中,GDPO在格式奖励和正确率奖励上都实现了更好的收敛 [19] - 论文还探讨了当不同目标重要性不相等时,如何通过调整奖励权重或修改奖励函数来优先考虑更重要的目标 [19] 工具调用任务实验结果 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到比GRPO更高的值 [23] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上的整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上的整体准确率从GRPO的69.23%提升至71.22%,平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的GRPO变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0% [26] 数学推理任务实验结果 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并且避免了GRPO在约400步后出现的训练不稳定性 [29] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO,在MATH、AIME和Olympiad基准上的准确率分别提升了2.6%、6.7%和2.3% [30] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准上将准确率从GRPO的50.2%提升至53.1%,同时将超长率从2.1%大幅降低至0.2% [30][34] - 对于Qwen3-4B-Instruct模型,GDPO在AIME基准上将准确率从GRPO的54.6%提升至56.9%,同时将超长率从2.5%大幅降低至0.1% [30][34] 代码推理任务实验结果 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [35] - 例如,在Codecontests任务上,GDPO将通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3% [35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [36] - 具体在Taco任务的三奖励设置中,GDPO将超长比例从GRPO的14.7%降低至10.6%,同时将bug比例从30.0%降低至28.0% [36]
欢迎和具身智能之心一起前行,合伙人招募啦~
具身智能之心· 2026-01-12 19:00
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请 旨在通过招募合作伙伴共同拓展业务 涵盖技术服务 培训 课程开发与科研辅导等多个领域 [1] 合作背景与目标 - 年底收到大量合作伙伴与学员的诉求 期望公司在线上/线下培训 方案咨询 数据采集 技术升级等多个方向进行赋能 [1] - 公司认为更大的事业需要更多人参与 希望通过招募优秀伙伴实现“众人拾柴火焰高” [1] 合作方向与领域 - 合作技术方向广泛 包括但不限于视觉语言动作 视觉语言导航 扩散策略 强化学习 视觉语言动作结合强化学习 遥操作 动作捕捉 仿真到现实迁移 多模态大模型 仿真 运动控制 端到端学习 3D感知等多个前沿方向 [3] - 合作主要面向具身智能解决方案研发 硬件研发以及培训合作 [4] - 培训合作分为企业端与消费端 企业端主要面向企业 高校及研究院所 消费端主要面向学生及求职人群 [4] 合作激励与联系方式 - 公司将提供高额酬金与丰富的行业资源以吸引合作伙伴 [2] - 感兴趣的从业者可通过添加指定微信进行进一步咨询 [5]
最近会开放一批端到端&VLA的岗位需求
自动驾驶之心· 2026-01-12 11:15
行业技术趋势与共识 - 行业共识认为2026年将是自动驾驶领域“结硬寨,打呆仗”的一年,算法层面短期内看不到重大变革,技术重点转向对端到端、视觉语言动作模型等前沿技术的量产优化[1] - 技术发展方向明确,当前阶段需要攻克工程化应用的“硬骨头”,因此行业人力招聘重点倾向于有经验的算法工程师,并开放了大量职位[1] - 端到端和视觉语言动作模型技术方向的关键词包括:BEV感知、大模型、扩散模型、强化学习[1] 核心课程内容与结构 - 课程第一章概述端到端自动驾驶,涵盖其发展历史、从模块化到端到端的演进原因,并分析一段式、二段式及视觉语言动作模型范式的优缺点与适用场景[6] - 课程第二章重点讲解端到端技术涉及的背景知识,包括视觉语言动作模型所需的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,这些内容被认为是未来两年求职面试的高频技术关键词[6][7] - 课程第三章聚焦二段式端到端,解析其定义与出现原因,并讲解领域内的经典算法与前沿进展[7] - 课程第四章为核心精华部分,深入讲解一段式端到端的多个子领域,包括基于感知、世界模型、扩散模型以及当前最热的基于视觉语言动作模型的方法[8] - 课程第五章设置大作业,以基于人类反馈的强化学习微调进行实战,该技术可迁移至视觉语言动作模型相关算法中,具有良好延展性[9] 关键技术模块详解 - 课程详细讲解Transformer基础及其在视觉领域的应用,并涵盖为多模态大模型奠定基础的CLIP和LLaVA模型[11] - 深入介绍BEV感知基础知识,解释其如何应用于自动驾驶核心感知任务[11] - 讲解扩散模型理论及其在输出多模轨迹预测中的应用,这是当前学术界与工业界尝试落地的热点[11] - 介绍视觉大语言模型相关的强化学习技术,包括基于人类反馈的强化学习及其在视觉大语言模型训练中的作用[11] - 基于世界模型的方法被重点介绍,因其应用广泛,不仅可用于场景生成、端到端驾驶,还可用于闭环仿真,是近两年的热门技术方向[12] - 基于扩散模型的端到端方法自2023年下半年兴起,其与基于模型的方法或视觉语言动作模型结合,可更好地适应环境不确定性,课程配套相关实战讲解[12] - 基于视觉语言动作模型的端到端方法被视为当前该领域的“皇冠”,上限高、难度大,行业招聘需求旺盛,课程选取了业界代表性工作并设置实战环节[12] 课程目标与受众要求 - 课程旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端自动驾驶[10] - 期望学员学完后能达到具备约1年经验的端到端自动驾驶算法工程师水平,掌握涵盖多种方法的技术框架,并对关键技术有深刻理解[15] - 学员需自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、相关技术概念知识以及编程与数学基础[13]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器之心· 2026-01-11 12:00
文章核心观点 - 英伟达的研究团队提出了一种名为GDPO(组奖励解耦归一化策略优化)的新强化学习算法,旨在解决当前广泛采用的GRPO(组相对策略优化)算法在多奖励优化场景中的固有缺陷 [1][2] - 核心论点是,在多奖励优化中,GRPO会将不同奖励组合归一化为相同的优势值,从而削弱训练信号并可能导致训练不稳定,而GDPO通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,实现了更精确的优势估计和更稳定的训练 [2][9][11] 技术背景与问题 - GRPO及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法,是促使DeepSeek-R1成功的基础技术之一 [3] - 随着语言模型能力提升,行业趋势是同时优化多个奖励(如准确率、响应长度、格式质量),以更好地与人类偏好保持一致 [1][9] - GRPO在多奖励优化中的根本性局限在于其群组级奖励归一化会过度压缩丰富的奖励信号,导致信息损失 [9][10][11] - 例如,在一个简单的双奖励二值场景中,尽管存在六种不同的奖励组合,GRPO归一化后只产生两个唯一的优势组,使得(0,1)和(0,2)产生相同的优势值,而直觉上(0,2)应产生更强的学习信号 [10][11] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,表明出现了部分训练坍塌 [11] GDPO解决方案 - GDPO的核心改进在于,与GRPO直接对聚合奖励和进行群组级归一化不同,它通过在聚合之前对每个奖励分别进行群组级归一化来解耦这一过程 [16] - 具体而言,GDPO为每个奖励单独计算归一化优势,然后将所有目标的归一化优势相加,最后对多奖励优势之和应用批次级优势归一化,以确保数值范围稳定 [16] - 这种方法避免了不同奖励被混合“抹平”,更真实地保留了它们的相对差异 [2][17] - 理论验证显示,在两个奖励、rollout数量变化的场景中,GDPO始终产生显著更多的不同优势组,且随着rollout数量增加,差距不断扩大 [17] - 当固定rollout数量为4并增加奖励数量时,GDPO也随着目标数量增长表现出逐步增大的优势粒度 [17] 实验结果:工具调用任务 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到更高的值 [22] - 对于正确率奖励,GDPO在早期阶段表现出更快的改善,并在后期达到比GRPO基线更高的奖励分数 [22] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,整体平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [24][25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上整体准确率从GRPO的69.23%提升至71.22%,整体平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的“无标准差GRPO”变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0%,表明简单地增加优势多样性可能会给训练引入不稳定性 [25][26] 实验结果:数学推理任务 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并消除了GRPO在约400步后观察到的训练坍塌问题 [11][28] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO:在MATH准确率从83.6%提升至86.2%,在AIME准确率从23.1%提升至29.4%,在Olympiad准确率从44.3%提升至46.6% [29][33] - 同时,GDPO显著降低了响应超长比例:在AIME任务上,DeepSeek-R1-1.5B的超长比例从GRPO的10.8%降至6.5%;DeepSeek-R1-7B从2.1%降至0.2%;Qwen3-4B-Instruct从2.5%降至0.1% [29][33] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准测试上将准确率从50.2%提高了近3%至53.1% [29] 实验结果:代码推理任务 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [34] - 例如,在Codecontests上,通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3%;在Taco上,通过率从45.1%提升至48.4%,同时超长比例从11.8%降低至10.8% [34][35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [35] - 例如,对于DeepSeek-R1-7B模型,在Codeforces任务的三奖励设置下,GDPO将超长比例从GRPO的16.9%降至13.6%,bug比例从2.5%降至1.8% [35] - 总体结果表明GDPO在奖励信号数量增加时仍然有效,在双奖励和三奖励配置中都始终比GRPO实现更优的跨目标权衡 [36] 行业影响与意义 - 该研究指出了当前主流强化学习算法GRPO在应对多目标对齐这一行业重要趋势时的局限性 [1][9] - GDPO的提出为训练更符合多样化人类偏好、在多场景下表现更稳定的大型语言模型提供了新的技术路径 [2][18] - 实验证明GDPO在工具调用、数学推理和代码推理等多类任务上,在正确性指标和约束条件遵守方面都稳定地优于GRPO,展示了其有效性和良好泛化能力 [6] - 该技术有望被行业采纳,用于提升下一代语言模型的综合性能与对齐能力 [3][18]
加州大学伯克利Dr. Allen Yang:物理AI的分水岭时刻尚未到来|CES 2026
钛媒体APP· 2026-01-10 22:33
行业现状与核心观点 - 当前人工智能行业深陷“GPU竞赛”热潮,“人均GPU数量”成为衡量技术实力的热门指标,行业与国家层面都在追逐算力堆砌 [1] - 行业需要超越对云端AI的关注,将目光投向物理世界,探寻物理AI的下一个“AlphaGo时刻” [1][5] - 物理AI与依赖云端数据的大型语言模型存在本质区别,其真正的“分水岭时刻”尚未到来 [1][6] 物理AI面临的独特挑战 - **挑战一:极度缺乏覆盖所有极端场景的训练数据** 现实世界中的“边缘案例”(如罕见天气、突发障碍物、极端机械故障)难以被穷尽采集,这与可从数十年互联网数据中学习的大型语言模型形成鲜明对比 [2][13] - **挑战二:要求毫秒级的实时低延迟响应** 在高速行驶或紧急救援等场景中,决策延迟意味着失败甚至灾难 [2][13] - **挑战三:众多前沿场景中“云端”是缺席的** 在月球探索、矿难救援、火灾现场等场景,稳定高速的网络连接是奢望,部署在设备本地的“边缘AI”是唯一可行的智能 [2][15] 挑战的实证与理论依据 - **延迟优于精度** “LLM Colosseum”开源项目实验表明,在《街头霸王》游戏中,虽然小型模型单次决策精度较低,但其高频的决策速度能使其战胜响应缓慢的大型模型,印证了“完美是优秀的敌人”这一观点 [2][14][15] - **行为智能先于语言智能** 人类婴儿在学会用母语描述世界之前,就已经会通过行动探索世界,这暗示行为智能是更基础的形式 [12] - **实践中的失败案例** 2024年印第安纳赛车场比赛因暴雨导致GPS信号丢失,系统切换定位源时的不一致性致使控制算法选择错误行驶曲率,凸显了物理AI是理论与实践深度结合的复杂性 [9][10] 通过自动驾驶赛车进行的实践探索 - **赛事成就** 在2025年CES自动驾驶挑战赛决赛中,参赛的十支队伍已实现140英里/小时(约225公里/小时)的全自主行驶基准速度,伯克利车队更以163英里/小时(约262公里/小时)的速度完成超车并赢得头对头超车项目冠军 [4][18][21] - **动态交互与安全平衡** 比赛中,两车在弯道因漂移打破2-5米安全距离后双双自动紧急制动,体现了AI在动态高速物理交互中需平衡安全规则与竞争目标 [4][21] - **扩展至复杂环境测试** 将赛道延伸至中国张家界天门山,该山路全长10.77公里、有99道弯、海拔落差超1000米,并包含复杂天气,为自动驾驶提供了综合测试场,吸引了清华大学、浙江大学等九所中国高校参与 [4][25][26] - **赛事影响力** 2025年的天门山比赛吸引了超过50万人现场观看,线上观看量超过10亿次,相关社交媒体讨论超过800万条,成为迅速走红的顶级赛事 [28] 未来发展方向与计划 - **增设人形机器人挑战赛** 2026年将在原有赛事基础上增设天门山人形机器人挑战赛,邀请研发机构测试机器人在非结构化地形(如攀登999级台阶)中的移动与决策能力,以创造新的“AlphaGo时刻” [4][29] - **技术发展路径** 物理AI的进展不仅依赖于算法与硬件的迭代,也有赖于跨学科协作与在真实场景中持续积累的经验,极端环境下的技术实践与人才培养将为行业带来新启发 [4] - **行业应用前景** 对于许多前沿应用(如太空探索、灾害救援),边缘AI是唯一能依赖的人工智能,本地解决方案必须作为安全备份 [17]
姚顺雨林俊旸杨植麟齐聚,锐评大模型创业与下一代技术范式
第一财经· 2026-01-10 22:21
下一代AI技术范式 - 行业专家普遍认为,大模型发展面临缩放定律瓶颈,下一代技术范式成为焦点,其中“自主学习”是热门概念,指模型能自主生成学习信号、闭环迭代优化以持续进化[3] - 腾讯首席AI科学家姚顺雨指出,自主学习已在实际发生,但高度依赖具体数据与任务,是场景化实践,其范式迭代目前是渐变而非突变,例如Claude已能转型自身项目95%的代码以实现自我改进[3] - 阿里巴巴Qwen技术负责人林俊旸认为,当前强化学习范式仍处早期,下一代范式核心在于“自主进化”与“主动性”,但主动性会引发新的AI安全问题,需为AI注入正确价值观与约束[4] - Kimi创始人杨植麟透露,团队在探索下一代模型,最重要改进是线性注意力机制,旨在长程任务上超越全注意力机制[4] - 智谱创始人唐杰预测2026年将发生重大范式革新,包括持续学习、记忆和多模态,因学术界算力环境改善,与工业界算力差距已缩小至约10倍,具备孵化颠覆性技术的土壤[4] 范式创新的引领者 - 姚顺雨表示,尽管OpenAI经历商业化变化后创新基因被削弱,但其仍是最有可能率先诞生新范式的地方[4] - 关于三至五年后全球领先AI公司出自中国团队的概率,姚顺雨认为概率挺高,因中国具备快速复现与局部优化能力,关键取决于光刻机能否突破,中国市场有电力与基础设施优势,主要瓶颈在产能与软件生态[5] - 姚顺雨指出,中国需要培养更成熟的TO B市场或参与国际竞争,且国内环境对刷榜或数字看得更重,而像DeepSeek更注重做正确的事,Anthropic Claude在编程领域虽非榜单最高但被行业公认最好[5]
姚顺雨林俊旸杨植麟齐聚 锐评大模型创业与下一代技术范式
第一财经· 2026-01-10 22:06
下一代AI技术范式 - 行业共识认为下一代技术范式是“自主学习”,即大模型通过自主生成学习信号、闭环迭代优化实现持续进化,以摆脱对人工标注与离线预训练的强依赖 [1] - 自主学习并非通用方法论,而是高度依赖于具体“数据与任务”的场景化实践 [1] - 自主学习已在实践中发生,例如Claude模型能够转型自身项目95%的代码以帮助自身变得更好,但目前范式迭代更接近渐变而非突变 [1] 对范式创新引领者的看法 - 尽管OpenAI经历了商业化等变化,创新基因被削弱,但仍被视为最有可能诞生新范式的地方 [2] - 强化学习范式尚处早期,潜力远未被充分挖掘,下一代范式的核心在于“自主进化”与“主动性” [2] - 赋予AI主动性将引发新的安全问题,即AI可能基于自主意图采取现实行动,因此需要为其注入正确的价值观与约束 [2] 具体技术探索方向 - Kimi团队在探索下一代模型时,最重要的一项改进是线性注意力机制,尝试在长程任务上打败全注意力机制 [2] - 预测2026年将发生非常大的范式革新,持续学习、记忆、多模态都有可能发生 [2] - 过去工业界凭借万倍于学术界的算力优势主导发展,如今高校算力环境改善,尽管尚存约10倍的算力差距,但学术界已具备孵化颠覆性技术的土壤 [2] 对中国AI发展前景与挑战的评估 - 三至五年后,全球最领先的AI公司是中国团队的概率挺高,因为技术一旦被发现,在中国能够很快复现并在很多局部做得更好 [3] - 中国市场具备电力优势、基础设施优势,主要瓶颈在于芯片产能与软件生态,关键看中国光刻机能否实现突破 [3] - 中国需要培养更成熟的TO B市场,或尝试到国际商业环境中竞争,目前敢于突破新范式或做非常冒险事情的人可能还不够多,受经济环境、商业环境及文化等因素影响 [3] - 国内对刷榜或数字看得更重,相较而言,DeepSeek更注重“什么是正确的事”,而行业公认Anthropic Claude模型在编程领域是最好的,尽管其榜单排行不是最高 [3]