泛化能力

搜索文档
从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?
机器之心· 2025-09-07 09:30
大模型泛化能力研究进展 - 大模型泛化能力存在本质争议 部分研究认为其优势源于海量训练数据的记忆而非真正的逻辑推理 例如CoT推理在分布外测试中性能急剧崩溃[9][10] - 模型规模扩大对泛化影响呈现分化 参数从13M增至12B时 推理任务生成全新短语组合能力增强(Spearman ρ下降) 而知识任务仍高度依赖预训练语料共现片段(Spearman ρ>0.35)[9] - 2022-2025年LLM研究爆发式增长 ACL论文数增长近6倍 arXiv论文数增长近15倍 当前研究重点依次为推理、泛化、幻觉、偏见和安全性[11] 泛化能力提升技术路径 - 研究重心从早期关注数据分布与模型规模 转向训练策略、模型更新机制及数据设计创新 包括自适应微调、动态梯度调整和数据增强等[7][11] - 动态微调(DFT)通过纠正传统微调(SFT)隐含的反向奖励机制提升泛化能力 上下文学习(ICL)相比SFT在泛化提升方面具显著优势[1] 行业研究动态 - 学界对泛化本质存在根本性分歧 ReflectionAI CEO提出"不存在泛化 仅存在测试分布被纳入训练分布"的观点 强调训练数据覆盖度的决定性作用[10] - 知识密集型任务(如TriviaQA)准确率高度依赖预训练语料共现频率 对共现片段去重或扰动会导致性能显著下降[9]
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 12:40
图片来源: Latent Space Z Hightlights Greg Brockman 是 OpenAI 的联合创始人兼总裁,曾任 Stripe 前 CTO ,致力于推动人工智能技术的发展和普及。本次访谈由 Latent Space 在 2025 年 8 月发 起,深入探讨 GPT-5 与开源项目 GPT-OSS 的最新进展,及 OpenAI 实现通用人工智能的战略路径。 OpenAI 推理能力演进之路 SWYX: 祝贺你们发布了 GPT-5 和 GPT-OSS , OpenAI 领域的所有新进展都令人惊叹。我们稍后会详细探讨这些内容。非常高兴你能来到现场。上周这 一连串的版本发布如同风暴般席卷而来,你此刻的感受如何? Greg Brockman : 太疯狂了,一周内推出这么多成果确实非常疯狂。我们发布了开源模型,这些是我们长期研发的成果。我认为它们真正将 OpenAI 取得 的多项技术进展浓缩到非常精巧的形态中,更易于使用 —— 要知道过去几天其下载量已达数百万次。我们还发布了 GPT-5 ,这同样是我们深耕已久的项 目。看到这些成果面世并成功完成整个发布流程,我真心为团队感到骄傲。 Alessio ...
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 大规模数据集(如Open X-Embodiment/OXE)训练的通用机器人策略在分布范围内表现良好,但泛化能力受限 [2] - 泛化受限的根本原因是捷径学习,即模型过度依赖与任务无关的特征 [2] - 捷径学习由两个关键因素导致:单个子数据集内部多样性有限,以及子数据集间存在显著分布差异(数据集碎片化) [2] 数据集结构分析 - OXE等大规模数据集由多个独立收集的子数据集构成,这些子数据集来自不同环境和机器人形态 [2] - 这种固有结构导致数据集内部多样性不足和碎片化问题 [2] 解决方案与实证发现 - 通过精心选择的数据增强策略可有效减少现有离线数据集中的捷径学习 [2] - 数据增强方法能提升通用机器人策略在仿真和真实环境中的泛化能力 [2] - 研究结果为改进机器人数据集收集策略提供了重要见解 [2] 研究应用与延伸 - 研究成果适用于视觉语言动作模型(VLA),当前VLA的泛化能力十分有限 [5] - 针对OXE数据集的深入分析为数据收集提供了指导方针 [5] - 研究涉及真实场景下的机器人导航和运动控制(real2sim2real)以及真机性能提升(如32%的性能提升)等应用方向 [7]
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
机器之心· 2025-08-14 17:11
思维链(CoT)提示技术的本质 - 核心观点:CoT提示技术生成的推理链条可能并非真正的逻辑推理,而是对训练数据分布内模式的复现,当输入任务与训练数据分布存在差异时,推理链条会迅速失效[2][10] - 典型例证:模型回答「美国建国年是否为闰年」时,推理步骤正确但结论自相矛盾,显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源:CoT效果主要依赖表层语义匹配,问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差:CoT有效性源于模型对训练数据中常见模式的复现,而非真实逻辑推演[13] - 理论公式:通过分布差异指标量化推理性能受分布偏移的影响,公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证:分布偏移时模型准确率从100%骤降至0.01%,全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架:从零训练语言模型,通过字母原子序列和ROT/循环平移变换构建可控任务,精确生成标准推理链以评估差异[18][19][21] - 任务泛化:变换顺序重组或新字母组合导致准确率暴跌,监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化:输入序列长度或推理步数微小变化即引发表现显著下降,模型通过增减词元凑长度[26] - 格式泛化:提示格式扰动(如元素/变换部分修改)即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性:不同采样温度和模型规模下CoT对分布偏移的敏感性一致,表明此为普遍现象而非个别特性[31] - 应用警示:高风险领域(医疗/金融/法律)需警惕流畅但逻辑错误的推理链误导性,评测需引入严格分布外测试[34][35] - 发展建议:需正视CoT泛化瓶颈,平衡分布内优势与评测部署的谨慎性[37][38]
字节发布全新 VLA 模型,配套机器人化身家务小能手
搜狐财经· 2025-07-24 00:51
GR-3模型技术亮点 - 具备高泛化能力,能理解抽象语言指令并操作柔性物体,通过少量人类数据即可高效微调[2] - 采用改进模型结构,可处理长程任务并实现高灵巧度操作,包括双手协同和全身操作[2] - 采用三合一数据训练法,融合遥操作机器人数据、人类VR轨迹数据和公开图文数据[7] - 采用MoT网络结构,将视觉-语言模块与动作生成模块结合为40亿参数端到端模型[7] - 计划扩大模型规模和训练数据量并引入RL方法,提升泛化性突破模仿学习局限[7] ByteMini机器人特性 - 专为GR-3设计的通用双臂移动机器人,具备22个自由度和无偏置7自由度机械臂[4] - 机械臂采用球形手腕设计,可在狭小空间完成精细操作[4] - 搭载多颗摄像头实现细节与全局感知,配备全身运动控制系统[4] - 作为GR-3的配套躯体,能高效处理真实环境中的复杂任务[4] GR-3实际应用表现 - 在超长序列餐桌整理任务中展现高鲁棒性和成功率,严格遵循分步指令[4] - 能准确判断无效指令并保持不动,如处理不存在的物品指令[4] - 可控制双臂协同操作柔性物体,鲁棒识别整理不同摆放方式的衣服[5] - 能泛化抓取未见物体,理解复杂抽象指令如处理未训练过的短袖衣物[5] 行业技术发展趋势 - 泛化能力成为VLA模型研发重点,助力机器人在复杂场景快速适应新任务[7] - 机器人公司持续发力"机器人大脑"端,推动VLA模型技术进步[7]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 强化学习训练大模型推理能力时,仅20%的高熵token能支撑整个训练效果,甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色,对模型性能提升至关重要,而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升,并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中,token熵分布呈现独特模式:50%以上token熵值低于0.01,仅20%token熵值大于0.672 [9][10] - 高熵token(分叉token)功能特殊,如"wait"、"thus"等逻辑连接词,决定推理路径方向;低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实:提高高熵token解码温度可改善推理性能,降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度,Qwen3-32B在AIME'24分数提升7.71分,响应长度增加2553.39 token [15][17] - 反向实验显示:仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显:32B模型提升最大(AIME'24 +7.71分),14B次之(+5.21分),8B最小(+1.25分) [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径,低熵token的确定性限制探索能力 [20] - RLVR训练后,模型与base model在高熵token位置重叠率仍保持86.67%,显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大,低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异,显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素,后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布,而大模型推理需整合先验知识,输出包含高低熵token混合 [27]
机器人“孝子”解养老困局:技术路径已明,非人形态先行
中国经营报· 2025-05-29 20:07
老龄化社会与养老需求 - 中国60岁及以上人口达3.1亿占全国22%65岁及以上人口2.2亿占15.6%失能老人约3500万占比11.6% [3] - 中国养老格局呈现"9073"模式即90%居家养老7%社区养老3%机构养老 [3] - 老龄化加速叠加失能人口增长催生对24小时专业照护机器人的迫切需求 [1][3] 人形机器人技术进展 - 2025年人形机器人运动能力显著提升可完成马拉松(2小时40分42秒)、足球等复杂动作 [6][4] - 技术突破集中在仿生关节、运动控制算法("小脑")及多模态大模型("大脑")构建类脑认知框架 [1][6] - 国际标准《互联家庭环境下使用的主动辅助生活机器人性能准则》于2025年2月发布为产品设计提供基准 [7] 产业应用与商业化路径 - 人形机器人落地路径:公共表演→工业场景→养老机构→家庭服务→家庭养老 [6][10] - 国产厂商如宇树科技(G1售价9.9万)、越疆科技(Dobot Atom 19.9万起)已推出消费级产品 [14][17] - 特斯拉Optimus计划2025年底量产2030年目标售价2-3万美元但未聚焦养老场景 [19] 市场前景与规模预测 - 全球50%人形机器人公司位于中国工业制造(60%)、医疗护理(20%)、家庭服务(15%)为主场景 [20] - 高盛预测2035年全球人形机器人市场规模达380亿美元(乐观2050亿)中国信通院预计2035年中国市场规模500亿元 [20] - 摩根士丹利指出养老机器人产业爆发需技术革新、创投热潮和市场壮大三重驱动 [8] 技术瓶颈与解决方案 - 当前机器人缺乏泛化能力仅能专项作业难以应对家庭动态环境 [10][11] - 数据短缺成关键制约企业通过虚拟仿真技术提升抓取成功率至95% [13] - 本体性能差、高质量数据缺乏、泛化能力低为三大行业瓶颈 [11] 非人形态机器人发展 - 外骨骼机器人率先商业化傲鲨智能、程天科技转向C端聚焦辅助行走等单一功能 [22] - 轮式机器人如日本ARIEC已实现翻身护理等基础照护功能 [8] - 专家认为特定场景辅助机器人(如外骨骼)是当前养老主战场非人形机器人 [21]
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 12:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]