泛化能力
搜索文档
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 强化学习训练大模型推理能力时,仅20%的高熵token能支撑整个训练效果,甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色,对模型性能提升至关重要,而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升,并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中,token熵分布呈现独特模式:50%以上token熵值低于0.01,仅20%token熵值大于0.672 [9][10] - 高熵token(分叉token)功能特殊,如"wait"、"thus"等逻辑连接词,决定推理路径方向;低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实:提高高熵token解码温度可改善推理性能,降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度,Qwen3-32B在AIME'24分数提升7.71分,响应长度增加2553.39 token [15][17] - 反向实验显示:仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显:32B模型提升最大(AIME'24 +7.71分),14B次之(+5.21分),8B最小(+1.25分) [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径,低熵token的确定性限制探索能力 [20] - RLVR训练后,模型与base model在高熵token位置重叠率仍保持86.67%,显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大,低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异,显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素,后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布,而大模型推理需整合先验知识,输出包含高低熵token混合 [27]
机器人“孝子”解养老困局:技术路径已明,非人形态先行
中国经营报· 2025-05-29 20:07
老龄化社会与养老需求 - 中国60岁及以上人口达3.1亿占全国22%65岁及以上人口2.2亿占15.6%失能老人约3500万占比11.6% [3] - 中国养老格局呈现"9073"模式即90%居家养老7%社区养老3%机构养老 [3] - 老龄化加速叠加失能人口增长催生对24小时专业照护机器人的迫切需求 [1][3] 人形机器人技术进展 - 2025年人形机器人运动能力显著提升可完成马拉松(2小时40分42秒)、足球等复杂动作 [6][4] - 技术突破集中在仿生关节、运动控制算法("小脑")及多模态大模型("大脑")构建类脑认知框架 [1][6] - 国际标准《互联家庭环境下使用的主动辅助生活机器人性能准则》于2025年2月发布为产品设计提供基准 [7] 产业应用与商业化路径 - 人形机器人落地路径:公共表演→工业场景→养老机构→家庭服务→家庭养老 [6][10] - 国产厂商如宇树科技(G1售价9.9万)、越疆科技(Dobot Atom 19.9万起)已推出消费级产品 [14][17] - 特斯拉Optimus计划2025年底量产2030年目标售价2-3万美元但未聚焦养老场景 [19] 市场前景与规模预测 - 全球50%人形机器人公司位于中国工业制造(60%)、医疗护理(20%)、家庭服务(15%)为主场景 [20] - 高盛预测2035年全球人形机器人市场规模达380亿美元(乐观2050亿)中国信通院预计2035年中国市场规模500亿元 [20] - 摩根士丹利指出养老机器人产业爆发需技术革新、创投热潮和市场壮大三重驱动 [8] 技术瓶颈与解决方案 - 当前机器人缺乏泛化能力仅能专项作业难以应对家庭动态环境 [10][11] - 数据短缺成关键制约企业通过虚拟仿真技术提升抓取成功率至95% [13] - 本体性能差、高质量数据缺乏、泛化能力低为三大行业瓶颈 [11] 非人形态机器人发展 - 外骨骼机器人率先商业化傲鲨智能、程天科技转向C端聚焦辅助行走等单一功能 [22] - 轮式机器人如日本ARIEC已实现翻身护理等基础照护功能 [8] - 专家认为特定场景辅助机器人(如外骨骼)是当前养老主战场非人形机器人 [21]
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 12:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]