Workflow
泛化能力
icon
搜索文档
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
机器之心· 2025-06-29 12:23
来自 CMU 和小红书的研究团队对这一问题进行了深入研究,他们首次提出了针对多模态 RoPE 扩展策略的理论评估框架, 指出现有多模态 RoPE 泛化能力不足的原因之一是保留 RoPE 中所有频率对长上下文语义建模有负面影响。基于此分析,他 们提出的混合位置编码(HoPE, Hybrid of Position Embedding)大幅提升了 VLM 的长度泛化能力,在长视频理解和检索等 任务中达到最优表现。 李浩然,CMU 机器学习系研究生,研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。 如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然 而,它们在长视频理解和检索等长上下文任务中仍表现不佳。 虽然旋转位置编码 (RoPE, Rotary Position Embedding) 被广泛用于提升大语言模型的长度泛化能力,但是如何将 RoPE 有效 地扩展到多模态领域仍然是一个开放问题。具体而言,常用的扩展方法是使用 RoPE 中不同的频率来编码不同的位置信息 (x,y,t)。然而,由于 RoPE 中每个维度携带 ...
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 强化学习训练大模型推理能力时,仅20%的高熵token能支撑整个训练效果,甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色,对模型性能提升至关重要,而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升,并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中,token熵分布呈现独特模式:50%以上token熵值低于0.01,仅20%token熵值大于0.672 [9][10] - 高熵token(分叉token)功能特殊,如"wait"、"thus"等逻辑连接词,决定推理路径方向;低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实:提高高熵token解码温度可改善推理性能,降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度,Qwen3-32B在AIME'24分数提升7.71分,响应长度增加2553.39 token [15][17] - 反向实验显示:仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显:32B模型提升最大(AIME'24 +7.71分),14B次之(+5.21分),8B最小(+1.25分) [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径,低熵token的确定性限制探索能力 [20] - RLVR训练后,模型与base model在高熵token位置重叠率仍保持86.67%,显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大,低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异,显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素,后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布,而大模型推理需整合先验知识,输出包含高低熵token混合 [27]
机器人“孝子”解养老困局:技术路径已明,非人形态先行
中国经营报· 2025-05-29 20:07
老龄化社会与养老需求 - 中国60岁及以上人口达3.1亿占全国22%65岁及以上人口2.2亿占15.6%失能老人约3500万占比11.6% [3] - 中国养老格局呈现"9073"模式即90%居家养老7%社区养老3%机构养老 [3] - 老龄化加速叠加失能人口增长催生对24小时专业照护机器人的迫切需求 [1][3] 人形机器人技术进展 - 2025年人形机器人运动能力显著提升可完成马拉松(2小时40分42秒)、足球等复杂动作 [6][4] - 技术突破集中在仿生关节、运动控制算法("小脑")及多模态大模型("大脑")构建类脑认知框架 [1][6] - 国际标准《互联家庭环境下使用的主动辅助生活机器人性能准则》于2025年2月发布为产品设计提供基准 [7] 产业应用与商业化路径 - 人形机器人落地路径:公共表演→工业场景→养老机构→家庭服务→家庭养老 [6][10] - 国产厂商如宇树科技(G1售价9.9万)、越疆科技(Dobot Atom 19.9万起)已推出消费级产品 [14][17] - 特斯拉Optimus计划2025年底量产2030年目标售价2-3万美元但未聚焦养老场景 [19] 市场前景与规模预测 - 全球50%人形机器人公司位于中国工业制造(60%)、医疗护理(20%)、家庭服务(15%)为主场景 [20] - 高盛预测2035年全球人形机器人市场规模达380亿美元(乐观2050亿)中国信通院预计2035年中国市场规模500亿元 [20] - 摩根士丹利指出养老机器人产业爆发需技术革新、创投热潮和市场壮大三重驱动 [8] 技术瓶颈与解决方案 - 当前机器人缺乏泛化能力仅能专项作业难以应对家庭动态环境 [10][11] - 数据短缺成关键制约企业通过虚拟仿真技术提升抓取成功率至95% [13] - 本体性能差、高质量数据缺乏、泛化能力低为三大行业瓶颈 [11] 非人形态机器人发展 - 外骨骼机器人率先商业化傲鲨智能、程天科技转向C端聚焦辅助行走等单一功能 [22] - 轮式机器人如日本ARIEC已实现翻身护理等基础照护功能 [8] - 专家认为特定场景辅助机器人(如外骨骼)是当前养老主战场非人形机器人 [21]
软件所提出小批量数据采样策略
经济观察网· 2025-05-27 15:50
该研究基于因果效应估计等手段,提出小批量数据采样策略,来消除不可观测变量语义干扰的混杂影 响。这一策略通过学习隐变量模型,来估计在给定"锚点"样本的条件下,不可观测语义变量的后验概率 分布,将其记为平衡分数。进而,该策略将具有相同或相近平衡分数的样本对划分为同一个小批量数据 集,确保每个小批量数据集内的不可观测语义变量与"锚点"样本在条件上是独立的,从而帮助模型避免 学习到虚假关联,提升模型的分布外泛化能力。 经济观察网讯据软件研究所消息,近日,中国科学院软件研究所科研团队提出了小批量数据采样策略, 可消除由不可观测变量语义引起的虚假关联对表征学习的干扰,来提升自监督学习模型分布外泛化能 力。 自监督学习的分布外泛化能力是指模型在面对与训练数据分布不同的测试数据时,仍能够保持良好性 能。简单来说,模型需要在"未见过"的数据分布上表现得和在训练数据上一样好。但是,有研究发现, 自监督学习模型在训练过程中受到与学习任务无关的不可观测变量的语义干扰,从而削弱分布外泛化能 力。 进一步,该研究在基准数据集上进行了广泛实验。所有实验均仅替换批次生成机制,无需调整模型架构 或超参数。实验显示,这一采样策略使当前主流自监督 ...
医疗影像大模型,还需“闯三关”
36氪· 2025-05-19 07:14
在众多应用场景中,因病理图像具有非常大的多样性,病理大模型也被认为是医疗模型"皇冠上的明 珠"。为破解病理诊断准确性与效率难题,透彻未来研发了全球首个临床应用级病理大模型产品——透 彻洞察,基于亿级参数量和海量高精度病理数据训练,为病理医生提供精准稳健、全面快速的病理临床 诊断辅助。 2025年以来,Deepseek通过开放生态加速了算法研发与临床场景的深度融合。医疗大模型摒弃了"技术 至上"的思维,逐渐进入实用主义阶段。作为AI应用最为深入的领域之一,医学影像在大模型时代迎来 了更快速的发展。 如何增强AI模型泛化能力?大模型幻觉问题如何解决?大模型多模态数据整合的难点及解决方案有哪 些?动脉网与数坤科技首席技术官郑超、透彻未来联创兼首席技术官王书浩这两位深耕医疗AI多年的 专家们聊了聊,供行业参考。 本文主要观点如下: 01 大模型已深入医生全工作流程 医学影像人工智能模型在参数规模未达当前水平时便展现出了广阔的应用前景,现已在影像科医生的工 作全流程中实现了常态化应用。而在辅助诊断专用模型之后,数坤科技在4月发布的"数坤坤多模态医疗 健康大模型",便实现了让AI从辅助工具进化为诊疗生态的核心驱动力。 数 ...
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 12:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]