课程学习
搜索文档
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
机器之心· 2025-10-21 11:43
研究核心观点 - 领域特定的监督微调(SFT)并不总是会严重削弱大模型的通用能力,灾难性遗忘问题更多源于训练策略的选择而非SFT范式本身 [2] - 采用更小的学习率进行SFT,可以在保持目标领域性能的同时,大幅缓解模型在数学推理、代码生成、指令跟随等通用能力上的退化 [2] - 研究团队提出了Token自适应Loss重加权(TALR)方法,进一步优化了在较大学习率下领域性能与通用能力之间的平衡 [19][20] 实验设计与设置 - 实验选取了两个现实强相关的领域和数据集:MedCalc(医疗推理,10.1k训练/1.05k测试)和ESCI(电商商品多分类,49k训练/10k测试)[5][8] - 使用了多种规模的开源LLM进行实验,包括Qwen3-8B、Qwen2.5-7B、Gemma3-4B等Instruct模型 [6] - 核心控制变量为学习率,设置了1e-6、5e-6、2e-5三档,其他训练超参遵循常规SFT实践 [6] - 在MetaMathQA(395k训练样本)大规模数学推理数据集上进行了补充实验,采用DeepSeek-Coder-7B作为基础模型 [12][14] 关键研究发现 - 更小的学习率(如1e-6)能带来更优的性能折中,在MedCalc和ESCI任务上,模型在保持目标领域强性能的同时,显著减轻了通用能力的下降 [11] - 对于仅需最终标签的分类问题(如ESCI w/o CoT),实现理想折中的学习率范围更宽,5e-6的学习率表现与1e-6相当 [12] - 即便在大规模数据集MetaMathQA上,更小的学习率(5e-6)也能在保持数学领域性能的同时,显著缓解模型原有编码能力的退化 [14] - 理论分析表明,较小的学习率能够严格收紧通用性能下降的上界,而训练目标仅包含最终标签时,模型遇到的“难token”数量减少,从而拓宽了可接受的学习率范围 [15][17] TALR方法及其效果 - TALR通过建立约束优化问题,根据每个token的预测概率自适应分配权重,置信度低(概率小)的token权重更小,以削弱这些hard token在训练中的过度梯度贡献 [20][21] - 在MedCalc基准上的实验显示,当学习率较大(5e-6)时,TALR相比L2正则化、LoRA、Wise-FT等方法,能实现更优的Pareto前沿,在保持领域增益的同时显著减少通用性能损失 [26] - TALR在训练中自发呈现出“课程学习”机制,由易到难动态调整学习路径,优先通过高置信度token驱动优化,再逐步纳入难点token [32] 行业影响与展望 - 研究重申了SFT作为大模型能力提升基石的重要性,挑战了“RL可以解决一切”的行业观点,指出高质量的SFT是RL有效发挥作用的先决条件 [34] - 该工作为更好的领域适配提供了重要启发,特别是在医学等专业场景中,如何在注入领域知识的同时保留基础模型的通用能力是关键方向 [35] - 未来研究需探索更强大的缓解策略,以在必须使用大学习率追求最高领域性能的场景下,更好地兼顾通用能力,同时需在更大规模模型和更广泛数据集上进行验证 [27][35]
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 12:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 12:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 19:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]