Llama3

搜索文档
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 17:34
核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速,并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子,在RTX 5090上达到1040 TOPS速度,比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速,在微调任务中保持与全精度注意力相同结果 [2] 技术突破 推理加速 - SageAttention系列迭代加速效果:V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s),视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化,选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题,显著提升精度 [15][16] - 算法流程优化实现高效Attention算子,两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化,对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度,量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型:Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面,8比特注意力在微调任务中完全无损,但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core,RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化,在算子速度和模型精度上均有显著提升 [21]
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 15:41
核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换,缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力,打破传统局限 [1] - 仅使用45K合成指令,MathFusion在多个基准测试中平均准确率提升18.0个百分点,展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion):将两个问题串联,前一个问题的答案作为后一个问题的输入条件,模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion):将两个相似问题融合,识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion):创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA,通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略,在DeepSeekMath-7B上平均提升3.1分,Llama3-8B提升4.9分,Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型,展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时,在MATH测试集准确率达58.2%,GSM8K达79.5%,College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高,模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升,显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集,需扩展至更复杂领域 [12]
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
量子位· 2025-06-10 15:35
核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成,显著缓解LLM多任务训练中的"偏科"现象,提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响,优化训练集配比,而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升,且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**:引入变量β显式建模训练集优化问题,目标是最小化验证集损失函数,公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**:采用K-FAC理论近似简化Hessian矩阵逆运算,筛选模型"重要层"参数降低计算量,通过超参数m控制调整比例 [8] - **配比优化**:数据分布配比比数据量更关键,不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**:在4领域4 benchmark和5领域8 benchmark测试中,IDEAL均优于人工经验配比,验证其普适性 [11] - **参数选择**:超参数m推荐值为0.15,过小影响优化效果,过大偏离原始分布 [15] - **对比基线**:相比DoReMi和DOGE等re-weighting方法,IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题,替代人工经验调整,具有工程实用价值 [14] - 为LLM多任务训练提供理论框架,指导数据集的科学构建与优化 [4][5]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导 师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。 此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为 主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。 近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝 试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。 继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自 回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。 研究团队将 LLaDA 作为语言基座,通过引入视觉编 ...
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
无可置疑的,DeepSeek-R1模型的面世使中国AI技术发展有了极大的优势侧,也标志着人工智能领域的 里程碑式突破。 不过,技术创新往往伴随应用成本的转移。约65%的早期采用者反馈,在实际部署中需要投入大量开发 资源进行适配优化,这在一定程度上削弱了其理论上的效率优势。 这款具有颠覆性意义的推理模型不仅在研发效率上展现出显著优势,其性能指标可与OpenAI等业界领 军企业的产品分庭抗礼,甚至基于中国的应用场景,可能还有所超越,而其所需计算资源较同类产品大 幅缩减近30%。 该模型的成功实践既印证了算法创新的无限可能,也引出了关键的技术进化命题,即当未来算法突破与 传统计算架构出现适配瓶颈时,行业将面临怎样的转变挑战? 当前主流大模型(如GPT-4、Gemini Pro、Llama3等)正以每月迭代2-3次的频率推进技术革新,持续刷 新性能基准。DeepSeek-R1通过独创的分布式训练框架和动态量化技术,成功将单位算力下的推理效能 提升40%,其研发轨迹为行业提供了算法与系统工程协同进化的典型案例。 而且,该团队研发的多头潜注意力机制(MLA)在实现内存占用降低50%的突破性进展时,也带来了 开发复杂度的显 ...
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 12:11
此 外 , 一 体 机 解 决 方 案 还 集 成 了 智 能 算 力 池 化 技 术 , 在 支 持 DeepSeek V3/R1 、 QWen2.5 、 LLama3.3等主流大模型的基础上,企业可灵活在满血版和多个蒸馏模型之间切换,GPU利用率提升 30%以上,推理性能平均提升5-10倍;同时内置大模型应用开发平台,并搭载了丰富的开箱即用AI 应用套件,帮助开发者高效开发企业级的生成式AI应用,让企业享受高效的大模型应用服务,加速AI 智能化落地进程。 具体来讲:SageOne IA大模型推理一体机解决方案,具备三大核心优势: 1) 智能算力池化,资源动态调度,突破物理机架构 大模型应用成本"一降再降"。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,第四范式日前推出大模型推理一体机解决方案SageOne IA,进一步减低了大模 型推理成本。如满血版的DeepSeek V3/R1仅需要两台一体机即可使用。 方案支持企业按需选择DeepSeek V3/R1、QWen2.5、LLama3.3等主流大模型,还预装了丰富的 AI应用套件,包括AIG ...