LLaMA3 - 财报，业绩电话会，研报，新闻

LLaMA3

搜索文档

ICML 2025 | M+框架来了，增加LLM隐空间记忆，不再受上下文窗口限制

机器之心· 2025-07-15 11:20

本文的第一作者Yu Wang来自加州大学圣地亚哥分校，主要研究方向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab 实习过程中完成，通讯作者Zexue He也毕业于加州大学圣地亚哥分校。 M+ 是在 MemoryLLM 之上提出的长期隐空间记忆扩展框架：通过把「过期」隐藏向量写入 CPU - 侧长期记忆池，再用协同检索器拉回最相关记忆，它将 8 B 级模型的有效记忆跨度从原本不到 20 k tokens 提升到 160 k tokens 以上，同时显存占用保持不变。论文标题：M+: Extending MemoryLLM with Scalable Long-Term Memory 论文链接：https://arxiv.org/abs/2502.00592 背景：上下文 ≠ 记忆 & 现有记忆模型的缺陷上下文窗口并不能直接等价于记忆。 GPT-4.1 之类的模型即便支持 100 万 token，也会随窗口线性升高显存与延迟，难以落地本地部署。业界主流做法是 "Token-Level Memory"： ...

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

机器之心· 2025-07-03 11:26

大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架，通过多智能体强化学习实现大语言模型的"元思维"能力，即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构，通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中，ReMA平均性能优于基线方法，如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**：采用层级化多智能体系统(MAS)，相比单智能体方法(如DeepSeek R1)降低探索难度，避免动作空间过大问题 [8][12] - **训练机制**： - 单轮场景使用GRPO和REINFORCE++算法优化，奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术，提升训练稳定性 [20][22][23] - **数据生成**：从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**： - Llama3-8B在7个数学基准平均提升6.68%，Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著，如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**： - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE)，小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍，轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性，测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501)，代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型，测试覆盖MATH、GSM8K等12个基准数据集 [27][28]

多智能体强化学习

大模型元思考

元思维

Artificial Intelligence

Artificial Intelligence

ReMA框架

Llama3

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

机器之心· 2025-06-18 17:34

核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速，并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子，在RTX 5090上达到1040 TOPS速度，比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速，在微调任务中保持与全精度注意力相同结果 [2] 技术突破推理加速 - SageAttention系列迭代加速效果：V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s)，视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化，选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题，显著提升精度 [15][16] - 算法流程优化实现高效Attention算子，两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化，对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度，量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型：Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面，8比特注意力在微调任务中完全无损，但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core，RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化，在算子速度和模型精度上均有显著提升 [21]

大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 | MathFusion

量子位· 2025-06-17 15:41

核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换，缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力，打破传统局限 [1] - 仅使用45K合成指令，MathFusion在多个基准测试中平均准确率提升18.0个百分点，展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion)：将两个问题串联，前一个问题的答案作为后一个问题的输入条件，模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion)：将两个相似问题融合，识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion)：创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA，通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略，在DeepSeekMath-7B上平均提升3.1分，Llama3-8B提升4.9分，Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型，展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时，在MATH测试集准确率达58.2%，GSM8K达79.5%，College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高，模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升，显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集，需扩展至更复杂领域 [12]

一招缓解LLM偏科！调整训练集组成，“秘方”在此 | 上交大&上海AI Lab等

量子位· 2025-06-10 15:35

核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成，显著缓解LLM多任务训练中的"偏科"现象，提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响，优化训练集配比，而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升，且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**：引入变量β显式建模训练集优化问题，目标是最小化验证集损失函数，公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**：采用K-FAC理论近似简化Hessian矩阵逆运算，筛选模型"重要层"参数降低计算量，通过超参数m控制调整比例 [8] - **配比优化**：数据分布配比比数据量更关键，不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**：在4领域4 benchmark和5领域8 benchmark测试中，IDEAL均优于人工经验配比，验证其普适性 [11] - **参数选择**：超参数m推荐值为0.15，过小影响优化效果，过大偏离原始分布 [15] - **对比基线**：相比DoReMi和DOGE等re-weighting方法，IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题，替代人工经验调整，具有工程实用价值 [14] - 为LLM多任务训练提供理论框架，指导数据集的科学构建与优化 [4][5]

Artificial Intelligence

Large Language Model

Artificial Intelligence

IDEAL

Llama3.1 8B

Artificial Intelligence

Large Language Model

Artificial Intelligence

IDEAL

Llama3.1 8B

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

机器之心· 2025-05-28 16:09

大模型强化学习有效性研究 - 核心观点：虚假奖励（随机/错误信号）在Qwen-Math模型上能显著提升数学推理能力，但对其他模型无效，挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%，错误奖励提升25%，接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%，但损害Llama3和OLMo2性能（分别降低7 3%和5 3%）[23] 模型特异性 - 虚假奖励仅对Qwen系列有效：Qwen-Math-7B代码推理频率达65%，RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益，甚至出现性能下降[17][23] 机制分析预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力（Python代码生成频率与性能强相关）[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应"，使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时，单问题性能提升55%（虚假奖励）至60 2%（真实奖励）[36] - 模型总增益：Qwen2 5-Math-7B提升23 5%，1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型，结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证，并优先分析预训练获得的推理策略[50]

舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA

机器之心· 2025-05-27 11:23

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。此次，团队将 LLaDA 拓展至多模态领域，推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型（MLLM）。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破，展示了扩散模型在多模态理解领域的巨大潜力。近年来，多模态大语言模型（MLLMs）在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而，现有的大多数方法依赖自回归模型。虽然有研究尝试将扩散模型引入 MLLMs，但往往采用混合架构（自回归 + 扩散）或者受限于语言建模能力，导致性能不佳。继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型（如 LLaMA3-8B）竞争后，一个关键问题随之而来：扩散语言模型能否在多模态任务中也达到与自回归模型相当的性能？LLaDA-V 正是对这一问题的有力回答。研究团队将 LLaDA 作为语言基座，通过引入视觉编 ...

多模态大语言模型

扩散模型

自回归模型

Artificial Intelligence

Artificial Intelligence

LLaDA-V

LLaDA

超越DeepSeek？巨头们不敢说的技术暗战

36氪· 2025-04-29 08:15

DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍推动形成三位一体算力生态 [20]

Artificial Intelligence

High - Performance Computing

Artificial Intelligence

High - Performance Computing

两台运行“满血版”DeepSeek，第四范式推出大模型推理一体机解决方案SageOne IA

IPO早知道· 2025-02-28 12:11

大模型应用成本降低 - 第四范式推出大模型推理一体机解决方案SageOne IA，显著降低大模型推理成本，满血版DeepSeek V3/R1仅需两台一体机即可使用 [2] - 解决方案集成智能算力池化技术，支持主流大模型如DeepSeek V3/R1、QWen2.5、LLama3.3，GPU利用率提升30%以上，推理性能平均提升5-10倍 [2] SageOne IA核心优势智能算力池化 - 通过第四范式GPU资源池化（vGPU）技术，实现算力和显存智能切分及任务调度，GPU利用率提升30%以上 [4] - 支持多任务共享存储及处理优化，推理性能平均提升5-10倍，具备千卡级别分布式调度与管理能力 [4] 集成大模型工具链 - 开发平台包含数百个开放模型服务及全生命周期管理工具，支持可视化workflow编排和Agent智能体框架 [5] - 开发周期普遍缩短95%以上，企业开发者可数周内搭建生成式AI应用 [5] 内置AI应用套件 - 预装AIGC、智能办公、数字员工等丰富AI应用套件，支持主流大模型按需选择 [6] - 提供开箱即用的AI工具如模型仓库、智能体Agent平台等，加速企业AI落地 [6] 公司业绩与产品动态 - 第四范式前三季度营收同比增长26.1%，超40款AI产品推动长期增长 [11] - 先知AIOS 5.1新增GPU资源池化能力，算力资源利用率进一步提高 [11] - Q1核心业务收入增长84.8%，行业大模型规模效应显著 [11]

大模型推理

生成式AI

Artificial Intelligence

SageOne IA大模型推理一体机解决方案

Artificial Intelligence

SageOne IA大模型推理一体机解决方案

DeepSeek V3/R1

QWen2.5