量化技术

搜索文档
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
机器之心· 2025-08-12 17:51
核心观点 - 清华AIR与字节联合SIA Lab发布的DAPO系统实现了大规模LLM强化学习的开源SOTA,使Qwen2.5-32B模型在AIME 2024基准上获得50分 [1] - 刘力源、姚峰团队发现DAPO-32B中rollout生成占70%训练时间,通过8bit量化和TIS技术显著加速训练 [3] - FlashRL是首个开源且可用的强化学习方案,在推理阶段应用INT8/FP8量化且性能与BF16持平 [4][15] - TIS技术解决了量化rollout与训练不匹配问题,使性能达到甚至超过BF16 rollout水平 [16] - FlashRL在32B模型上实现1.75倍加速,在内存受限场景下加速比可达3-5倍 [29][34] 技术突破 - 量化技术应用:在rollout阶段采用8bit量化技术,通过TIS保持下游性能 [3][4] - 性能表现:INT8量化使32B模型吞吐量提升1.75倍,FP8量化性能与BF16相当 [23][29] - 内存优化:在TP2-A6000配置下生成速度提升超3倍,TP1-A100配置下超5倍 [34] - 兼容性:支持INT8/FP8量化,兼容H100和A100 GPU [42] 实验结果 - 模型表现:Qwen2.5-32B在AIME基准上获得50分 [1] - 加速效果:7B模型加速比不足1.2倍,32B模型达1.75倍 [29] - 性能对比:INT8 rollout与BF16 rollout在AIME基准准确率相当 [36] - 训练效率:INT8 rollout单位小时内完成的更新步数显著高于BF16 [39] 应用部署 - 安装使用:通过pip install flash-llm-rl即可安装,无需修改代码 [41] - 技术细节:完整技术方案发布于团队博客 [8][17] - 开源资源:论文和代码已在GitHub开源 [7][8]
独家网络研讨会:“美”涨船高之际,如何以量化技术把握美股机遇?
彭博Bloomberg· 2025-07-18 13:43
美股市场动态 - 近期美股走势强劲,标普500指数7月初已接近历史高位 [1] - 高盛策略师自5月以来第二次上调股指目标位至6900点 [1] - 经济数据和关税政策变动未实质影响美股上涨趋势 [1] 量化技术应用 - 彭博量化平台BQuant Desktop可进行技术分析、基本分析和期权分析 [1] - 技术指标在投资实践中具有重要作用 [1] - 期权策略可帮助灵活调整投资组合,管理风险并增强收益 [1] 网络研讨会内容 - 深度解读近期美股与期权市场动态 [1][4] - 介绍如何通过量化技术系统性发掘投资机遇 [1] - 涵盖宏观展望和个股潜力分析 [1] 主讲嘉宾 - 赵磊:彭博中国区商品和股权衍生品市场专家 [2] - 汪洋:彭博中国区买方市场专家 [2] - 赵力(CMT、CAIA):彭博亚太区技术分析应用专家 [2] 活动安排 - 网络研讨会时间为2025年8月13日16:00-17:00 [1] - 包含深度分析、量化技术演示和问答环节 [4]
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 12:11
大型语言模型自注意力机制研究 核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值,而值(V)表示无此现象,该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性,与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma),未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃: - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小:城市类任务保持76-88%准确率,名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值:AWQ和SmoothQuant方法能有效保持上下文理解能力,普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源,其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响,优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术,平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性,拓展至多模态等新领域[16]