Workflow
AngelSlim
icon
搜索文档
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
机器之心· 2026-01-16 09:55
文章核心观点 - 大模型推理成本与延迟是产业落地的核心瓶颈,投机采样作为一种近乎无损的推理加速范式正成为业界新宠 [2] - 腾讯混元升级的AngelSlim训练框架,通过独创的Eagle3训练架构,将投机采样技术拓展至LLM、VLM及语音的全模态场景,实现了从“可加速”到“善加速”的关键跃迁 [2] - 该技术让小模型“前瞻性”地为大模型起草多步候选token,再由大模型并行验证,将解码阶段算力冗余转化为提速动能,实测最高可带来1.9倍的推理速度飙升 [2] AngelSlim与投机采样技术 - 投机采样是一种“小模型多步预测 + 大模型一步验证”的推理加速技术,利用轻量级草稿模型生成多个候选token,由目标模型并行验证,以提升推理吞吐并降低延迟 [4] - AngelSlim是一个集成了量化、投机采样等压缩算法,面向全模态的大模型压缩算法工具包 [4] - 其设计核心是“Eagle3训练即部署”,提供从数据处理、模型封装到投机采样算法训练的完整链路,帮助开发者在不断入现有模型结构的前提下,显著降低推理时延与计算成本,各模态、各类大模型加速可达1.4-1.9倍 [4] 多模态加速表现 - 在文生文模态,对Tencent HY 1.8B/4B/7B模型加速达1.6倍,对Qwen3 1.7B/4B/8B/14B/32B/30B-A3B模型加速达1.7倍 [5] - 在多模态理解模态,对HunyuanOCR 1B模型加速达1.6倍,对Qwen3-VL 2B/4B/30B-A3B模型加速达1.4x-1.9x [5] - 在语音模态,对Qwen2Audio 7B模型加速达1.9倍,对Fun-CosyVoice3 0.5B模型加速达1.6倍 [5] 核心亮点 - 覆盖从文生文、多模态理解到语音的全模态投机采样训练,通过统一的训练接口,不同模态之间共享核心算法与工程能力 [6] - 强调面向部署,训练产出的模型可以无缝用于vLLM/Sglang等框架进行部署 [7] 核心训练组件 - **数据处理模块**:为投机采样训练多个模态提供稳定、可复用的数据基础,包括数据重采样、数据预处理(统一不同模态数据格式、草稿模型裁剪词表映射)和隐藏特征提取 [10][12][13][14][15] - **模型模块**:是实现高度扩展性的关键,提供统一的TargetModel接口,包括模型加载与权重管理、前向计算、特征提取等抽象方法;对于新模型架构,用户只需实现TargetModel中定义的抽象方法即可完成注册,极大降低了适配成本 [17][18] - **训练器模块**:针对Eagle3算法特点设计了在线训练和离线训练两种模式;封装了Eagle3等投机采样算法训练的关键逻辑,如训练时测试;原生支持断点续训能力 [20][21][22] 实践与部署 - 提供了快速开始的命令行脚本,包括启动vLLM服务、生成训练数据和开始在线训练 [23] - 提供了全面的多模态模型Eagle3训练与部署指南,支持LLM / VLM / Audio (ASR & TTS) 模型 [24] - 使用vLLM在代码、数学、指令跟随等任务上评测,在设置num_speculative_tokens=2 or 4下,所训模型接收长度可达1.8-3.5,最高加速可达1.4-1.9倍 [25] 未来计划 - 工具方面,计划支持基于vLLM的离线hidden states生成,以降低数据构建与训练成本,并通过系统性的训练加速优化提升整体训练效率 [30] - 算法创新方面,将探索多模态理解与语音输入信息在Eagle3模型中的深度融合,统一建模文本、视觉与语音特征,拓展投机采样在全模态场景下的适用性与加速潜力 [30]