投机采样

搜索文档
超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
量子位· 2025-07-26 17:01
SpecForge团队 投稿 量子位 | 公众号 QbitAI 专门适用超大模型、带来2.18倍推理加速,最新投机采样训练框架开源! SpecForge正是基于Eagle3,它不仅是 首个支持超大模型投机采样训练并开箱即用的框架 ,还与SGLang推理引擎深度集成。一键打通投机 采样训练推理全流程。 SGLang团队联合美团搜推平台、Cloudsway.AI开源SpecForge。 为何推出新的Spec训练框架? SGLang,当前趋势下最受青睐的推理框架之一,为DeepSeek提供了专属优化,也深受英伟达、AMD、xAI等厂商喜爱。 这一次开源,主要是针对当下超大模型趋势。 随着Kimi K2、Qwen Coder的开源,越来越多的超大型模型进入大家的视野。这些模型具有强劲的性能,但受制于模型尺寸导致推理效率较 低。对于超大尺寸的模型,除了进一步优化算子之外。还有像投机采样这样的技术能加速它们的推理。 投机采样 (Speculative Sampling)通过引入轻量级的辅助模型来提升推理效率,同时确保结果的质量和正确性。 目前性能强劲的投机采样技术分别有 MTP 和 Eagle3 ,但MTP其需要在预训练 ...
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
核心观点 - 微软研究院与北大联合发布新框架Next-Frame Diffusion (NFD),实现每秒超30帧自回归视频生成,同时保持高质量画面 [1][2] - NFD通过帧内并行采样和帧间自回归方式提升生成效率,在NVIDIA A100 GPU上生成《我的世界》视频仅需0.48秒 [2][4] - 该技术可能改变游戏行业交互方式,玩家可直接与模型交互而无需传统游戏引擎 [3] 技术架构 - NFD采用帧内双向注意力和帧间因果注意力机制建模视频,使用扩散模型多步迭代生成连续Token [21] - 引入块状因果注意力机制的Transformer,将整体计算成本减少50%,支持高效并行预测下一帧所有Token [25][26] - 基于Flow Matching构建训练流程,通过线性插值生成加噪版本并最小化Flow Matching损失 [27] 性能优化 - 通过一致性蒸馏扩展到视频领域,将流匹配模型转换为TrigFlow模型,简化训练过程 [28] - 提出投机采样技术,利用可预测的用户输入并行生成多帧,预测错误时丢弃后续帧重新生成 [30][33] - 310M模型FVD达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69 [35] 性能表现 - NFD+加速版本130M和310M模型分别达到42.46FPS和31.14FPS,远超基线 [36] - 310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当 [37] - 相比此前每秒4-7帧的MineWorld模型,NFD生成速度快了几倍 [15][18] 行业影响 - 视频生成模型在多个领域快速发展,包括Sora、可灵、Veo3等产品及Genie、MineWorld等游戏模拟器 [37] - 该技术为未来世界模型的实现提供重要基础,高效生成范式变得越来越重要 [37] - 可能重塑游戏行业交互模式,实现玩家与模型的直接互动 [3]