ParScale

搜索文档
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
量子位· 2025-05-28 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 既能提升模型能力,又不显著增加内存和时间成本 ,LLM第三种Scaling Law被提出了。 对于 1.6B模型 ,能实现性能接近4.4B模型, 内存占用仅为后者的1/22,延迟增加量为1/6 。 由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多 token)。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。 这就是阿里通义团队提出的 PARSCALE 。 目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。 阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。 他们将CFG的并行思想从 " 生成阶段的推理优化 " 扩展为 " 训练和推理全流程的「计算缩放」 "。 让我们来扒一扒技术细节。 将CFG的并行思想扩展到计算缩放 PARSCALE对于CFG双路径的灵感迁移 CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生 ...
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
AI前线· 2025-05-21 18:04
整理 | 华卫 提升大语言模型(LLM)的智能水平,通常有两条主流的 Scaling Law 路线。一是扩展参数,用更多 模型参数来更细致地学习,这种方法非常吃显存;二是扩展推理思考的时间,增大思维链长度,这种 方法非常吃时间且依赖于训练数据、训练策略(RL),只适用于部分场景。 | Method | Inference Time | Inference Space | Training Cost | Specialized Strategy | | --- | --- | --- | --- | --- | | Dense Scaling | Moderate | 20 High | Pre-training only | (= No | | MoE Scaling | Low | 60 High | Pre-training only | 69 Load balancing | | Inference-Time Scaling | 6. High | (= Moderate | Post-training | 0 RL / reward data | | Parallel Scaling | (=) Mo ...