Large Language Models (LLMs)

搜索文档
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
机器之心· 2025-04-28 12:32
大型语言模型压缩技术 - 核心观点:提出DFloat11无损压缩框架,可将LLM模型体积缩减30%同时保持100%准确性,显著提升GPU推理效率[2][5][7] 技术背景 - LLM规模增长导致部署障碍:Llama-3.1-405B模型需810GB内存,超出单台DGX A100/H100服务器(8×80GB GPU)容量[1] - 现有量化技术缺陷:有损压缩会改变模型输出分布,影响准确性[4] 方法创新 - DFloat11核心技术:基于BFloat16权重低熵特性,采用动态长度霍夫曼编码压缩指数部分,保留符号位和尾数位[11] - GPU解压缩设计: - 分解大型LUT为适应GPU SRAM的紧凑查找表[9] - 双阶段内核设计协调线程读写[9] - Transformer块级解压缩降低延迟[9][13] 实验结果 - 压缩效率: - Llama-3.1-405B从811.71GB压缩至551.22GB(67.91%)[20] - 平均压缩比70%,等效位宽11位[19][20] - 性能提升: - token生成吞吐量提高1.9-38.8倍[6] - 同显存下支持上下文长度达未压缩模型的5.3-13.17倍[6][25] - 准确性验证:在MMLU/TruthfulQA等基准测试中与原始模型保持比特级一致[21][22] 硬件适配 - 单节点实现Llama-3.1-405B推理:8×80GB GPU即可运行原需多节点的810GB模型[7] - 解压缩性能:DF11吞吐量达CPU-GPU传输的24.87倍,ANS解码的15.12倍[30][31] 行业应用价值 - 突破性意义:首次实现LLM无损压缩与高效GPU推理的协同优化[5][6] - 商业化潜力:显著降低大模型部署成本,提升资源受限环境下的可用性[1][7]
Google GenAI, AI Cloud Services Drive Analyst Confidence In Long-Term Growth
Benzinga· 2025-04-17 02:02
公司估值驱动因素 - 未来3-5年谷歌主要估值上升驱动力来自其专有大型语言模型(LLMs) [1] - Needham分析师重申Alphabet买入评级及178美元目标价 预计GenAI将提升谷歌内部运营效率并加速收入增长 [1] - 谷歌云业务将通过LLMs及基于其构建的应用程序创造收入 [1] 竞争壁垒与技术优势 - Gemini LLM凭借谷歌搜索引擎和YouTube平台的海量数据输入形成竞争护城河 [2] - GenAI将彻底改变内容创作模式、用户行为习惯及商业模型 [2] 行业活动与讨论议题 - 5月8日Needham互联网与媒体会议将举办"GenAI对媒体和互联网影响"专题讨论 涉及亚马逊、Meta、迪士尼等多家公司 [3] - 会议议题包括零点击策略对2024年行业的最大冲击 重点关注估值错配问题 [4] 商业模式挑战 - 搜索引擎中GenAI摘要功能降低用户点击外链需求 冲击依赖流量引荐的出版商广告变现 [5] - 互联网低价值内容泛滥可能损害消费者信任 缩短用户停留时长 影响高质量内容变现 [4] 法律与内容风险 - GenAI加剧知识产权侵权风险 包括版权违规、虚假信息及深度伪造内容 [5] 市场表现 - Alphabet股价周三下跌1.03%至154.77美元 [5] 行业潜在影响 - GenAI可能侵蚀数字广告基础 新竞争者进入门槛降低抵消利润率扩张的积极影响 [6] - 需评估GenAI内容激增对现有市场参与者的利弊 [6]