Workflow
模型推理
icon
搜索文档
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 11:28
近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案 ,实现了推理速度的突破! 在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒 的生成速度震惊 学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因 缺乏 KV 缓存机制和并行解码质量衰退 ,实际推理速度长期被自回归模型压制. 通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核 心优势。 一、 核心技术 分块 KV 缓存与置信度感知并行解码 论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 项目地址:https://nvlabs.github.io/Fast-dLLM 论文链接:http://arxiv.org/abs/2505.22618 ...
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
第一财经· 2025-05-29 22:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...
AI算力需求涌向模型推理,国产芯片站上竞技台了
第一财经· 2025-05-28 15:22
2024年中国数据中心加速卡市场中,34.6%是国产算力,市场研究机构预计今年上半年国产算力占比应该会超四成。 刚刚结束的COMPUTEX电脑展上,英伟达CEO黄仁勋笑着对听众说,"你(芯片)买得越多,赚得越多。"引来一阵笑声。 这句话的背景是,全球科技厂商在AI热潮下继续重金投入建设数据中心或算力中心。黄仁勋在演示文档上写着,英伟达正在驱动全球万亿美元级别的企业 AI IT投资。 数据中心建设热潮下,现在看来,AI算力需求的变化与年初一些业内人士预计的不太一样。DeepSeek对训练算力资源的节约,并未让整体算力需求减少。 不过,还有一个变化发生了,随着DeepSeek推动AI走向应用,用于推理的AI芯片占比正在升高。 市场研究机构IDC中国副总裁周震刚告诉第一财经记者,2024年中国数据中心加速卡中已有半数以上是推理卡,DeepSeek出现后,今年推理芯片占比预计还 会增加。 这种芯片结构变化,可能会对AI芯片市场造成深远影响,特别是在中国市场。推理环节对AI芯片性能等的要求较低,国产AI芯片也可以使用,在英伟达出 口受到限制的情况下,可能促成国内AI芯片的组成发生变化。 周震刚透露,去年国内数据中心加速 ...
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 23:21
2025.05. 27 对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于 学生理解解题思路。 可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南 的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模 型的理科分数达到河南省一本线。 有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发, 而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求, 而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方 式向大众展示AI大模型能力的提升。 在题型选择上,主要基于难度和认知度的考量,上述负责人表示,"因为大家对高考的难度都是有概 念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。" 上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老 师进行批改,分数为697分(总分750分),达到"清北"水平。"毕竟去年AI集体做24年高考题的 ...
低Token高精度!字节复旦推出自适应推理框架CAR
量子位· 2025-05-27 11:53
核心观点 - 过度依赖CoT思维链推理会降低模型性能,新提出的自适应推理框架CAR能根据模型困惑度动态选择短回答或长文本推理,实现准确性与效率的最佳平衡[1][3] - CAR框架在多模态视觉问答、关键信息提取及文本推理等多个基准测试中超越单纯的短回答与长推理方法[3] - CAR打破了"长文本推理必然性能更好"的固有认知,为大模型推理提供更灵活高效的解决方案[27] 研究背景 - 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现[2] - 已有研究发现长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力[3] 实验设置 - 研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个代表性公开数据集开展实验[4] - VQA数据集包括DocVQA、InfoVQA、ChartQA、VisualMRC,KIE数据集包括SROIE、CORD、FUNSD、POIE[4] - 使用Qwen2.5-0.5B模型进行微调,在域内和域外数据集上开展性能评估[4] 关键发现 - PPL与准确率之间存在显著的强负相关性,数据集整体准确率越高,其平均PPL值越低[7] - 预测正确样本的平均PPL分数显著低于预测错误样本[7] - 以测试集PPL分布的75%分位数作为阈值,PPL值超过阈值时触发长文本推理模式[8] 方法设计 - CAR框架首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理[3] - 使用包含简短答案和长文本推理解答标注的训练示例构建新数据集,采用标准指令微调流程[12] - 对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL[13] 性能表现 - 在多模态数据集上,CAR Qwen2VL平均使用86.9个token,仅为Qwen2-VL Long所使用Token数量的15%[22] - 在DocVQA、ChartQA、FUNSD数据集上,CAR Qwen2VL准确率分别达到90.1%、69.9%、73.6%[23] - 使用Qwen2.5-7B模型时平均准确率达81.1%,使用Llama3.1-8B时达74.9%[24] - 在GSM8K、StrategyQA、MathOA数据集上,CAR Qwen2.5平均准确率达81.1%[26]
红帽宣布推出llm-d社区,NVIDIA、Google Cloud为创始贡献者
新浪科技· 2025-05-27 11:42
红帽公司启动llm-d开源项目 - 全球开源解决方案提供商红帽公司宣布启动新开源项目llm-d,旨在满足生成式AI大规模推理需求 [1] - 该项目与CoreWeave、Google Cloud、IBM Research和NVIDIA合作打造,利用突破性的大规模生成式AI推理技术 [1] - 项目目标是让大语言模型(LLM)推理云能够满足最苛刻的生产服务级目标(SLO) [1] 行业背景与市场需求 - 据Gartner数据,到2028年80%以上的数据中心工作负载加速器将专门部署用于推理,而不是训练用途 [3] - 推理模型日益复杂和规模扩大导致资源需求持续攀升,限制了集中式推理的可行性 [3] - 成本过高和延迟过长可能使AI创新陷入瓶颈 [3] llm-d项目的技术优势 - 将先进的推理能力集成到现有的企业IT基础设施中 [3] - 统一平台使IT团队能够满足关键业务工作负载的各种服务需求 [3] - 部署创新技术以最大限度地提高效率,显著降低与高性能AI加速器相关的总体拥有成本(TCO) [3] 行业合作与支持 - llm-d已获得生成式AI模型提供商、AI加速器先驱和主要AI云平台组成的联盟支持 [3] - 创始贡献者包括CoreWeave、Google Cloud、IBM Research和NVIDIA [1][3] - 合作伙伴包括AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI [3] 行业领袖观点 - Google Cloud AI与计算基础设施副总裁Mark Lohmeyer表示高效AI推理对企业大规模部署AI至关重要 [4] - NVIDIA工程AI框架副总裁Ujval Kapasi称llm-d是对开源AI生态系统的重要补充,体现对生成式AI创新的支持 [4] - NVIDIA强调可扩展、高性能推理是下一波生成式AI和代理式AI的关键 [4]
算力产业近况解读
2025-05-25 23:31
纪要涉及的行业和公司 - **行业**:算力产业、GPU 行业 - **公司**:英伟达、华为、阿里巴巴、百度、腾讯、字节跳动、寒武纪、昆仑芯、韩 5G、海光、火山引擎、智谱、讯飞 纪要提到的核心观点和论据 市场需求与前景 - **全球和国内 GPU 市场需求持续增长**:中国因贸易摩擦,依赖国产或降配版进口芯片;国际上美国生成式多模态及 AGI 技术发展、其他地区推进大模型行业落地带动算力需求[1][3] - **未来两年存在两种情景**:贸易摩擦加剧,国产芯片需求增加;关系缓和,降配版进口芯片推动多模态应用发展,无论哪种情景算力需求都增加[3] 英伟达产品情况 - **英伟达 H20 不受青睐**:降配后性能优势减少、利润下降,头部互联网公司或云服务企业倾向选择性价比更高的国产芯片,国产卡逐渐占据更多市场份额[1][4][5] - **英伟达在中国市场 GPU 卡性价比降低**:预计 2025 年再推降配版 H20 难获大量订单,仅个别急需公司可能购买[5] - **国内公司倾向 B20 而非 H20**:H20 性能下降严重,无法满足多模态推理和 agent 应用需求;B20 架构并行速度和卡间协作更佳,单机内和集群内表现损耗小[1][11] - **B 系列降配版能满足禁令要求**:H 系列因物理架构限制,缩减显存和降低计算频率会使集群表现大幅下降;B 系列架构处理好,配置低时表现损耗小[12] 国产芯片情况 - **华为升腾系列有进展但存在不足**:升腾 910C 通过 3D 空间式设计提升单机架内算力约 25%,但缺乏 Nvlink 导致数据传输速度受限[6] - **韩 5G 芯片有突破但表现欠佳**:实现单片参数技术突破,但在组网及复杂计算中表现欠佳,高可用性材料有差距[6] - **国产芯片需补足多方面**:软硬件结合能力不足、产能问题(如寒武纪无训练卡生产能力)、良品率低,导致显存、传输速度、更新迭代及产能分布存在不足[20] 国内互联网巨头自研芯片情况 - **阿里巴巴**:通过平头哥系列服务于阿里云,用于降低成本、硬件加速和 IoT 场景[7] - **百度**:通过昆仑芯推进大模型推理商业化,与飞桨开发框架适配,实现自主可控[7] - **腾讯和字节跳动**:集中于视频解码、加速及神经网络训练等领域,字节跳动还尝试与台积电合作研发高性能多模态推理芯片[7] 应用场景与算力投入 - **推理场景资源消耗接近训练场景**:2025 年多模态推理场景资源消耗与训练相差无几,特定场景推理成本超训练成本,预计 2026 年互联网公司算力投入向推理倾斜[1][8][9] - **公有云需求未显著增长**:中小企业接入大模型 API 或构建 agent 较少,市场以头部公司自有业务为主导,社会面日常 TOKEN 消耗量相对较低[10] 市场供应与租赁挑战 - **高性能计算芯片供应情况**:英伟达 H20 大部分被头部公司购买,A100 和 A800 应用场景有限,H100 和 H800 价格昂贵,小型企业难以负担,且头部公司考虑数据安全不轻易选择外部集群[17] - **企业租赁高性能芯片面临挑战**:大规模预训练需显卡集中,推理环节需求无法分散,高性能芯片大规模使用存在市场供应量和技术困难,零星或大规模租赁不可行[2][19] 多模态技术市场情况 - **多模态技术占领市场概率高**:2024 - 2025 年末市场规模预计增长 15 - 20 倍,火山引擎大模型有效 tokens 部分来自公有云供中小企业使用[14] 其他重要但可能被忽略的内容 - **字节跳动租赁情况**:租赁 IDC 和机房存放芯片,年初租赁算力用于抖音和豆包相关功能加速,为临时性非大规模租用 GPU[15][16] - **腾讯 GPU 采购困难**:今年一季度疯狂购买 GPU,二三月难买到,四月底五月甚至考虑向字节跳动购买,反映国内市场优质 GPU 资源争夺激烈且供不应求[22] - **非上市公司芯片情况**:昆仑芯推理效果优异,集群版每秒可处理 4000 多个 tokens,单机版能处理三四十个 tokens,P 系列推理优化后集群表现优于华为 910B;韩 5G 芯片带宽传输有瓶颈、耗电量大;海光少量采购组网测试,测试质量难保证[23][24] - **全球 GPU 市场格局及资本开支**:2025 年资本开支增长迅速,2026 年预计下降至 50%以下;字节跳动和阿里巴巴算力采购总量可能降至 80%左右,腾讯增加采购量,百度需求与今年持平但推理侧需求增加;若政策支持,百度将增加昆仑芯产能或进口芯片;2026 年华为生成芯片产能约 85 万,可能被国央企优先购买[25]
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 19:47
HUAWEI X HUXIU AMLA × 融合算子 × SMTurbo 让大模型推理速度与能效双重革命 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.5 :昇腾亲和 它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与 复用机制,让芯片处理海量数据时如虎添翼。 而昇腾此次开源的三大技术,正是算子优化的 "终极形态" ...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 12:17
机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着 一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅 是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度 融合软硬件的系统性方案! 他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命 。具体包括如下: 可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。 作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不 ...