Workflow
推理
icon
搜索文档
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 12:58
EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷,即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务,要求模型必须同时深度依赖视觉和文本信息才能解决问题,突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括:思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%,显著高于所有模型,其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先,开源模型Qwen2-VL-72B-Instruct达37.25%,均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%),但在化学领域仅33%,显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题,其中1,796个为专家新构建,覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制,排除仅凭文本或简单图文描述可解决的问题,确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等),支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%,显著高于感知错误(30.19%)和文本推理错误,成为核心瓶颈[21] - 模型依赖结构化文本步骤推理,缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足,且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力,实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式,建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集),加速技术迭代[4]
再战英伟达!英特尔发布全新AI推理GPU芯片,陈立武:想重回巅峰就需“说真话”
钛媒体APP· 2025-05-20 12:39
公司战略与领导力 - 英特尔CEO陈立武强调芯片产业需要建立完整系统,包括软件、网络和储存技术,并大力转向光学技术,同时加强与存储芯片合作以实现SoC芯片整合与高速效能 [2] - 公司正在改变产品竞争力不足的现状,目前在PC和客户端市场市占率约68%,数据中心CPU领域市占率55% [2] - CEO推动"说实话"文化,直接与底层工程师沟通,重新调整工程团队直接向其报告以确保产品方向正确 [3] - 公司强调执行力的重要性,要求团队兑现公开承诺,通过成果说话 [3] - CEO表示将长期留任,认为英特尔是一家标志性公司 [3] 新产品发布 - 发布锐炫Pro B系列GPU,包括B60(24GB显存)和B50(16GB显存),针对AEC和推理工作站优化,支持多GPU扩展 [4] - 新产品在Windows上兼容消费级和专业级驱动程序,在Linux上支持容器化软件栈以简化AI部署 [4] - 发布代号Project Battlematrix的工作站级至强平台,支持最多8块B60 GPU,可运行高达1500亿参数的AI模型 [4] - 锐炫Pro B系列GPU显存容量是对标NVIDIA产品的3倍代际提升 [4] - B50 GPU峰值性能170 Tops(Int8),B60达197 Tops,符合美国出口管制规则可供应中国大陆市场 [7] 技术性能与应用 - 两张B60 GPU可支持20k tokens上下文窗口,四张可支持10万tokens长篇论文推理 [5] - 团队完成底层技术工作,提供一键部署解决方案 [5] - Gaudi 3 AI加速器提供PCIe和机架级系统部署选择,PCIe卡支持现有数据中心服务器运行AI推理 [7] - Gaudi 3机架级系统每个机架最多支持64个加速器,提供8.2 TB高带宽内存 [7] 市场策略 - 锐炫Pro B50 GPU+至强CPU组合将替补Gaudi 3无法在中国销售的情况,迎合国内AI推理需求 [8] - 发布AI Assistant Builder开源软件栈,帮助开发者创建针对英特尔平台优化的本地AI Agent [8] - B60 GPU样品将于2025年6月提供给华擎、蓝戟等合作伙伴,B50 GPU将于今年7月上市 [7] - Gaudi 3 PCIe卡计划2025年下半年上市 [7] 行业地位与历史 - 公司正在努力恢复竞争优势,证明在台积电和英伟达主导的市场中仍具主导地位 [9] - 庆祝围绕x86架构四十年的合作与创新,几乎所有现代数字设备的根源都与中国台湾生态系统相关 [9] - CEO分享其与中国台湾的历史渊源,曾帮助濒临倒闭的益华电脑实现股价从2.42美元涨至316美元,市值达88亿美元 [9] - CEO表示这是其第六次担任CEO,也是首次以英特尔CEO身份回到台北 [10]
一场英伟达引发的大泡沫,快破了
虎嗅APP· 2025-05-20 08:00
核心观点 - AI算力市场因英伟达高端芯片受限引发供应链争夺战,服务器价格波动剧烈且交易链条高度隐秘 [4][6] - 智算中心建设泡沫显现,2025年Q1中国165个项目中仅10%投产,同时国际科技巨头缩减数据中心投资 [11][12] - 行业呈现两极分化:中小算力供应商面临退租潮,而字节、阿里等大厂持续加码AI基建投入 [12][14] - 推理需求取代预训练成为新增长点,但存在芯片性能不足、垂类模型缺失等产业链断点 [19][21] 算力供应链动态 - 英伟达Hooper系列(H200)和Blackwell系列(B200)通过特殊渠道进入中国市场,H200比H100效率高30%但价格仅增加20余万 [5] - 国内H200供应商不超过10家,单周供应能力达100台服务器,B200单价超300万且流通路径更隐秘 [5][6] - 算力交易采用"P"单位计价规避型号标注,部分经销商通过模组嵌入或第三方包装实现"曲线上市" [6] 智算泡沫现状 - 2024年智算中心项目达458个,但实际点亮率不足50%,国产芯片因性能短板无法用于预训练 [10][11] - 2025年Q1中国智算项目58%处于审批阶段,仅16个投产,Meta、微软等国际企业同步缩减投资 [11] - 飞利信、莲花控股等公司终止数亿元算力租赁合同,反映非核心需求方退场 [14] 巨头战略布局 - 字节跳动计划2025年投入892亿元采购AI芯片,其中500亿元定向英伟达产品 [12] - 阿里巴巴宣布三年3800亿元AI基建预算,超过去十年总和 [12] - 车厂智算中心需求达万P规模,成为仅次于科技巨头的第二大采购方 [19] 产业链瓶颈 - 推理需求爆发:单个AI应用日算力消耗可达百万P级,但存在工程化优化挑战 [19] - 国产芯片存在"短板效应",堆叠无法弥补性能缺陷 [21] - 医疗垂类模型受限于数据开放率不足5%,三甲医院仅3%脱敏数据可用 [21][22] 商业模式创新 - 算力供应商通过直接投资AI企业锁定需求,形成垄断式消纳路径 [14][15] - LP+产业基金模式构建资本闭环,实现算力采购资金回流 [16][17] - 新型智算服务商转型为算法+行业解决方案提供商,突破硬件供应商定位 [22]
一场英伟达引发的大泡沫,快破了
虎嗅· 2025-05-20 07:02
核心观点 - 围绕英伟达高端芯片的算力资源争夺战因关税暂停窗口期升温,服务器价格波动剧烈且供应链复杂[1][2][3] - 国内智算产业经历从炒卡热潮到泡沫破裂的周期,供需结构性错配导致大量算力闲置与低效[10][12][15] - 科技巨头持续加码AI基建投入,与中小算力供应商收缩形成鲜明对比[17][18][20] - 行业探索新型算力消纳模式,包括投资绑定和产业基金联动等非主流路径[23][25][26] - 推理需求爆发凸显产业链断点,垂类模型缺失和芯片性能短板制约算力有效利用[30][32][34] 芯片供应与价格动态 - 服务器价格近期上浮15%-20%,关税暂停后供应商计划恢复原价[2] - 英伟达Hooper系列(H200)和Blackwell系列(B200)通过隐秘渠道进入国内市场,H200比H100效率高30%但价格仅高20多万元[3][4] - 国内已有供应商具备每周100台H200供应能力,掌握货源的供应商不超过十家[6] - B200价格高达300多万元且流通受限最严,主要用于大模型预训练[4] 市场供需与交易模式 - 算力交易采用抽象计价方式,合同以算力单位"P"代替具体芯片型号[7] - 部分经销商通过特殊采购渠道多层转售,或借助第三方企业将模组嵌入产品实现"曲线上市"[8] - 2024年智算中心项目超458个,但2025Q1数据显示165个项目中仅16个投产,占比不足10%[11][13] - 智算中心点亮率不足50%,国产芯片因性能短板无法用于预训练[15] 企业战略与投入 - 字节跳动计划2025年投入123亿美元(约892亿元)于AI基础设施,其中400亿元预算用于中国采购AI芯片[17] - 阿里巴巴宣布未来三年拟投入3800亿元建设AI基础设施,超过去十年总和[18] - 大厂采购导致市场供货紧张,"签约后交不出货"现象普遍[19] 行业结构性矛盾 - 算力供给呈现"结构性错配":高端需求未满足与低效算力闲置并存[15] - 国产芯片存在"短板效应",堆叠无法弥补性能差距导致集群效能受限[32][33] - 医疗等行业垂类模型受制于数据开放率不足(医疗数据开放率<5%),三甲医院仅3%脱敏数据可用于AI训练[35][36] 新兴商业模式 - 算力供应商通过投资绑定被投企业算力需求,形成垄断式消纳路径[23] - 产业基金联动模式:算力供应商以LP身份绑定被投企业未来采购,构建资金闭环[25][26] - 新型智算服务商崛起,提供算法团队和行业专家深度参与客户AI开发[38]
推理性能PK,华为+DeepSeek>英伟达?
虎嗅APP· 2025-05-19 21:47
虎嗅注: "大模型江湖,落地为王。"这句话的含金量还在提升。随着DeepSeek V3/R1在春节期间一夜爆火, 基于超大规模MoE(Mixture of Experts)架构的大模型正在从训练开发转向推理应用的落地。 对于MoE推理部署来说,效率一直是一个痛点。谁能将部署计算效率提升至最高,才能真正获得大 模型商业成功。但受限于庞大的模型容量与计算需求,传统部署方案通常依赖于多张数据中心级 GPU(如H20)。你我都知道,英伟达不仅贵,而且不断受到地缘政治摩擦的影响,不断降低自己的 性能来满足监管需求。 而在最近,华为全面揭秘超大规模MoE模型推理部署技术,不仅实现了国产的进一步突破,更全面 超越了基于英伟达Hopper架构的推理部署性能。 他们是怎么做到的? 数学补物理,极致提升计算效率 "数学补物理",这种通过数学理论、工具、算法和建模等方式,来弥补硬件和工艺的局限性,实现最 大化发挥芯片和系统能力效果。华为轮值董事长孟晚舟曾在2025年新年致辞中提到: "华为十多个实验室与伙伴们的工程师组成"大杂烩"团队,面对天成AI集群系统和单芯片性能的严峻 工程挑战,他们创造性应用数学补物理、非摩尔补摩尔、系统补 ...
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
量子位· 2025-05-19 12:37
华为昇腾技术突破 - 华为昇腾在超大规模MoE模型推理性能上全面超越英伟达Hopper架构,实现"英伟达含量为0"的突破 [1] - 通过"以数学补物理"策略,利用数学理论、算法和建模弥补硬件局限,最大化发挥芯片和系统能力 [1] - 具体产品性能: - CloudMatrix 384超节点在50ms时延下单卡Decode吞吐达1920 Tokens/s [1][18] - Atlas 800I A2推理服务器在100ms时延下单卡吞吐达808 Tokens/s [1][21] 技术开源与披露 - 公司将全面开源昇腾超大规模MoE模型推理部署技术,包括技术报告和核心代码 [2] - 技术披露周活动将展示最新进展,相关资源可通过指定链接获取 [40][41] 行业趋势与挑战 - 大模型发展重心从训练转向推理应用落地,企业竞争焦点转向推理效率 [5][6] - 超大规模MoE模型(如6710亿参数的DeepSeek V3)带来三大挑战: - 内存压力:单个专家2.5G,64GB内存硬件难以承载 [7] - 通信开销:跨芯片数据传输耗时超过计算时间 [8] - 架构创新负担:如MLA机制导致中间变量激增 [9] 技术解决方案 硬件部署优化 - 采用PD分离部署解耦Prefill和Decode时延约束 [10] - CloudMatrix 384超节点采用144卡EP并行部署,128卡专用于路由专家 [17] - Atlas 800I A2采用多节点互联,2机16卡Prefill+4机32卡Decode [20] 框架与模型优化 - 基于vLLM框架适配DP/EP并行策略,优化调度分桶和分层传输 [12] - 采用A8W8C16量化策略(INT8+BF16),差异化部署不同机型 [13] - API Server横向扩展方案提升高并发场景QPS,动态负载均衡技术解决显存占用问题 [22] 通信优化 - FlashComm方案降低25%通信量并提升10%推理性能 [25] - 层内并行转换方案消除节点内卡间求和操作 [26] - 计算通信并发机制最大化硬件利用率,MLA层计算性能提升10% [27] 算子优化 - AMLA算法将乘性计算转为加性等价形式,减少数据搬运 [31] - L1/L2缓存精细化管理提升命中率,K-buffer流水排布掩盖计算耗时 [31] - 通算融合算子实现Token粒度流水排布,降低卡间同步开销 [31] 性能实测数据 - Prefill阶段:16K序列端到端耗时631ms,卡均吞吐1622 Tokens/s [34][36] - Decode阶段: - 2K输入+2K输出场景下吞吐达808 Tokens/s(90%接受率) [32] - 1K输入+2K输出场景下吞吐达876 Tokens/s(90%接受率) [32] - SiliconLLM框架部署DeepSeek-R1实现单卡1920 Tokens/s,等效H100性能 [38][39]
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 12:25
大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题,制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型(如LLaMA、Qwen)采用自回归生成方式,每次仅生成1个Token,导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈:模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架,专为100K Token级任务设计,加速比达3倍以上[1][7] - 核心技术:多Token并行草拟(每次生成γ个候选)、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用,重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试,100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著:100K时加速比从2.1×提升至3.1×,接受率维持70-90%[23] - Distinct-n指标达0.43-0.69,较未优化前(0.12)显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型,无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文(ICML 2025)、GitHub代码库及技术博客[8]
爆冷!字节Seed 在CCPC 决赛只做出一道签到题,而DeepSeek R1 直接挂零?
AI前线· 2025-05-16 15:48
作者 | 褚杏娟 最近,第十届中国大学生程序设计竞赛(China Collegiate Programming Contest,CCPC)举行。 字节 Seed 作为赞助商,携 Seed-Thinking 非正式参与了最后的比赛。结果却让很多人比较意外, Seed-Thinking 只做出了一道签到题(指专门设计得比较简单,让选手"打卡"或"热身"的题目)。据 悉,CCPC final 赛的题目数量在 10~13 题不等,这次题目信息还未公布。 随后,Seed 的工作人员在知乎上也发布了一些其他模型的参赛结果: 根据参赛选手的描述,这些难题中,C 题和 G 题相对来说比较偏向于是"签到题"的。OpenAI、谷 歌、DeepSeek 参赛成绩也是比较让人意外的。 "根据之前的 codeforces rating 分数,假如那些大模型是人类选手,应该不止这个成绩。"小红书博 主"AI 实话实说"评价道。codeforces rating 是一个人长期参加某在线比赛的平均表现,大家通常会根 据这个分数判断一个人的水平并且对应到某个比赛的表现。 "有可靠消息表明, 出题人并没有专门出题要让大模型做不出来 。"该博主对 ...
「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元!
机器之心· 2025-05-15 16:40
研究背景 - 大型推理模型如OpenAI-o1和DeepSeek-R1在数学、编程等领域表现卓越,但在需要实时网络信息的复杂任务中存在局限性[6] - 现有开源深度搜索智能体采用RAG技术,但受限于预定义工作流程,难以深入探索网页信息[8] 技术框架 - WebThinker框架包含两种运行模式:问题解决模式和报告生成模式[13] - 问题解决模式赋予LRM深度网页探索功能,可自主发起网络搜索并提取信息[13] - 报告生成模式实现自主思考-搜索-写作策略,整合推理、搜索和报告撰写[13] - 框架采用强化学习训练策略,提升LRM调用研究工具的能力[15] 技术创新 - 突破传统RAG限制,实现端到端任务执行,无需遵循预设工作流程[10] - 深度网页探索器使LRM能自主搜索、导航并提取高质量信息[15] - 自主思考-搜索-写作策略配备三种专门工具:撰写、检查和编辑报告[15] 实验结果 - 在GPQA、GAIA、WebWalkerQA和HLE四个基准测试中表现优异[18][20] - WebThinker-32B-RL在GPQA科学问答中取得70.7%平均准确率,显著优于基准模型[21] - 在GAIA通用AI助手任务中达到48.5%准确率,优于其他方法[21] - 在Glaive研究报告生成任务中,完整性(8.4)和彻底性(8.2)评分领先[23] 应用前景 - 可应用于金融、科学、工程等知识密集型领域的研究工作[6] - 未来可扩展多模态深度搜索能力,处理图像、视频等信息[33] - 计划增强GUI网页探索能力,支持更复杂的交互任务[35]
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 14:04
核心观点 - 提出新型深度思考范式PENCIL,通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性,能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题,传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%,Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制:引入[CALL][SEP][RETURN]特殊标记,按规则丢弃无用中间结果,上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构:擦除后的上下文可包含其他特殊标记,实现类似函数调用的多层嵌套 [9] - 三大应用模式:任务分解(子问题处理)、搜索回溯(无效路径清理)、摘要总结(冗长思考压缩) [13] 性能优势 - **准确率**:在n=10的SAT任务中PENCIL准确率99% vs CoT 50%,QBF任务100% vs 73% [15][16] - **计算效率**:相同FLOPs下PENCIL训练收敛速度更快,上下文长度控制在问题规模n的线性增长(O(n))而非CoT的指数级(O(exp(n))) [12][17] - **资源节省**:KV缓存复用机制使自注意力计算量减少,25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性:将图灵机模拟的上下文长度从O(T)降至O(S),尤其适合S<<T的NP完全问题(如旅行商问题) [24][25] - 实现路径:通过FASP编程语言构造「思考-总结」循环,证明固定大小Transformer可达成最优复杂度 [28] - 本质差异:传统CoT需保留完整计算历史,PENCIL通过状态摘要实现内存回收 [27]