推理

搜索文档
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
量子位· 2025-05-29 15:19
金磊 整理自 凹非寺 量子位 | 公众号 QbitAI 一个新的Benchmark,竟让大模型在 复杂 视频推理 这事儿上 统统不及格! 这就是腾讯ARC Lab和香港城市大学最新推出的 Video-Holmes —— 如其名,它可以说是视频推理界的 "福尔摩斯测试" , 通过让多模态大模型参与 " 推理杀人凶手 " , " 解析作案意图" 等高难度的推理任 务,以展现他们复杂视频推理能力的边界 。 而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差 距。 值得一提的是,这个Benchmark的 "一键测评懒人包" ,目前已经上线到了GitHub和HuggingFace,有做视频推理相关的小伙伴,可以去挑 战一下了(地址见文末)。 让大模型全军覆没的新Benchmark 正如刚才提到的,现有视频推理基准(如 VCR-Bench、MVBench 等)主要评估模型的视觉感知和接地能力。 举个例子 。 在这个例子中,为了寻找男人真正的死因,模型需要 主动思考 需要关注的视觉信息,并通过 逻辑关联 分散在不同视频片段中的多个相关 ...
华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
量子位· 2025-05-29 15:19
核心观点 - 华为提出的S-GRPO方法通过"串行分组+衰减奖励"设计,在保证推理准确性的前提下实现60%的推理提速,并生成更精确的答案[2] - S-GRPO突破传统思维链的"冗余思考"瓶颈,成为首个在Qwen3上有效的高效推理方法[1] - 该方法通过"早退推理"概念和指数衰减奖励机制,使模型学会在思考充分后隐式提前退出[8][10] 技术原理 - 采用"序列分组衰减奖励策略优化",对单条完整推理路径进行分段截断生成多个早退推理分支[4][8] - 通过指数衰减奖励机制:越早退出且答案正确获得的奖励越高,错误答案奖励为0[10][20] - 训练框架分为三阶段:完整推理展开、早退推理展开、奖励计算与参数更新[11][13][14][16] 性能表现 - 在5个推理benchmark测试中,S-GRPO平均提高0.72-6.08个点准确率的同时降低35.4%-61.1%生成长度[24] - 在Qwen3-14B模型上取得85.8%整体准确率,相比基线提高1.14个点,同时减少40.4%token生成量[23] - 在困难问题和简单问题上均能有效降低思考长度并维持精确度,显著优于DEER和GRPO等方法[26][27] 创新优势 - 相比传统GRPO的并行路径生成,S-GRPO充分利用中间信息提升效率[5][6] - 相比硬截断方法,S-GRPO使用不到一半的思考budget即可获得正确结论[38] - 通过消融实验验证衰减奖励和串行分组设计的必要性,移除任一组件都会导致性能下降[35][36] 应用前景 - 适合作为训练后优化范式的最后一步,在不损害原有推理能力前提下提升效率[2] - 在不同生成长度预算下都表现出色,低预算时准确率增益更显著[33] - 在域内数学推理和域外科推任务上均展现鲁棒性,证明方法普适性[24]
【招商电子】英伟达(NVDA.O)FY26Q1跟踪报告:本季H20禁令影响弱于预期,Q2营收指引为450亿美元
招商电子· 2025-05-29 14:51
英伟达FY26Q1季报核心分析 财务表现 - FY26Q1营收440.62亿美元,同比+69.18%/环比+12.03%,超430亿美元指引预期 [1] - 剔除H20相关费用影响后毛利率为71.3%,同比-2.2pcts/环比-7.6pcts [1] - H20产品库存过剩和采购义务产生45亿美元费用,低于预期 [1] - FY26Q1 H20产品营收46亿美元,无法交付约25亿美元产品 [1] 业务部门表现 数据中心 - 营收390亿美元,同比+73%/环比+10% [3] - 大型云服务提供商占营收约50% [3] - 计算产品营收342亿美元,同比+76%/环比+5% [3] - 网络产品营收50亿美元,同比+56%/环比+64% [3] 游戏和AI PC - 营收38亿美元,同比+42%/环比+48% [3] - GeForce拥有1亿用户安装基础 [3] - 新增支持微软Copilot Plus的AI PC产品 [3] 专业可视化 - 营收5.09亿美元,同比+19%/环比持平 [3] - 人工智能工作站需求强劲 [3] 汽车和机器人 - 营收5.67亿美元,同比+72%/环比-1% [3] - 推出NV Halos安全系统和Isaac GROOT N1人形机器人基础模型 [3] 未来展望 - FY26Q2营收指引中值450亿美元(±2%),同比+49.8%/环比+2.13% [4] - 预计H20收入损失约80亿美元 [4] - 毛利率指引72%(±0.5pct),目标年底达75% [4] - 中国AI芯片市场规模约500亿美元 [4] 产品与技术进展 - GB200系统获主要云服务商每周部署近1000个NVL72机架 [5] - 微软已部署数万Blackwell GPU,计划提升至数十万 [5] - GB300系统本季度将向商业客户发货 [5] - B300较B200 HBM容量+50%,FP4推理性能+50% [5] 制造与供应链 - 台积电亚利桑那州6个晶圆厂和2个先进封装厂预计年底量产 [5] - 与富士康合作建造百万平方英尺AI超级计算机工厂 [5] - 目标一年内实现从芯片到超级计算机的美国制造 [5] 市场与竞争 - H20出口禁令结束中国Hopper数据中心业务 [5] - 无法进一步降低Hopper规格以遵守规定 [5] - 中国AI市场将增长至近500亿美元 [11] 行业趋势 - 从生成式AI向代理式AI转变 [15] - 推理需求呈阶梯式跃升 [13] - 全球近100个NVIDIA驱动AI工厂在建 [14] - 主权AI成为新增长引擎 [29]
英伟达(NVDA.US)FY26Q1业绩会:预计H20限售将造成二季度80亿美元损失
智通财经网· 2025-05-29 11:10
财务表现与业务增长 - 英伟达第一财季整体营收同比增长69%至440亿美元 数据中心业务收入同比增长73%至390亿美元 [1] - 第一季度确认46亿美元H20收入 但有25亿美元出货未完成 计提45亿美元减值反映未来订单无法兑现 [1][3] - 预计第二季度总收入为450亿美元(±2%) 受H20出口限制影响将减少80亿美元收入 [1][8] - 与Hopper相比 Grace Blackwell NVL72在推理性能上提升40倍 已进入全面量产阶段 [2][14] 中国市场影响 - 中国是全球最大AI市场之一 全球50%AI研究人员在中国 出口管制将增强中国芯片商国际竞争力 [1] - 评估未来无法覆盖的中国市场规模接近500亿美元 目前没有适用产品 [3] - 旧政策下中国季度出货量约70-80亿美元 新限制使Hopper降级方案难以有效使用 [11] AI行业趋势与战略布局 - AI进入推理能力时代 推理型AI智能体对算力需求比一次性问答高数百至数千倍 [5][7][14] - AI将成为电力/互联网级别的基础设施 全球正规划数百座AI工厂 目前约100座在建 [6][7][15] - 企业AI进入爆发期 RTX Pro Enterprise AI服务器可运行全企业级工作负载 [5][9][10] - 工业AI成为第四大支柱 新工厂将配备AI工厂 Omniverse和机器人技术加速应用 [10][15] 产品与技术进展 - 网络业务形成四大平台:NVLink纵向扩展 Spectrum-X以太网优化 InfiniBand Bluefield控制平面 [12][13] - Spectrum-X使以太网利用率从50%提升至85-90% 新增两家云服务提供商采用 [12][13] - Blackwell设计覆盖AI全生命周期 支持从训练到复杂推理与智能体部署 [14] 供应链与订单情况 - Blackwell订单量超GTC会议时水平 供应链持续扩充产能 美国本土产能建设加速 [7] - 主权云和企业AI需求超预期 抵消部分中国市场损失 支撑450亿美元营收目标 [8][9]
英伟达电话会全文!黄仁勋点赞DeepSeek,痛失H20巨额收入但Blackwell芯片周产7.2万颗GPU
华尔街见闻· 2025-05-29 09:48
财报核心表现 - Q1营收达440亿美元 同比增长69%超预期 其中数据中心收入390亿美元 同比增长73% [11][12] - Q2营收指引450亿美元 但受H20出口限制影响 预计中国数据中心收入将减少80亿美元 [2][12][27] - 非GAAP毛利率预计72% 主要受益于Blackwell产品线盈利能力提升 [27][28] 中国市场影响 - H20出口限制导致Q1减少25亿美元交付 Q2预计损失80亿美元订单 中国AI加速器市场规模约500亿美元 [2][12][29] - 中国占全球AI研究人员50% 是通往全球成功的跳板 但当前500亿美元市场对美国关闭 [2][29][30] - 公司正探索符合新规的替代方案 但Hopper架构已无法满足性能降级要求 [29][53] Blackwell产品进展 - 产能爬坡速度创纪录 每周生产72,000颗GPU 主要客户平均每周部署1,000个NVL72机架 [3][13] - 贡献数据中心计算收入近70% 从Hopper过渡接近完成 GB300系统本季度末量产 [3][13] - 软件优化使性能提升1.5倍 预计生命周期内持续改进 类似Hopper两年提升4倍 [3][16] AI推理需求爆发 - 微软Q1处理100万亿Token 同比增长5倍 OpenAI等客户Token生成量呈阶跃式增长 [4][14] - 推理工作负载从简单问答转向复杂推理 需要更多计算资源 Blackwell架构针对性设计 [4][14] - 代理式AI推动需求激增 每任务Token量达一次性推理的100-1000倍 [35][36][50] 全球AI基础设施 - 主权AI成为新增长引擎 沙特、阿联酋、台湾等地启动国家级AI工厂项目 [6][33][44] - 全球在建近100个AI工厂 同比翻倍 单个工厂平均GPU使用量同步翻倍 [16][33] - 未来需数十吉瓦级AI基础设施 类比电力和互联网成为国家核心基建 [6][33][45] 企业及工业AI应用 - RTX PRO服务器、DGX Spark等产品瞄准5000亿美元企业IT现代化市场 [7][51] - Omniverse平台助力工业仿真 台积电节省数月晶圆厂设计时间 富士康提升热仿真效率150倍 [24][51] - Isaac GR00T基础模型推动人形机器人发展 与通用汽车、梅赛德斯等合作自动驾驶系统 [25][51] 技术生态与合作 - 黄仁勋高度评价DeepSeek和通义千问 称其为最佳开源模型之一 在美国及欧洲受关注 [5][30] - NVLink网络平台季度收入达50亿美元 Spectrum-X获微软、Meta等采用 年化收入超80亿美元 [18][20][56] - 与台积电、富士康合作美国本土制造 亚利桑那州晶圆厂年底量产 休斯顿建百万平方英尺AI超级计算机工厂 [32][51]
奖励是假的,能让Qwen提升25%性能却是真的!
量子位· 2025-05-29 09:08
RLVR技术突破 - 使用虚假奖励信号进行RLVR训练仍能显著提升Qwen模型性能 在MATH-500基准上绝对准确率提升约25% 与真实奖励效果仅相差几个百分点[1][3][18] - 虚假奖励类型包括错误标签奖励(提升24.6%)、随机奖励(提升21.4%)和格式奖励 均能激发模型推理能力提升[18][20] - 该现象颠覆传统认知 表明RLVR性能提升可能独立于奖励信号正确性 而是通过激活预训练中的潜在推理能力实现[4][12] Qwen模型特异性表现 - 虚假奖励增益仅见于Qwen2 5-Math系列模型 其他模型如Llama、OLMo2-7B性能无变化或下降[19][24] - Qwen2 5-Math-7B独特依赖代码推理策略 65%回答包含Python代码片段 虚假奖励RLVR可将其频率提升至90%[23][27] - 模型差异源于预训练策略 Qwen的代码推理行为与答案准确率正相关 但该模式在其他模型中可能损害性能[23][25] 实验设计与机制分析 - 团队设计五类奖励函数梯度测试 包括真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励 形成监督强度递减序列[20] - GRPO方法裁剪偏差可能诱导随机奖励产生有益训练信号 增加代码推理行为[28] - 研究推测错误推理+正确答案或正确推理+错误答案的组合可能在其他模型中复制类似增益[32] 行业影响与研究方向 - 现有RLVR研究需扩展至非Qwen模型验证 避免单一模型优化带来的局限性[33] - 技术社区反应强烈 建议RLVR研究员重新评估围绕奖励函数构建的研究路径[6] - 项目由华盛顿大学NLP团队主导 开源代码与论文提供完整实验复现路径[34]
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%
量子位· 2025-05-29 09:08
SeePhys团队 投稿 量子位 | 公众号 QbitAI 当前顶尖AI模型是否真能"看懂"物理图像? 全谱系多模态物理推理新基准来了,结果 SO TA级模型准 确率都不足55% 。 新基准名为 SeePhys ,强调了图形感知对于模型认识和理解物理世界的重要性。 内容涵盖经典与现代物理的各个知识等级和领域,包括 从初中到博士资格考试的全谱系多模态物理问题 。 它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出,于近日 正式开源 。 团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。 结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%,暴露出多模态推理的巨大挑战。 团队表示,目前该基准正在ICML 2025 AI for MATH Workshop中开放评估,欢迎学界与工业界的团队来挑战。 为什么需要SeePhys? 近年来,数学在大语言模型 (LLMs) 的推理能力评估中大放异彩,而物理学由于其具有与真实场景的强相关性和更复杂的图像信息,正在 多模态测评中得到越来越多的重视。 物理学不仅知识体系庞大、逻辑链 ...
杭州致成电子科技有限公司:混合推理模型引领电力计量诊断新范式
金投网· 2025-05-29 08:49
行业背景与公司定位 - 电力计量设备的精准诊断与智能化运维成为电网企业降本增效的核心命题 [1] - 公司是国内领先的能源数字化解决方案提供商,自主研发基于混合推理模型的电力计量设备故障诊断平台 [1] - 全国智能电表累计安装量预计约为6.35亿只,公司平台覆盖全国13个省份、服务超2亿电力用户,市场占有率达34.33% [1] 技术突破 - 创新性构建机理模型与人工智能深度融合的协同算法框架,解决传统计量诊断依赖人工经验、效率低下的痛点 [2] - 平台三大核心功能:全量分析(识别异常台区准确率超98%)、精准定位(故障定位精度提升至电表级,耗时从小时级压缩至分钟级)、分级推荐(工单派发效率提升60%) [2] - 技术应用效果:计量设备故障率平均降低35%,线损治理成本下降28%,为电网企业年节省运维成本超亿元 [2] 市场布局 - 平台覆盖浙江、北京、上海、四川等13个省份,累计服务用户超2亿户,占全国智能电表用户总数的34.33% [3] - 浙江为核心市场,服务规模达数千万户,占全省智能电表用户的近四成 [3] - 在西南、西北地区市场渗透率快速提升,相关技术方案被纳入《国家电网新能源计量技术白皮书》 [3] 行业赋能 - 公司从单一产品供应商向全生命周期解决方案服务商升级,平台与国家电网、南方电网核心系统深度对接 [4] - 支撑省级电网公司孵化出电费催收、光伏"四可"等20余项创新应用 [4] - 在广东韶关试点中,平台通过构建低压配电网数字孪生地图,大幅缩短故障处理时间并减少线损治理成本 [4] 未来发展规划 - 加速布局边缘计算、数字孪生等前沿领域,推出新一代轻量化诊断终端,支持台区级本地化AI推理 [5] - 与清华大学合作研发电力计量大模型,可自动解析169类设备故障模式 [5] - 以"数据+算法"双轮驱动,引领行业迈向更高效、更绿色的未来 [5]
英伟达高管解读Q1财报:未来每个制造业工厂都会有匹配的“AI工厂”
新浪科技· 2025-05-29 08:48
财报业绩 - 2026财年第一财季营收440.62亿美元 同比增长69% [1] - 调整后净利润198.94亿美元 同比增长31% [1] 推理业务发展 - Grace Blackwell NVLink 72超级计算平台是推理AI的理想引擎 设计核心是提升推理性能 [2] - 与Hopper相比 Grace Blackwell的速度和吞吐量提高约40倍 显著降低成本并提升回答质量 [3] - 推理处理的token量比单样本聊天机器人多100到1000倍 机器通过自我思考拆解问题 [2] AI行业前景 - AI将改变每个行业 包括医疗保健 金融服务 零售 交通 制造业等 目前处于起步阶段 [3] - AI需要基础设施和"工厂"生成token 这项技术的应用还处于非常早期阶段 [3] - 6G将基于AI构建 目前处于非常早期阶段 制造业工厂将配套AI工厂 [5] 企业级AI部署 - 企业进行AI本地部署 因大量数据留在本地 访问控制非常重要 [4] - 公司发布RTX PRO企业级AI服务器 DGX Spark和DGX Station等新产品 企业级AI刚起步 [4] - 美国是早期启动者 云端有可用资源 是最大市场和设备安装基地 [4]
英伟达业绩:better than feared
信息平权· 2025-05-29 07:42
DeepSeek更新 - DeepSeek更新版本为R1-0528而非R2 推理能力确有提升 但公司认为该版本不足以称为R2 [1] - 真正的R2版本预计基于V4而非V3 需要更多时间开发 预期将有更大进步 [1] - DeepSeek将尝试一些新的技术方向 [1] 英伟达业绩分析 - H20库存过度计提10亿美金 从55亿下调至45亿 部分材料可重新利用 [1] - 4月9日前H20出货46亿美金 但禁令导致Q1少发货25亿美金 对应约200亿美金的资本支出缺口 [1] - H20在Q2影响80亿美金收入 若加回则Q2收入可达540亿美金 显示Blackwell需求强劲 [1] - Blackwell在数据中心收入占比从Q1的100亿美金跃升至Q2的300亿美金 过渡速度超预期 [1] - 微软已部署数万个Blackwell GPU 对应数百至1000个机柜 未来将扩展至几十万GPU 对应5000+机柜 [1] 行业趋势 - 推理需求呈现急剧增长 微软 谷歌等公司日均处理数万亿token [1] - Agent应用推动推理需求 超级agent集群所需计算量远超单次聊天机器人 [1] - 幻觉问题担忧正在被行业克服 多模态和agentic应用发展快于chatbot [1] - 美国AI商业化进程快于中国 两地生态差异明显 [1] 中国市场影响 - 出口禁令导致500亿美金中国市场对美国芯片关闭 Hopper产品线无法继续供应 [2] - 中国AI自主生态发展已成必然 但需关注付费生态和企业支持能否形成健康商业循环 [2] - 出口限制刺激中国本土芯片创新 可能增强中国厂商海外竞争力 [2] - 公司强调美国市场仍是其最大市场 同时肯定中国市场的战略重要性 [2]