推理

搜索文档
奖励是假的,能让Qwen提升25%性能却是真的!
量子位· 2025-05-29 09:08
RLVR技术突破 - 使用虚假奖励信号进行RLVR训练仍能显著提升Qwen模型性能 在MATH-500基准上绝对准确率提升约25% 与真实奖励效果仅相差几个百分点[1][3][18] - 虚假奖励类型包括错误标签奖励(提升24.6%)、随机奖励(提升21.4%)和格式奖励 均能激发模型推理能力提升[18][20] - 该现象颠覆传统认知 表明RLVR性能提升可能独立于奖励信号正确性 而是通过激活预训练中的潜在推理能力实现[4][12] Qwen模型特异性表现 - 虚假奖励增益仅见于Qwen2 5-Math系列模型 其他模型如Llama、OLMo2-7B性能无变化或下降[19][24] - Qwen2 5-Math-7B独特依赖代码推理策略 65%回答包含Python代码片段 虚假奖励RLVR可将其频率提升至90%[23][27] - 模型差异源于预训练策略 Qwen的代码推理行为与答案准确率正相关 但该模式在其他模型中可能损害性能[23][25] 实验设计与机制分析 - 团队设计五类奖励函数梯度测试 包括真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励 形成监督强度递减序列[20] - GRPO方法裁剪偏差可能诱导随机奖励产生有益训练信号 增加代码推理行为[28] - 研究推测错误推理+正确答案或正确推理+错误答案的组合可能在其他模型中复制类似增益[32] 行业影响与研究方向 - 现有RLVR研究需扩展至非Qwen模型验证 避免单一模型优化带来的局限性[33] - 技术社区反应强烈 建议RLVR研究员重新评估围绕奖励函数构建的研究路径[6] - 项目由华盛顿大学NLP团队主导 开源代码与论文提供完整实验复现路径[34]
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%
量子位· 2025-05-29 09:08
SeePhys团队 投稿 量子位 | 公众号 QbitAI 当前顶尖AI模型是否真能"看懂"物理图像? 全谱系多模态物理推理新基准来了,结果 SO TA级模型准 确率都不足55% 。 新基准名为 SeePhys ,强调了图形感知对于模型认识和理解物理世界的重要性。 内容涵盖经典与现代物理的各个知识等级和领域,包括 从初中到博士资格考试的全谱系多模态物理问题 。 它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出,于近日 正式开源 。 团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。 结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%,暴露出多模态推理的巨大挑战。 团队表示,目前该基准正在ICML 2025 AI for MATH Workshop中开放评估,欢迎学界与工业界的团队来挑战。 为什么需要SeePhys? 近年来,数学在大语言模型 (LLMs) 的推理能力评估中大放异彩,而物理学由于其具有与真实场景的强相关性和更复杂的图像信息,正在 多模态测评中得到越来越多的重视。 物理学不仅知识体系庞大、逻辑链 ...
杭州致成电子科技有限公司:混合推理模型引领电力计量诊断新范式
金投网· 2025-05-29 08:49
行业背景与公司定位 - 电力计量设备的精准诊断与智能化运维成为电网企业降本增效的核心命题 [1] - 公司是国内领先的能源数字化解决方案提供商,自主研发基于混合推理模型的电力计量设备故障诊断平台 [1] - 全国智能电表累计安装量预计约为6.35亿只,公司平台覆盖全国13个省份、服务超2亿电力用户,市场占有率达34.33% [1] 技术突破 - 创新性构建机理模型与人工智能深度融合的协同算法框架,解决传统计量诊断依赖人工经验、效率低下的痛点 [2] - 平台三大核心功能:全量分析(识别异常台区准确率超98%)、精准定位(故障定位精度提升至电表级,耗时从小时级压缩至分钟级)、分级推荐(工单派发效率提升60%) [2] - 技术应用效果:计量设备故障率平均降低35%,线损治理成本下降28%,为电网企业年节省运维成本超亿元 [2] 市场布局 - 平台覆盖浙江、北京、上海、四川等13个省份,累计服务用户超2亿户,占全国智能电表用户总数的34.33% [3] - 浙江为核心市场,服务规模达数千万户,占全省智能电表用户的近四成 [3] - 在西南、西北地区市场渗透率快速提升,相关技术方案被纳入《国家电网新能源计量技术白皮书》 [3] 行业赋能 - 公司从单一产品供应商向全生命周期解决方案服务商升级,平台与国家电网、南方电网核心系统深度对接 [4] - 支撑省级电网公司孵化出电费催收、光伏"四可"等20余项创新应用 [4] - 在广东韶关试点中,平台通过构建低压配电网数字孪生地图,大幅缩短故障处理时间并减少线损治理成本 [4] 未来发展规划 - 加速布局边缘计算、数字孪生等前沿领域,推出新一代轻量化诊断终端,支持台区级本地化AI推理 [5] - 与清华大学合作研发电力计量大模型,可自动解析169类设备故障模式 [5] - 以"数据+算法"双轮驱动,引领行业迈向更高效、更绿色的未来 [5]
英伟达高管解读Q1财报:未来每个制造业工厂都会有匹配的“AI工厂”
新浪科技· 2025-05-29 08:48
财报业绩 - 2026财年第一财季营收440.62亿美元 同比增长69% [1] - 调整后净利润198.94亿美元 同比增长31% [1] 推理业务发展 - Grace Blackwell NVLink 72超级计算平台是推理AI的理想引擎 设计核心是提升推理性能 [2] - 与Hopper相比 Grace Blackwell的速度和吞吐量提高约40倍 显著降低成本并提升回答质量 [3] - 推理处理的token量比单样本聊天机器人多100到1000倍 机器通过自我思考拆解问题 [2] AI行业前景 - AI将改变每个行业 包括医疗保健 金融服务 零售 交通 制造业等 目前处于起步阶段 [3] - AI需要基础设施和"工厂"生成token 这项技术的应用还处于非常早期阶段 [3] - 6G将基于AI构建 目前处于非常早期阶段 制造业工厂将配套AI工厂 [5] 企业级AI部署 - 企业进行AI本地部署 因大量数据留在本地 访问控制非常重要 [4] - 公司发布RTX PRO企业级AI服务器 DGX Spark和DGX Station等新产品 企业级AI刚起步 [4] - 美国是早期启动者 云端有可用资源 是最大市场和设备安装基地 [4]
英伟达业绩:better than feared
信息平权· 2025-05-29 07:42
DeepSeek更新 - DeepSeek更新版本为R1-0528而非R2 推理能力确有提升 但公司认为该版本不足以称为R2 [1] - 真正的R2版本预计基于V4而非V3 需要更多时间开发 预期将有更大进步 [1] - DeepSeek将尝试一些新的技术方向 [1] 英伟达业绩分析 - H20库存过度计提10亿美金 从55亿下调至45亿 部分材料可重新利用 [1] - 4月9日前H20出货46亿美金 但禁令导致Q1少发货25亿美金 对应约200亿美金的资本支出缺口 [1] - H20在Q2影响80亿美金收入 若加回则Q2收入可达540亿美金 显示Blackwell需求强劲 [1] - Blackwell在数据中心收入占比从Q1的100亿美金跃升至Q2的300亿美金 过渡速度超预期 [1] - 微软已部署数万个Blackwell GPU 对应数百至1000个机柜 未来将扩展至几十万GPU 对应5000+机柜 [1] 行业趋势 - 推理需求呈现急剧增长 微软 谷歌等公司日均处理数万亿token [1] - Agent应用推动推理需求 超级agent集群所需计算量远超单次聊天机器人 [1] - 幻觉问题担忧正在被行业克服 多模态和agentic应用发展快于chatbot [1] - 美国AI商业化进程快于中国 两地生态差异明显 [1] 中国市场影响 - 出口禁令导致500亿美金中国市场对美国芯片关闭 Hopper产品线无法继续供应 [2] - 中国AI自主生态发展已成必然 但需关注付费生态和企业支持能否形成健康商业循环 [2] - 出口限制刺激中国本土芯片创新 可能增强中国厂商海外竞争力 [2] - 公司强调美国市场仍是其最大市场 同时肯定中国市场的战略重要性 [2]
英伟达CEO黄仁勋:AI推理需求激增,特朗普取消AI扩散制度是利好
快讯· 2025-05-29 06:29
AI行业趋势 - AI推理需求增长超过计算能力提升速度 [1] - 特朗普政府取消拜登AI扩散制度 被认为对美国AI发展有利 [1] AI技术应用 - 企业级AI领域 Agentic AI表现优于通用AI [1] - 全球各地积极投资本土AI制造和应用 [1] - 新建工厂普遍采用AI技术 [1]
英伟达CEO黄仁勋列举出四大意外:1、推理AI已经创造更多的计算需求。2、(美国总统特朗普)取消(前总统拜登任期内出台的)AI扩散制度的决定是极好的。特朗普希望美国获胜。3、在企业级AI,Agentic AI正在发挥作用。它甚至比通用AI更好。4、对于行业AI,诸多地区热衷于本土制造并到处修建工厂。所有的新工厂都在使用AI。
快讯· 2025-05-29 06:07
英伟达CEO黄仁勋的四大意外观点 推理AI计算需求 - 推理AI已经创造更多的计算需求 [1] 政策环境对AI的影响 - 取消AI扩散制度的决定有利于美国AI发展 [1] - 特朗普希望美国在AI领域获胜 [1] 企业级AI应用 - Agentic AI在企业级AI中发挥重要作用 [1] - Agentic AI表现优于通用AI [1] 行业AI与本土制造 - 多个地区热衷于本土制造并修建工厂 [1] - 所有新建工厂均采用AI技术 [1]
Nvidia(NVDA) - 2026 Q1 - Earnings Call Transcript
2025-05-29 06:02
财务数据和关键指标变化 - 第一季度营收440亿美元,同比增长69%,超出预期 [6] - GAAP和非GAAP毛利率分别为60.5%和61%,排除45亿美元费用后,Q1非GAAP毛利率为71.3% [31] - 第一季度GAAP和非GAAP运营费用分别环比增长7%和6% [31] - 第一季度以股票回购和现金股息形式向股东返还创纪录的143亿美元 [32] - 预计第二季度总营收450亿美元,上下浮动2% [32] - 预计第二季度GAAP和非GAAP毛利率分别为71.8% - 72%,上下浮动50个基点 [33] - 预计第二季度GAAP和非GAAP运营费用分别约为57亿美元和40亿美元,预计2026财年全年运营费用增长处于30%中段水平 [34] - 预计第二季度GAAP和非GAAP其他收入和费用约为4.5亿美元,GAAP和非GAAP税率为16.5%,上下浮动1% [34] 各条业务线数据和关键指标变化 数据中心业务 - 数据中心营收390亿美元,同比增长73%,AR工作负载向推理业务强劲过渡,AI工厂建设推动显著营收增长 [6] - Blackwell推动数据中心营收同比增长73%,本季度贡献近70%的数据中心计算营收,从Hopper的过渡基本完成 [9] - 4月9日美国政府对专为中国市场设计的H20数据中心GPU实施新出口管制,Q1确认46亿美元H20营收,同时因库存减记和采购义务确认45亿美元费用,因新出口管制无法在第一季度发货25亿美元H20营收 [7] - 预计第二季度中国数据中心营收将大幅下降,预计损失约80亿美元H20营收 [21][33] 游戏和AI PC业务 - 游戏营收达创纪录的38亿美元,环比增长48%,同比增长42% [22] - 本季度增加AI PC笔记本电脑产品,包括能够运行微软Copilot Plus的型号 [23] - GeForce RTX 560和560 Ti桌面GPU和笔记本电脑已上市,可使帧率翻倍并大幅降低延迟 [24] 专业可视化业务 - 营收9000万美元,环比持平,同比增长19%,关税相关不确定性暂时影响Q1系统业务,AI工作站需求强劲,预计Q2营收将恢复环比增长 [26] 汽车业务 - 营收5.67亿美元,环比下降1%,同比增长72%,同比增长得益于多家客户自动驾驶业务的增长以及新能源汽车的强劲终端需求 [28] 网络业务 - 网络业务营收环比增长64%,达到50亿美元 [18] - Spectrum X营收同比和环比均实现强劲增长,目前年化营收超过80亿美元,本季度新增谷歌云、Meta等客户 [20] 各个市场数据和关键指标变化 - 中国市场数据中心营收占比略低于预期且环比下降,预计Q2中国数据中心营收将大幅下降 [21] - 新加坡代表了近20%的Q1营收,但产品几乎都运往其他地区,超过99%的H100、H200和Blackwell数据中心计算营收开票给新加坡的订单来自美国客户 [22] 公司战略和发展方向和行业竞争 - 公司致力于保持每年推出新产品的节奏,产品路线图延伸至2028年,与客户的多年规划周期紧密契合 [11] - 推出LAMA Nemotron系列开放推理模型,用于增强企业的智能AI平台,多家领先平台公司正在使用该推理模型改变工作方式 [15][16] - 与百胜餐饮集团合作,今年将把NVIDIA AI引入其500家餐厅,并逐步扩展到6.1万家餐厅 [17] - 与台积电、富士康等合作在美国建设芯片制造和AI超级计算机工厂,目标是在一年内实现从芯片到超级计算机的美国制造 [45][46] - 出口管制使中国AI市场对美国企业关闭,公司正在评估有限的供应合规产品的选项,失去中国AI加速器市场将对公司业务产生重大不利影响,并使外国竞争对手受益 [9] 管理层对经营环境和未来前景的评论 - 公司认为AI是推动各行业变革的重要基础设施,目前正处于早期发展阶段,推理业务需求激增,未来增长潜力巨大 [62][63] - 企业AI、电信AI和工业AI等领域正处于起步阶段,将成为公司新的增长动力 [64][65][66] - 全球各国都在积极建设国家AI平台,主权AI将成为公司新的增长引擎 [49][50] 其他重要信息 - 公司将参加6月4日的美国银行全球技术会议、6月10日的罗森布拉特虚拟AI峰会和纳斯达克投资者会议以及6月11日的GTC巴黎和Viva Tech活动 [36] - 2026财年第二季度财报电话会议定于8月27日举行 [36] 总结问答环节所有的提问和回答 问题1: 推理业务需求的满足情况、业务规模以及是否需要全NBL 72机架规模解决方案 - 公司希望满足所有需求,目前正朝着满足大部分需求的方向发展,Grace Blackwell NVLink 72是当前推理AI的理想引擎,相比Hopper,其推理速度和吞吐量提高了约40倍,能够在降低成本的同时提高响应质量和服务质量 [53][54] 问题2: 中国市场影响及AI支出建设进度和增长预期 - 第二季度中国数据中心营收将大幅下降,预计损失约80亿美元H20营收,未来还有其他订单无法履行,评估中国市场潜在规模接近500亿美元 [60][61] - AI技术处于早期发展阶段,推理业务将成为计算工作负载的重要组成部分,公司正在云、企业、电信和工业等领域建设AI基础设施,企业AI刚刚起步,未来增长潜力巨大 [62][63][64] 问题3: 是否有其他未宣布的大规模GPU集群投资订单以及对Blackwell交货时间和可见性的影响 - 目前订单比上次在GTC会议上提到时更多,公司正在增加供应链产能,未来会有更多国家建设AI基础设施,预计会有更多相关订单宣布,AI作为基础设施的建设才刚刚开始 [70][71][75] 问题4: 关于第二季度指导和非中国业务增长的原因以及对全年连续增长的信心 - 若没有出口管制,第二季度H20订单可能达到80亿美元,Blackwell在众多客户中的增长以及供应链的改善共同促成了公司给出的指导 [80] - 与年初相比,有四个积极因素:推理AI需求呈指数级增长;AI扩散规则被撤销,为公司创造了更多机会;企业AI准备起飞;工业AI因全球制造业回流和新工厂建设而迎来发展机遇,这些因素使公司对全年连续增长更有信心 [82][83][85] 问题5: 是否获批向中国运送新的修改版本产品以及能否恢复之前的季度营收水平 - 总统有相关计划和愿景,但新的出口管制限制使Hopper在中国市场的应用基本结束,公司目前没有可宣布的产品,正在考虑相关选项,需了解限制并与政府进行讨论 [93][94] 问题6: 网络业务增长的原因以及以太网解决方案在CSP的采用情况和网络附加率的变化 - 公司有NVLink、Spectrum X、BlueField等四个网络平台,这些平台都在增长,Spectrum X通过增强以太网功能,将集群利用率从50%提高到85% - 90%,本季度新增两家重要CSP客户 [100][101]
英伟达CEO黄仁勋谈及Deepseek,称:推理模型要求更大的算力(支持),这正驱动推理需求。
快讯· 2025-05-29 05:41
行业趋势 - 推理模型对算力的需求正在增加,推动推理相关需求增长 [1] 公司动态 - 英伟达CEO黄仁勋提及Deepseek,强调推理模型需要更大算力支持 [1]
MedBench最新榜单出炉!深兰科技医疗大模型综合测评第一
证券日报· 2025-05-28 22:14
医疗大模型评测 - 深兰科技DeepBlue-MR-v1医疗大模型以94.2的高分在MedBench多个综合评测中排名第一 [1] - 该模型在复杂医学推理评测中持续霸榜并扩大领先优势 [1][2] - MedBench评测平台由上海人工智能实验室与上海市数字医学创新中心联合多家机构设立 已评测全球超过387个模型 [1] 技术能力与研发 - DeepBlue-MR-v1基于Transformer架构 通过海量医学数据预训练构建医学推理语义空间 [2] - 模型采用自研训练体系 包括监督微调 指令增强和多阶段自适应强化学习算法 [2] - 在医学语言理解 生成 知识问答 复杂推理 安全伦理五个维度综合得分领先 [2] 产品应用与商业化 - 基于DeepBlue-MR-v1开发的AI医疗产品包括问诊助手 远程视频问诊 辅助诊断系统等 [3] - 已与武汉市中心医院 协和医院等多家医疗机构达成合作 [3] - 合作重点为问诊 诊断和专科服务等场景的AI技术深度应用 [3]