Workflow
推理
icon
搜索文档
英伟达(NVDA.US)绩前大摩坚定唱多:更关注推理需求爆发 下半年增长路径已打开
智通财经网· 2025-05-28 16:59
英伟达2026财年第一季度业绩前瞻 - 公司将于周三美股盘后公布2026财年第一季度业绩 分析师共识预期营收433亿美元(上年同期260亿美元) 调整后每股收益0 88美元(上年同期0 61美元) [1] - 摩根士丹利认为H20芯片对华销售禁令带来重大冲击 估算第一季度营收损失10亿美元(23天影响) 第二季度损失50亿美元 [1] - 大摩维持英伟达"增持"评级 目标价160美元 认为若管理层能证明Blackwell供给持续改善且下半年加速增长 短期负面因素将弱化 [1] H20芯片对华销售禁令影响 - 公司无产品能完全替代H20 正在游说争取许可但短期难有结果 传言将推出中国特供AI芯片但交付时间与需求不明确 [2] - 大摩模型已计入禁令影响 预计第一季度营收422亿美元 第二季度435亿美元 低于市场普遍预期的470亿美元 [2] - 公司与美国政府关系密切 部分H20业务可能恢复 [2] GB200机架生产与交付进展 - 三家主要ODM在4月交付约1500台GB200机架 预计全年持续增长 部分OEM和超大规模客户尚未获得足够机架但解决方案在推进 [2] - 当前月交付节奏达1 8万台的年化水平 全年无法交付2万台的说法过于悲观 三家ODM均预测快速爬坡 [3] - GB200无直接竞品 公司自2月起鼓励客户聚焦其产能爬坡 GB300将在今年晚些时候推出 具体季度差异不大 [3] 推理需求与长期增长动力 - 推理需求爆发式增长是重要长期变量 所有超大规模客户均报告远超预期的推理需求增长 [3] - 产业链访谈显示市场急于添加GPU 在GB200短缺情况下客户请求扩充Hopper和B200容量 [3] - 液冷和ARM处理器生态未成熟 客户采购传统形态产品(如B200)满足推理需求 [3] 短期风险与股价展望 - 大摩认为短期风险已充分反映 下半年增长路径清晰 [4] - 若财报电话会能明确Blackwell供给改善和推理需求爆发 即使业绩未大幅超预期 股价仍将表现良好 [4]
AI算力需求涌向模型推理,国产芯片站上竞技台了
第一财经· 2025-05-28 15:22
中国数据中心加速卡市场 - 2024年中国数据中心加速卡市场中34.6%是国产算力,预计上半年国产算力占比超四成[1][2] - 2022-2023年英伟达占据中国数据中心加速卡市场85%-90%,2024年其份额降至65.2%[11] - 国产算力占比可能在短期内超过50%,寒武纪、沐曦等国产芯片厂商开始进入主流应用[11][12] AI算力需求结构变化 - 2024年中国数据中心加速卡中57.6%是推理卡,33%是训练卡,DeepSeek推动推理需求增长[9] - 训练算力需求未减少但占比下降,推理芯片占比预计2025年进一步大幅增加[1][9] - 腾讯等企业反映推理token需求超预期,GPU资源无法满足现有AI需求[9] 智算中心建设动态 - 2024年中国加速计算服务器市场出货量同比增长97.3%,2025年预计增长52.9%[4] - 2024年国内智算中心中标信息213条,是2023年53条的4倍,显示建设明显加速[4] - 香港数码港超算中心算力将从1300PFLOPS提升至3000PFLOPS,第一阶段使用率超95%[6][7] 国产芯片应用突破 - 推理环节降低对芯片性能要求,国产AI芯片如华为、沐曦、壁仞等获得测试机会[10][12] - 寒武纪2024年Q1营收11.11亿元(接近2023全年),净利润3.55亿元实现扭亏[12] - 电信运营商建设基于国产算力的万卡集群,国产算力适配DeepSeek后利用率提升[8] 英伟达市场策略调整 - 英伟达在中国市场份额从95%降至50%,黄仁勋称出口管制存在根本性缺陷[13] - 拟推出采用Blackwell架构的新款中国特供AI芯片,定价低于H20以应对竞争[13] - H20芯片出口需许可证,英伟达面临国产替代加速的压力[11][13] 高校与企业算力需求 - 香港科技大学采购英伟达H800计算卡但仍需补充算力,高校采用混合云架构降本[5] - 华东理工大学将AI用于锂电池催化设计,私有云与公有云混合模式成为主流[5] - 企业AI应用处于早期尝试阶段,缺乏人才配套导致转型进度缓慢[7]
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 12:22
大模型数独能力研究 - Sakana AI推出全新基准测试Sudoku-Bench 包含4x4至9x9传统及变异数独问题 旨在测试AI创造性推理能力[1][6][15] - 测试结果显示大模型总体正确率仅15% 9x9数独中高性能模型o3 Mini High正确率低至2 9%[1][25] - 变异数独需多步逻辑推理 无法通过记忆模板解决 成为测试AI推理能力的理想选择[11][12] 模型表现分析 - 在辅助条件下部分模型表现较好 但原始谜题中先进模型平均连一个正确数字都难以放置[20][21] - 4x4网格模型正确率40%-73% 但9x9网格接近0% 常见错误包括错误解答 放弃解题及误判规则[25] - 多步推理模式下O3 Mini High在4x4数独正确率达60% 但单次推理模式总体正确率仅14%[23] Sakana AI技术布局 - 公司由Transformer作者Llion Jones创立 专注生成文本和图像的AI基础模型研究[24] - 已发布AI科学家和AI审稿人 前者可独立完成十篇学术论文 后者能评审AI论文[26][27] - 开发连续思维机器(CTM)模型 通过逐步思考解决复杂问题 如迷宫[29] 行业合作与数据 - 与Cracking The Cryptic合作 获取数独解题视频数据用于训练推理模型[31][32] - 数独公司Nikoli提供100道手工题目 出题人定制"奇偶鱼"变异数独游戏[16][34] - 项目在2025 NVIDIA GTC大会展示 黄仁勋认为此类谜题可提升AI推理能力[3][4]
港科大Apple新研究:Tokens使用量减少,模型推理还更强了
量子位· 2025-05-28 12:22
核心观点 - 大推理模型(LRMs)在简单数学问题上仍需消耗1400+ tokens进行思考,存在效率瓶颈 [1] - Laser系列方法通过创新奖励设计实现模型准确率与token使用效率的双提升,例如在AIME24基准上减少63% tokens同时提升6.1%性能 [3][34] - 动态难度感知机制(Laser-D/D-E)进一步优化不同难度题目下的token分配,实现更优平衡 [28][29] 方法创新 统一框架 - 将截断训练与长度奖励设计统一为"正确性奖励+长度奖励+控制开关"的组合框架 [14][18][19] - 传统截断方法存在长回答中正确/错误奖励混淆的问题,影响模型学习效果 [22] Laser奖励设计 - 采用阶跃函数奖励机制,对目标长度内的正确回答给予正向激励,避免无差别惩罚长回答 [24][25][26] - 动态调整目标长度(Laser-D)和错误探索机制(Laser-DE)分别提升难度适配性与纠错能力 [28] 实验效果 性能数据 - 在7B模型上,Laser-D对AIME24任务实现5.1%准确率提升+60% tokens节省 [36] - 32B模型应用Laser-DE后,token使用量减少41%(10335→6785)同时保持70.8%准确率 [35] - 领域外测试(GPQA/LSAT/MMLU)显示方法具备泛化性 [37] 行为优化 - 训练后模型冗余的"自我反思"行为减少86%,关键推理行为(验证/子目标拆解)保留率超90% [39][40] - 模型思考路径更简洁直接,如"1+1"问题响应速度提升300% [41][43] 技术实现 基准对比 - 原始模型平均消耗10177 tokens,Laser-D将其降至3315 tokens(降幅67%) [14][35] - 帕累托前沿显示Laser系列始终位于baseline准确率曲线上方 [30][32] 参数细节 - 采用DeepSeek-R1-Distill-Qwen的1.5B/7B/32B模型验证 [30] - 监控集动态调整易/中/难题目标长度,训练开销增加<1% [28]
清华创业团队打造!国内首个专注AI推理Serverless GPU平台
机器之心· 2025-05-28 11:54
公司介绍 - 共绩科技是全球唯一利用动态闲置资源提供安全稳定服务的分布式计算平台,致力于构建信息、算力、能源一体化的资源调度网络 [1] - 公司核心团队来自清华大学、北京大学及Intel、字节跳动、阿里等知名企业,在分布式资源调度领域深耕多年 [27] - 已承建青海省、河北省省级算力调度平台,累计服务90余家人工智能企业 [27] 产品技术 - 共绩云AI推理Serverless平台支持极简快速部署,RTX 4090价格低至1.68元/小时,按毫秒计费 [2] - 采用Docker容器化技术实现五步部署,提供预制镜像与7x24h免费技术支持 [25][26] - 自研闲时算力调度平台整合26家智算中心资源(包括金山云、火山引擎),形成万卡资源池 [27] 行业痛点 - AI推理市场存在"弹性、稳定、低价"不可能三角,传统整租模式导致闲置成本高或扩容慢 [8][11] - 国内Serverless GPU服务资源稀缺,供需错配造成大量闲置与短租一卡难求并存 [19][12] - 现有服务模式要求长租且管理繁琐,阻碍创业公司快速迭代 [12] 解决方案 - 通过Serverless GPU实现毫秒级按量计费,流量激增时秒级扩容,回落时缩容归零 [23][24] - 独创动态资源调度网络打破单一云厂商边界,将闲置算力转化为可用资源 [21][27] - 支持实时/批量推理、3D渲染等场景,冷启动速度媲美国外RunPod [15][17] 市场活动 - 新用户注册充值可获20%额外积分,邀请好友双方各得50元积分 [3][30] - 活动期限至6月18日,RTX 4090推理服务维持1.68元/小时促销价 [29][30]
大摩前瞻英伟达财报:H20影响被忽视,但爆炸性的推理需求增长才是关键
华尔街见闻· 2025-05-28 11:26
核心观点 - 摩根士丹利认为市场低估了AI推理需求的长期潜力,叠加Blackwell架构供应改善,英伟达下半年业绩或迎来加速拐点 [1] - 尽管H20销售限制带来短期财务压力,可能导致约50亿美元收入损失,但公司仍被列为半导体行业首选股 [1] - 市场对AI推理需求的爆炸性增长认知不足,微软、亚马逊、谷歌等头部云厂商披露超出预期的Token使用量增长 [6][8] H20政策短期冲击 - H20出口政策变化导致英伟达第二季度收入面临约10%环比下行风险 [2] - 公司宣布半导体行业历史上规模最大的55亿美元库存减记 [2] - 预计4月季度减少约10亿美元收入,7月季度减少约50亿美元收入 [3] - 公司正游说美国政府放宽限制,并计划推出无HBM内存的L40芯片作为替代方案 [4] Blackwell供应链改善 - Blackwell机架供应困境正在好转,三家ODM厂商4月达到约1500个机架月产量 [5] - 全年机架预测已开始上调50%以上 [5] - 市场低估了非机架形式Blackwell芯片的重要性,许多客户会寻求B200或其他形式满足推理需求 [5] 财务预测 - 4月季度营收预计422亿美元,低于官方指引430亿美元 [1][9] - 7月季度营收预计435亿美元,考虑了40-50亿美元H20相关收入减少 [1][9] - 2025财年收入预期1908亿美元,2026财年2555亿美元 [9] - 2025财年EPS预期4.09美元,2026财年6.01美元 [9] - 摩根士丹利维持160美元目标价,代表当前股价131.29美元约21.87%上涨空间 [8] 市场表现 - 英伟达市值达3.2万亿美元,被视为人工智能需求风向标 [1] - 市场担忧的中期问题正在被消除,公司有望下半年重返强劲增长轨道 [8] - 云客户在无法获得GB200情况下要求增加Hopper和B200容量 [8]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 23:21
大模型理科能力提升 - 网易有道发布视频显示6位清华姚班学生与AI比赛做高考压轴题 姚班学生在10分钟内完成作答且仅1位做错 AI答疑笔在输入确认后几秒输出步骤并答对题目 [1] - 姚班学生认为AI做题思路与其一致 步骤更清晰 更有利于学生理解解题思路 [1] - 去年高考测试显示9家大模型中4家文科达到河南一本线 但无大模型理科达到一本线 今年AI在北京高考二模测试中获697分(总分750) 达"清北"水平 [2] 行业技术进展 - DeepSeek-R1带来推理模型大爆发 大模型推理和交互能力在教育场景适配性高 逐步解决个性化教学和答疑需求 [2] - OpenAI o3-mini在FrontierMath基准测试中首次尝试解决超过32%问题 包括28%挑战性(T3)问题 FrontierMath问题对专业数学家需数小时至数日解决 [3] - 谷歌AlphaProof和AlphaGeometry 2解决2024年IMO六题中的四题 达到银牌得主水平 [3] - 阿里巴巴Qwen3在AIME25测评中获81.5分 刷新开源纪录 [3] 市场前景 - 艾媒咨询报告指出2023至2027年在线教育市场AI贡献率预计从7%提升至16% [3]
Morgan Stanley--出口管制正在缩小中国的HBM差距
傅里叶的猫· 2025-05-27 22:52
中国HBM技术发展 - 中国HBM3技术落后全球领先者3-4年 但差距正通过AI芯片生产规模能力缩小[2] - 长鑫存储计划2025年中期小批量生产HBM2 2026年开发HBM3 2027年生产HBM3/3E[1][14] - 中国在hybrid bonding封装技术领域占据强势地位 长江存储相关专利达119项远超三星(83项)和SK海力士(11项)[20][21] 半导体供应链国产化进展 - 中国前端半导体制造产能占全球20% 后端占40% 预计2027年37%成熟节点产能集中在中国[5] - 本土供应链已覆盖EDA设计(华大九天)、晶圆代工(中芯国际)、存储(长江/长鑫)、封装测试(通富微电)等全环节[6] - 长鑫存储DDR5技术差距从5年缩短至3年 2025年产能预计占全球DRAM市场的14%[18] AI芯片替代方案 - 英伟达计划推出GDDR7替代HBM的6000D GPU 预计2025年出货100万台 带来3.84亿美元收入[6][7] - 游戏GPU可满足中小型企业AI推理需求 预计2023-2027年中国游戏GPU市场CAGR从4%提升至10%[12] - 华为昇腾910C采用8颗HBM2E 壁仞/燧原等厂商也使用韩国HBM2/2E[13] 技术竞争格局 - 全球HBM产能2025年底预计34万片/月 长鑫存储2026年规划10万片/月 2028年扩至40万片/月[16] - hybrid bonding将成为16层以上HBM堆叠关键技术 三星/SK海力士/美光计划2027年HBM4e采用该工艺[27][28] - 长鑫存储在无EUV情况下开发15nm以下DRAM节点 面临良率和生产规模挑战[17] 产能扩张计划 - 长鑫存储2025年产能预计达540kwpm(8英寸等效) 合肥/北京工厂合计30万片/月12英寸晶圆产能[18][19] - 武汉新芯启动HBM专项 长电科技推出XDFOI封装方案 通富微电负责HBM2堆叠组装[22]
AI动态汇总:Claude4系列发布,谷歌上线编程智能体Jules
中邮证券· 2025-05-27 21:43
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Claude Opus 4** - **模型构建思路**:专为复杂推理与软件开发设计,扩展AI智能体能力边界[12] - **模型具体构建过程**: - 基于Anthropic的底层架构优化,增强跨文件代码理解能力 - 引入记忆文件机制,通过本地存储关键信息提升长期任务连贯性[16] - 采用轻量级思考摘要功能,在5%场景下精简推理链条[19] - **模型评价**:在SWE-bench测试中准确率72.5%,TerminalBench测试43.2%,展现顶尖编码能力[12][16] 2. **模型名称:Claude Sonnet 4** - **模型构建思路**:平衡性能与成本的通用模型,优化指令遵循能力[12] - **模型具体构建过程**: - 基于Sonnet 3.7改进编码和推理模块 - 通过行为控制技术降低系统漏洞利用概率65%[16] - **模型评价**:SWE-bench测试72.7%优于Opus 4,但综合性能稍逊[16] 3. **模型名称:Cosmos-Reason1** - **模型构建思路**:融合物理常识与具身推理,面向自动驾驶/机器人场景[29] - **模型具体构建过程**: - 采用混合Mamba-MLP-Transformer架构,结合ViT视觉编码器[30] - 四阶段训练流程: 1. 130M数据视觉预训练(跨模态对齐) 2. 8M通用监督微调(SFT) 3. 物理AI专项微调(16类知识注入) 4. GRPO算法强化学习优化决策[30] - 公式:奖励机制采用时空谜题自监督生成$$R=\sum_{t=1}^{T}\gamma^{t-1}r_t(s_t,a_t)$$ - **模型评价**:物理常识测试60.2%准确率,具身推理任务性能提升10%[34] 4. **模型名称:Gemini 2.5 Pro** - **模型构建思路**:旗舰级多模态推理模型,扩展上下文窗口至200万token[43] - **模型具体构建过程**: - 引入"Deep Think"并行推理架构,动态调整5%-100%思考强度 - 集成Model Context Protocol SDK降低开源工具链对接门槛[44] - **模型评价**:MMMU测试84.0%,长期记忆准确率83.1%显著优于竞品[44] 5. **模型名称:Devstral** - **模型构建思路**:开源编程专用模型,强化安全对齐与工程级任务处理[38] - **模型具体构建过程**: - 基于Mistral Small 3.1架构,采用Tekken Tokenizer(131,000词汇量) - 零样本训练策略避免SWE-bench过拟合[41] - **模型评价**:SWE-bench Verified得分46.8%,超越前代开源模型6%[39] --- 模型的回测效果 1. **Claude Opus 4** - SWE-bench准确率72.5%[12] - TerminalBench准确率43.2%[12] - 长期记忆准确率83.1%(MRCR 128K测试)[44] 2. **Cosmos-Reason1-7B** - 物理常识基准60.2%准确率[34] - 具身推理基准平均60.7%[34] - 8K视频流推理速度较GPT-4快11倍[34] 3. **Gemini 2.5 Pro** - MMMU得分84.0%[44] - WebDev Arena测试1499.95分(较前代+147)[44] 4. **Devstral** - SWE-bench Verified得分46.8%[39] - 单RTX 4090显卡可部署[39] --- 技术前沿发现 1. **思维链(CoT)对指令遵循的影响** - **构建思路**:通过IFEval/ComplexBench基准测试15种模型的CoT干扰效应[52] - **关键发现**: - CoT导致IFEval准确率平均下降12.3%[54] - 注意力机制显示约束token关注度下降18.7%[60] - **缓解方案**: - 分类器选择性推理提升IFEval准确率7.2%[65] - 自适应推理选择优化ComplexBench表现[64] (注:原文未涉及量化因子相关内容,故未总结该部分)