Workflow
推理
icon
搜索文档
老黄发布新核弹B300,英伟达:B200已破DeepSeek-R1推理世界纪录
量子位· 2025-03-19 06:20
文章核心观点 英伟达在GTC大会上发布多款新硬件、软件,涉足以太网领域,还在自动驾驶和具身智能方面取得新进展,同时大会设有“量子日”活动引发关注 [1][18][29][43][56] 新硬件发布 AI芯片 - GB300推理性能是GB200的1.5倍,将于今年下半年出货 [1][2] - 预览下一代AI超级芯片Vera Rubin,2026年下半年发货,整体性能是GB300的3.3倍 [3][6] - 2027年下半年推出的Rubin Ultra性能是GB300的14倍 [6] - 之后的下一代GPU将命名为Feynman [11] 个人AI超级计算机 - DGX Spark售价3000美元,采用GB10芯片,能提供每秒1000万亿次AI运算,官网已开启预定 [20][21][23] - DGX Station采用GB300芯片,将于今年晚些时候从多家厂商推出 [24][26] 以太网网络平台 - 推出全球首个面向AI的以太网网络平台Spectrum - X,可将AI网络性能提升1.6倍 [29][31] - 推出基于硅光学的Spectrum - X Photonics和Quantum - X Photonics网络交换平台,端口数据传输速度提至1.6Tb/s,总传输速度达400Tb/s [32][33] 软件开源 分布式推理服务库 - 发布NVIDIA Dyamo,可让DeepSeek - R1吞吐量提升30倍,已完全开源 [35][37][38] AI推理模型 - 开源新的AI推理模型Llama Nemotron,49B参数量性能远超其他对比模型 [39][41] 自动驾驶与具身智能进展 自动驾驶 - 与通用汽车合作,通用将在自动驾驶上使用英伟达AI技术 [44] - 发布端到端自动驾驶汽车全栈综合安全系统NVIDIA Halos,在三个层面提供支持 [45][47] 具身智能 - 与Google DeepMind和Disney Research合作开发下一代开源仿真物理模型Newton [50] - 推出全球首个开源的、完全可定制的人形机器人基础模型Isaac GR00T N1 [51] 大会其他亮点 - 今年GTC大会首次设立“量子日”活动,老黄将与多家量子计算企业高管讨论行业发展 [56]
专家访谈汇总:消费信贷科技迎来红利期
阿尔法工场研究院· 2025-03-17 22:45
金融监管专项行动方案相关 - 金融监管总局出台专项行动方案,旨在丰富金融产品、提升服务便利度、优化消费环境、增强民众获得感 [1] - 零售银行如工商银行、招商银行、平安银行可能受益于个人消费贷款增长 [2] - 消费信贷科技公司如蚂蚁集团、京东科技等或受益于线上信用卡业务拓展 [3] - 银行可给短期困难借款人提供续贷支持,降低坏账风险 [4] - 支付便利化措施支持老年人和外籍人士使用支付服务,促进跨境消费和本地支付市场发展 [5] - 信用评级、风控技术公司如百行征信、同盾科技可能受益于信用审核需求增长 [6] - 批发零售、住宿餐饮等消费服务行业将获更多信贷支持,有助于行业复苏和扩张 [7] - 数字、绿色、智能消费场景将迎来定制化金融产品,利好相关企业 [7] - 消费品与服务类企业融资环境改善,有望推动业绩增长 [7] 洛阳钼业相关 - 公司全资贸易公司IXM交易模式致销售滞后1个季度,当前库存可短期享受涨价红利 [8] - 2024年公司钴产量11.4万吨,按季度拆分约2.85万吨,预计在途库存利润增幅可达8.7亿元 [9] - 刚果(金)政策或从禁令转向配额制,使钴价长期中枢上移,公司大概率获较多配额提升利润中枢 [9] - 2024年Q3公司钴业务净利0.92万元/吨,若配额制执行,钴价中枢预计提升,单吨净利可提升至5.13万元/吨 [9] 固态电池变革相关 - 政策延续“稳中求进”总基调,在财政、消费、科技创新等方面有创新突破 [3] - 强化宏观政策民生导向,提出“投资于人”新理念,推动就业、收入增长、消费激励 [3] AI应用相关 - 推理成本每年降低约10倍,使AI应用更经济可行,加速普及 [4] - ASIC作为高性价比推理方案,相比GPU针对性强、功耗低、性价比高,有望成推理市场主力方案 [4] - 北美四大云计算厂商谷歌、亚马逊、微软、Meta已全面布局自研ASIC并逐步规模化部署 [10] 具身智能相关 - 感知系统是人形机器人核心子系统之一,成本占比约15%,决定其环境感知和精细操作能力 [10] - 随着人形机器人落地,感知系统将成核心增量市场,3D视觉等细分领域增长潜力大 [10]
速递|从训练到推理:AI芯片市场格局大洗牌,Nvidia的统治或有巨大不确定性
Z Finance· 2025-03-14 19:39
AI芯片市场格局转变 - AI计算需求从训练转向推理,DeepSeek的R1、OpenAI的o3和Anthropic的Claude 3.7等推理模型消耗更多计算资源 [2] - 摩根士丹利预计未来几年美国数据中心75%以上的电力与计算需求将用于推理 [3] - 巴克莱预测前沿AI推理资本支出将从2025年的1226亿美元跃升至2026年的2082亿美元,超过训练支出 [4] Nvidia面临的竞争挑战 - 初创公司如Cerebras、Groq及科技巨头谷歌、亚马逊等正集中力量挑战Nvidia的霸主地位 [2] - 巴克莱预计Nvidia在长期内仅能满足50%的推理需求,到2028年竞争对手或争夺近2000亿美元市场 [5] - 云计算提供商希望减少对Nvidia的依赖,推动更高效芯片发展 [5] Nvidia的应对策略 - 公司CEO黄仁勋强调Blackwell芯片优化推理性能,并指出推理需求较初期增长100倍 [6][7] - Nvidia的CUDA软件生态构成竞争壁垒,其推理性能过去两年提升200倍 [6][8] - 公司称数亿用户通过其数百万GPU访问AI产品,架构灵活性支持多样化应用场景 [8] 推理技术发展趋势 - 推理任务需更大内存处理复杂查询,为替代Nvidia GPU提供机会 [7] - Cerebras芯片在延迟表现上优于竞品(如1秒生成答案 vs OpenAI的40秒) [8] - 推理加速器需针对特定AI模型优化,但通用GPU在架构变化时更具灵活性 [9][10] 行业成本与创新动态 - OpenAI CEO表示AI使用成本每12个月下降约10倍,推动使用量激增 [7] - DeepSeek的v3和R1模型通过架构创新降低推理成本 [7] - 初创公司Mistral采用Cerebras芯片加速其聊天机器人Le Chat [8]
从腾讯百度到车企券商,为何「万物」都想接入 DeepSeek?
声动活泼· 2025-03-14 13:45
根据国泰君安的研报,自从 DeepSeek 爆火之后,接入他们大模型的需求在短时间内迅速增加。从 2 月初至 今,腾讯、百度、阿里等互联网大厂,不仅在各自的云计算平台上线了 DeepSeek 模型。在直接面向用户的 业务上,即使这些巨头都拥有自己的大模型,但依然让旗下的部分应用接入了 DeepSeek。其中,包括月活 跃用户量达 13.8 亿的微信,以及曾因广告收入受影响、对 AI 搜索存在顾虑的百度。 除了互联网大厂,吉利、一汽大众等几十家车企、华为等主流手机厂商、三大电信运营商,也都在短时间 内完成了接入。甚至有些银行、券商、公募基金,以及国内部分地区的各类政府部门,也加入了这个行 列。比如,有些银行把 DeepSeek 应用到了面向用户的智能客服上。深圳、广州、呼和浩特、无锡等地的政 府,也宣布在政务系统中接入了 DeepSeek 模型,希望提升政务办公效率和群众办事体验。 那么,从汽车品牌到券商甚至政府,为什么大家纷纷都想要接入 DeepSeek? ▲ 近日,吉利汽车正式官宣其自研大模型与 DeepSeek 已完成深度融合。| 图源:吉利汽车集团微信公众号 财新的报道指出,腾讯等大厂积极接入 Deep ...
砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术
量子位· 2025-03-12 11:59
突破大模型训练算力瓶颈 数据生产是训练大模型 (LLM) 过程中的一大难题,尤其是算力成本的快速攀升给研究和应用带来了巨大挑战。 传统方法在让模型学会推理时,通常采用生成大量候选解,然后从中筛选出正确的推理路径进行训练的方式。 这种策略看似直接,但实际操作中却面临诸多困难。 以数学解题为例,上述方法通常需要为每道题目生成16个候选解,再从中筛选出正确的完整推理链。 这种方式对算力的需求极大——每次训练迭代,模型需要进行数十次采样,GPU算力消耗呈现快速增长的趋势。 单次数据生产可能消耗数百万token的算力资源,而当题目难度增加时,所需的采样量和算力开销还会进一步提升。 这种高成本的训练方式,不仅效率较低,也成为技术落地的一大障碍。 在小规模实验中,这种方法尚可勉强支撑,但若面对百万级题库,算力成本的压力将变得难以承受。 研究团队发现,与其让模型进行大量盲目采样,不如将重点放在 识别真正重要的正确推理信号 上。 这种更有针对性的策略不仅能够提升效率,还能显著降低算力开销。接下来,我们将进一步探讨他们的核心发现和解决方案。 腾讯AI Lab 投稿 量子位 | 公众号 QbitAI 只要微调模型生成的前8-32个 ...
英伟达,暴跌20%
半导体行业观察· 2025-03-12 09:17
文章核心观点 - 英伟达2025年开局不利股价下跌市值缩水,但业务仍表现强劲,更大挑战来自长期需求,竞争对手也在崛起,不过市场也存在对其GPU的需求 [1][3] 英伟达现状 - 2025年至今股价下跌超20%,市值与高峰期相比缩水近万亿美元 [1] - 第四季度收入较上年同期飙升78%,达393亿美元,得益于数据中心部门强劲表现 [1] - 截至文章撰写时,股价较2月26日公布财报时下跌14% [2] 长期需求挑战 - DeepSeek出现动摇算力堆积根基,2月微软取消美国部分数据中心租约或减少对该行业投资 [5] - 微软首席执行官称人工智能目前未创造太多有意义价值,其他客户可能有同样感受 [6] - 推理将成人工智能技术需求重要组成部分,投资者希望英伟达在专注推理的数据中心销售上超越对手 [6] - 摩根士丹利分析师估计未来几年美国数据中心超75%的电力和计算需求用于推理,转变存在很大不确定性 [7] - 巴克莱分析师预估未来两年前沿人工智能推理资本支出将超训练资本支出,从2025年的1226亿美元跃升至2026年的2082亿美元 [7] - 金融时报引述巴克莱数据预测,英伟达长远只能占据50%的推理计算份额,2028年竞争对手将面临近2000亿美元芯片支出 [8][9] 竞争对手情况 - Cerebras在推理领域频频发力,定位高速推理专家,其处理器运行AI模型比基于GPU的解决方案快10到70倍 [11] - Cerebras宣布扩展数据中心足迹,建立企业合作伙伴关系,将在北美和欧洲增加六个新AI数据中心,推理能力提高20倍,达每秒超4000万个tokens [11] - Cerebras认为推理会让过程变慢,其专用硬件可加速复杂AI工作负载,使用其产品成本降低且速度提高 [12][13] - Fractile、Groq、d - Matrix等初创公司及AMD、英特尔等推出更适合推理的芯片,Positron公司也将成为挑战者 [13] 其他影响因素 - 博通和Marvell等ASIC供应商为亚马逊、Meta和谷歌等公司提供支持,使其有机会叫板英伟达 [14] - 特朗普的关税政策及出口限制给英伟达带来新风险 [15] - 甲骨文订单积压金额达1300亿美元,显示GPU需求巨大 [15] - 埃隆·马斯克的xAI购买土地建设数据中心,计划增加GPU数量 [15]
英伟达,又一个对手
半导体芯闻· 2025-03-11 18:38
文章核心观点 中国初创公司DeepSeek推动AI计算需求变化,推理预计在AI计算需求中占比更大,英伟达竞争对手借此挑战其在人工智能芯片领域主导地位,虽英伟达强调芯片在推理计算方面强大且有优势,但推理领域市场竞争激烈且存在不确定性 [1][2][3] 分组1:AI计算需求变化 - DeepSeek的R1等推理模型在推理过程消耗计算资源更多,颠覆AI计算需求重心,推理预计在AI计算需求中占比更大 [1] - 摩根士丹利分析师预计未来几年美国数据中心超75%算力和电力需求用于推理计算,若AI使用需求保持增长,未来几年推理计算投资或达数千亿美元 [3] - 巴克莱分析师估计未来两年前沿AI推理资本支出将超训练资本支出,从2025年1226亿美元增至2026年2082亿美元 [3] 分组2:英伟达竞争对手挑战 - Cerebras、Groq等AI芯片初创公司及谷歌、亚马逊等大型科技公司定制加速器集中精力挑战英伟达 [1] - 推理任务计算方式为英伟达GPU以外替代方案打开大门,Cerebras芯片被用于加速聊天机器人推理计算 [6] 分组3:英伟达应对与优势 - 英伟达首席执行官强调公司芯片在推理计算方面与训练一样强大,将其视为新市场机遇,最新Blackwell芯片针对推理优化 [4] - 英伟达CUDA架构受AI开发者欢迎,形成强大壁垒,其推理性能过去两年提升200倍,全球数亿用户通过数百万块英伟达GPU访问AI产品 [4][6] 分组4:推理计算成本与风险 - 过去两年大语言模型推理成本大幅下降,每12个月相同级别的AI使用成本下降10倍 [4] - DeepSeek凭借架构创新和代码优化进一步降低推理成本 [5] - 推理加速器需针对特定AI模型优化,芯片初创公司押错AI架构方向可能面临巨大风险 [7]
DeepSeek后更大的机遇:AI端侧推理创新 | 智在终端
量子位· 2025-03-11 13:24
行业趋势 - AI正在进入推理创新时代,高通提出混合AI概念,强调AI处理需分布在云侧和终端以实现规模化扩展[5][7] - 一次AI问答成本是传统搜索的1000倍,混合AI架构通过终端协同算力降低云端成本[7] - 2024年发布的大规模AI模型中超过75%参数在千亿规模以下,模型参数规模快速缩小[17][19] 技术突破 - DeepSeek-R1通过思维链推理数据微调和蒸馏实现推理能力赋予小规模稠密模型[12][13] - 蒸馏技术使大模型知识迁移到小模型,DeepSeek蒸馏版本在GPQA基准测试中与GPT-4o等先进模型表现相当[18][19] - 高通第三代骁龙8、骁龙X Elite等平台强化终端芯片对生成式AI的支持,衍生出AI一键消除路人等原生应用[8][35] 终端应用 - 荣耀、OPPO、小米等主流消费终端厂及吉利、比亚迪等超过20家车企快速接入DeepSeek[2][4] - 终端侧AI应用渗透日常用机习惯,如文档摘要、AI图像编辑、实时翻译及计算摄影[20][21] - AI成为新UI,荣耀"一句话点咖啡"等案例颠覆传统屏幕交互,未来将扩展至机器人、无人机等设备[22][23][24] 高通布局 - 高通2023年提出AI处理需云端与终端协同,终端能力、隐私需求及商业模式为关键影响因素[28][29][30] - 骁龙8至尊版Hexagon NPU支持70+ Tokens/秒生成能力,骁龙X系列平台定义AI PC新品类[35][37] - 高通AI软件栈及开发者生态支持跨平台部署,覆盖手机、汽车、XR等数十亿终端设备[41][42]
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 13:24
多图数学推理新基准MV-MATH - 中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力 [1][4][5] - MV-MATH包含2009个高质量数学问题,涵盖K-12教育场景中的真实问题,分为选择题、填空题和多步问答题三种类型,覆盖11个数学领域和三个难度级别 [7][8] - 数据集特点包括多视觉场景(每个问题包含2-8个图片)、丰富的标注(至少两名标注者交叉验证)、多样化的数学领域(11个领域)和首次引入的图像关联性特征标签 [12][13][15][16] 数据集统计与分布 - 总问题数2009个,其中选择题1109个,填空题900个(单步800个,多步100个),测试集200个问题 [9] - 难度分布为简单27%、中等48%、困难25%,图像数量分布为2图48.73%、3图15.53%、4图22.55%、5图及以上13.39% [9] - 图像关联性分为相互依赖集(1412个问题)和独立集(597个问题),问题长度最短14个字符,最长383个字符,平均80.17个字符 [9][17] 模型评估结果 - 评估24个主流开源和闭源多模态大模型,表现最好的Claude-3.5整体准确率33.9%,远低于人类水平76.5% [21][22] - 其他表现较好的模型包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%),开源模型LLaVA-OneVision-Chat-72B准确率26.2% [21][22] - 模型在不同领域表现差异显著,Claude-3.5在算术领域准确率54.2%,但在组合几何领域仅为27.0% [24][25] 细粒度分析 - 难度级别分析显示GPT-4o在简单问题上准确率最高(40.3%),Claude-3.5在中等难度问题上最高(37.5%),困难问题上所有模型表现大幅下降(Claude-3.5仅26.6%) [27] - 图像关联性分析表明绝大多数模型在相互依赖图像子集(MD)上性能低于独立图像子集(ID),Gemini-1.5-pro差距最大(7.8%) [29][30] - 图像输入方式分析显示图像序列输入表现优于合并输入,保留图像位置和顺序信息对多图推理至关重要 [30][31] 研究意义与展望 - 研究证实MLLM在复杂多视觉感知与图像交叉理解上存在困难,多图数学推理有极大改进空间 [33] - 研究旨在推动多图数学推理发展,为视觉大模型的慢推理范式提供参考 [32][33]
速递|与微软再对弈,OpenAI向CoreWeave注资120亿美元
Z Potentials· 2025-03-11 11:27
OpenAI与CoreWeave的战略合作 - OpenAI与CoreWeave签署五年期协议,价值119亿美元,涉及3.5亿美元股权获取 [1] - CoreWeave为OpenAI提供AI专用云服务,拥有32个数据中心和超25万台NVIDIA GPU [2] - 交易助力CoreWeave缓解IPO前对单一客户(微软)依赖的担忧,微软2024年贡献其62%收入(19亿美元) [2] CoreWeave的财务与业务动态 - CoreWeave 2024年收入达19亿美元,较2023年2.289亿美元增长近8倍 [2] - 公司计划通过IPO筹集40亿美元,部分资金用于偿还79亿美元债务 [6] - 创始团队已套现4.88亿美元股票,每人获利超1.5亿美元 [6] 微软与OpenAI的竞争关系 - OpenAI通过合作CoreWeave减少对微软云服务的依赖,微软原为其唯一云提供商 [5] - 微软开发自有AI推理模型MAI,与OpenAI产品直接竞争,并聘请竞争对手Mustafa Suleyman [5] - 双方在企业客户市场存在竞争,OpenAI拟推出高价AI代理加剧紧张 [4] CoreWeave的行业背景 - 公司由加密货币挖矿转型,现专注AI云服务,获NVIDIA 6%持股支持 [2] - 已部署NVIDIA Blackwell等最新GPU,强化AI推理能力 [2] - 业务扩张与债务高企并存,IPO成败或影响其偿债能力 [6]