AI训练

搜索文档
RTX5090目前的市场行情
傅里叶的猫· 2025-06-08 20:28
售价 - RTX5090发布时预期售价高达4万元以上 但4个月后价格已跌至2万元出头 部分电商平台同德品牌低至2.3万元 [2] - 价格快速下滑原因包括芯片过热问题影响消费者信心 多卡组网性能瓶颈传闻降低企业采购意愿 厂商初期大幅抬价导致需求不及预期 RTX4090改装48GB版本更具性价比 [2] 租金 - 初期售价高昂导致租赁市场发展缓慢 5月份价格回落后部分机房开始上架RTX5090机型 [3] - 8卡整机扣除机柜租赁费和电费后投资回本周期约4年 对AI企业而言周期较长 [3] - 单卡租赁价格约1万元/年 8卡整机配置价格约30万元 [6] 算力 - FP16精度算力单卡419 TFLOPS 8卡整机约3.4 PFLOPS 300张可组成PFLOPS级算力集群 [4] - 在大型语言模型训练 推理及高性能计算任务中具备显著优势 但需依赖软件优化和组网效率 [4] 功耗 - 额定功耗575W 峰值功耗瞬间高达900W 8卡整机功耗约6kW [7] - 按每千瓦时电费0.6元计算 8卡整机每月电费约3600元 高功耗增加运营成本并对机房散热供电系统提出更高要求 [7] 性能 - 支持FP8/FP4低精度运算 显著提升AI推理效率 与RTX4090相比推理速度快约50% [8] - 4K分辨率下游戏平均帧率显著优于4090 但性能优势发挥需针对性优化 [8] 发热 - 发热问题集中在芯片和12V-2x6电源连接器 出现过热和熔化现象 发生概率较低但需关注 [9] - 缓解措施包括限制瞬间功率 采用液冷或涡轮风扇 使用原厂电源连接线 [9] 组网 - 早期多卡组网锁卡或性能瓶颈传闻源于驱动不成熟 随着驱动更新问题已基本解决 [11] - NVLink和PCIe组网表现稳定 适合构建高性能AI集群 [11]
【马斯克:将于今年晚些时候上线Dojo 2】马斯克表示,Tesla Dojo AI训练计算机正在取得进展。我们将于今年晚些时候上线Dojo 2。一项新技术需要经历三次重大迭代才能走向卓越。Dojo 2已经很好了,但Dojo 3一定会更出色。
快讯· 2025-06-06 02:29
【马斯克:将于今年晚些时候上线Dojo 2】马斯克表示,Tesla Dojo AI训练计算机正在取得进展。我们 将于今年晚些时候上线Dojo 2。一项新技术需要经历三次重大迭代才能走向卓越。Dojo 2已经很好了, 但Dojo 3一定会更出色。 ...
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻· 2025-06-04 19:01
最近,华为在MoE训练系统方面,给出了MoE训练算子和内存优化新方案:三大核心算子全面 提速,系统吞吐再提20%,Selective R/S实现内存节省70%。 在通往更强大的 AI 路上, MoE 已成为科技巨头另一个首选路径。 只要 Scaling Law 没有失效,大模型的参数规模依旧不断扩大,由此 AI 智能水平才能不断攀升。 凭借独特的架构设计, MoE 正以前所未有的参数规模,成为突破大规模模型训练的算力瓶颈的关键 路径之一。 然而,如何将 MoE 潜力真正转化为高效的训练实践,一直是业界探索的难题。 此前,华为曾通过 Adaptive Pipe&EDPB 框架,实现了集群级高效分布式计算,让通信和计算能完 美并行,提高训练集群效率。 本次,华为通过昇腾与鲲鹏算力的深度协同,进一步实现了训练算子计算效率和内存利用率大幅提 升。 他们从单节点视角出发,深入到NPU和CPU内部,对算子计算、下发、训练内存使用等进行细粒 度拆解。 令人惊喜的是,结果显示, MOE 训练在之前的基础上,吞吐又提升了 20% ,内存占用降低了 70% 。 首先,硬件核心计算单元,如 Cube 利用率不足,存在冗余操作和可优 ...
芯片新贵,集体转向
半导体芯闻· 2025-05-12 18:08
如果您希望可以时常见面,欢迎标星收藏哦~ 在AI芯片这个波澜壮阔的竞技场上,一度被奉为"技术圣杯"的大规模训练,如今正悄然让位于更 低调、但更现实的推理市场。 Nvidia依然在训练芯片市场一骑绝尘,Cerebras则继续孤注一掷地打造超大规模计算平台。但其他 曾在训练芯片上争得面红耳赤的玩家——Graphcore、英特尔Gaudi、SambaNova等——正在悄悄 转向另一个战场:AI推理。 这一趋势,并非偶然。 AI训练作为一个重资本、重算力、重软件生态的产业,Nvidia的CUDA工具链、成熟的GPU生态 与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而Cerebras虽然另辟蹊径,推出了 超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。 在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。"训练芯片的市场不是大多数玩家的 竞技场",AI基础设施创业者坦言,"光是拿到一张大模型训练订单,就意味着你需要烧掉数千万 美元——而且你未必赢。" 规模并行结构适合处理这类不规则数据结构。 在应用领域,IPU在化学材料和医疗领域表现突出,曾被用于冠状病毒研究。2020年,微软的 Sujee ...
芯片新贵,集体转向
半导体行业观察· 2025-05-10 10:53
AI芯片行业趋势 - AI芯片行业正从大规模训练市场转向更具现实落地潜力的推理市场,Nvidia在训练市场占据绝对主导地位,而其他公司如Graphcore、英特尔Gaudi等纷纷转向推理领域 [1] - 训练市场门槛极高,需要重资本、重算力和成熟的软件生态,新晋企业难以与Nvidia竞争,推理市场则更易规模化和商业化 [1][4] - 推理市场的优势在于内存和网络需求较低,适合初创企业切入,而Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink技术 [21][22] Graphcore转型 - Graphcore曾专注于训练芯片IPU,其Colosual MK2 GC200 IPU采用台积电7nm制程,性能接近Nvidia A100,2020年估值达28亿美元 [4] - IPU在稀疏数据处理(如分子研究)和医疗领域表现突出,微软曾用于新冠X光片识别,速度比传统芯片快10倍 [5] - 由于训练市场竞争失败,Graphcore被软银收购后转向推理市场,推出轻量级推理方案,聚焦金融、医疗和政府场景 [5][6] 英特尔Gaudi策略调整 - 英特尔2019年以20亿美元收购Habana Labs,Gaudi2采用7nm制程,吞吐量性能比Nvidia A100高2倍 [7] - 内部管理混乱导致Gaudi市场表现不佳,2023年转向"训练+推理并重",Gaudi3强调推理性价比,成本优势达30% [9][10] - 英特尔终止Falcon Shores开发,Gaudi3现面向企业私有化部署,如语义搜索和客服机器人 [10][11] Groq技术定位 - Groq创始人曾参与Google TPU开发,其LPU架构采用确定性设计,专注低延迟推理,适合大模型推理任务 [13] - 2024年展示Llama 2-70B模型推理速度达300 token/秒,吸引金融、军事等延迟敏感领域客户 [15] - Groq转型推理即服务(Inference-as-a-Service),通过GroqCloud平台提供API,与LangChain等生态集成 [16] SambaNova业务转向 - SambaNova的RDU芯片曾主打训练优势,但2022年后转向推理即服务,推出企业AI系统SambaNova Suite [17][19] - 聚焦金融、政府等私有化部署需求,提供合规化推理解决方案,与拉美金融机构和欧洲能源公司合作 [20][21] - 2024年裁员15%,完全放弃训练市场,专注推理商业化 [19] 技术对比与市场逻辑 - 训练芯片需复杂内存层级(HBM/DDR)和全互联网络,Nvidia凭借CUDA生态和硬件优化占据绝对优势 [21][22] - 推理芯片门槛较低,初创企业可通过垂直场景(如医疗、金融)或技术差异化(如Groq的低延迟)竞争 [23] - 行业进入"真实世界"阶段,竞争焦点从算力转向成本、部署和维护便利性 [23]
速递|OpenAI首投机构再出手!Khosla1750万美元押注“轻量化AI”Fastino,AI训练平民化
Z Potentials· 2025-05-08 13:33
图片来源: Fastino 科技巨头常吹嘘需要庞大昂贵 GPU 集群的万亿参数 AI 模型,但 Fastino 正采取截然不同的策略 这家位于帕洛阿尔托初创公司称,他们发明了一种新型 AI 模型架构,专为小型化和特定任务设计。 其模型小到仅需总值不足 10 万美元的低端游戏显卡即可完成训练。 该方法正引发关注。 Fastino 透露,已获得由 Khosla Ventures 领投的 1750 万美元种子轮融资,该风 投机构正是 OpenAI 的首个风险投资人。 这使得该初创公司的总融资额接近 2500 万美元。去年 11 月,它曾由微软风投部门 M12 和 Insight Partners 领投,在一轮预种子融资中筹集了 700 万美元。 "我们的模型速度更快、准确性更高,训练成本仅为旗舰模型的一小部分,同时在特定任务上表现优 于它们," Fastino 的CEO兼联合创始人 Ash Lewis 表示。 Fastino 开发了一套小型模型,销售给企业客户。每个模型专注于公司可能需要的特定任务,如敏感 数据脱敏或企业文档摘要。 Fastino 尚未透露早期指标或用户情况,但表示其性能已令早期用户惊叹。例如, L ...
Sambanova裁员,放弃训练芯片
半导体行业观察· 2025-05-06 08:57
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:本文编译自zach,谢谢。 四月下旬,资金最雄厚的AI芯片初创公司之一SambaNova Systems大幅偏离了最初的目标。与许 多其他AI芯片初创公司一样,SambaNova最初希望为训练和推理提供统一的架构。但从今年开 始,他们放弃了训练的雄心,裁掉了15%的员工,并将全部精力放在AI推理上。而且,他们并非 第一家做出这种转变的公司。 2017 年,Groq 还在吹嘘他们的训练性能,但到了2022 年,他们完全专注于推理基准。Cerebras CS-1 最初主要用于训练工作负载,但CS-2 和后来的版本将重点转向了推理。SambaNova 似乎是 第一代 AI 芯片初创公司中最后一个仍然认真专注于训练的公司,但这种情况终于发生了变化。那 么,为什么所有这些初创公司都从训练转向了推理呢?幸运的是,作为 SambaNova 的前员工(指 代本文作者zach,该作者自称 2019 年至 2021 年期间在 SambaNova Systems 工作),我(指代 本文作者zach,下同)有一些内部人士的见解。 SambaNova 非常重视在其硬件上训练模型。他们发布 ...
速递|OpenAI的图像生成或审查松绑,从“拒绝”到“中性语境”的平衡
Z Potentials· 2025-03-29 11:57
OpenAI图像生成器更新 - 推出新的图像生成器 能创作吉卜力工作室风格的图像 迅速走红 [2] - GPT-4o原生图像生成器大幅提升ChatGPT功能 优化图片编辑、文本渲染和空间表现能力 [2] 内容审核政策调整 - 允许生成描绘公众人物、仇恨符号及种族特征的图像 此前因争议性拒绝此类提示 [3][4] - 从一刀切拒绝转向更精准策略 重点防止现实世界的伤害 为用户提供选择退出选项 [4] - 允许在"教育或中性语境"下生成仇恨符号 只要不明确赞扬或支持极端主义议程 [5] - 调整对"冒犯性"内容的界定标准 过去拒绝涉及身体特征的请求 现在能模仿创意工作室风格但仍限制模仿在世艺术家个人风格 [5] 政策调整背景与影响 - 调整是OpenAI更大计划的一部分 旨在解除ChatGPT的审查限制 让ChatGPT能够处理更多请求、提供多元观点 [4] - 可能重新引发关于AI训练数据集中版权作品合理使用范围的争议 [6] - 仍会拒绝大量敏感查询 在生成儿童图像方面比DALL-E 3设置更多防护措施 [6] - 硅谷公司因AI"审查"饱受保守派诟病 谷歌Gemini的AI图像生成器曾因生成不准确的多种族图像引发争议 [6] - 共和党众议员吉姆·乔丹质疑科技巨头是否与拜登政府合谋审查AI生成的内容 [6] - OpenAI否认调整出于政治动机 称反映"长期坚持的赋予用户更多控制权的理念" [6] 潜在风险与行业趋势 - 鉴于特朗普政府可能加强监管审查 调整政策是明智之举 Meta和X等硅谷巨头也已采取类似策略 [7] - 政策更广泛的影响尚不明确 可能迎合特朗普政府 但也可能让OpenAI陷入麻烦 [7]
黄金时代即将结束,英伟达股价即将迎来大幅下跌
美股研究社· 2025-03-26 20:45
作 者 | Hunter Wolf Research 编译 | 华尔街大事件 越来越多的证据表明,AI 训练并不一定依赖于高端 GPU,这可能会减缓 英伟达( NASDAQ: NVDA ) 未 来的增长。 英伟达 的数据中心业务经历了强劲增长,这得益于 Hyperscaler 客户对 AI 训练的大量 GPU 需求。 数据中心业务的收入在 2024 财年和 2025 财年分别增长了 216% 和 142%。 | | 2022 | 2023 | 2024 | 2025 | | --- | --- | --- | --- | --- | | Revenue Growth Rate | 61.4% | 0.2% 125.9% 114.2% | | | | Data Center | 58.5% | 41.4% 216.7% 142.4% | | | | Gaming | 60.6% | -27.2% | 15.2% | 9.1% | | Professional Visualization | 100.5% | -26.9% | 0.6% | 22.3% | | Automotive | 5.6% | 59.5% ...
解读英伟达的最新GPU路线图
半导体行业观察· 2025-03-20 09:19
如果您希望可以时常见面,欢迎标星收藏哦~ Nvidia 在很大程度上拥有 AI 训练,并且如今在 AI 推理方面占有很大的份额,尤其是基础和推理 模型。所以你可能会认为路线图上没有具体信息。但 Nvidia 也让世界上很多人想知道对 AI 计算的 需求是否最终会减弱,或者至少会用更便宜的替代品来满足。此外,作为其最大客户的所有超大规 模和云构建者也在构建自己的 CPU 和 AI 加速器;公开的路线图是为了提醒他们 Nvidia 致力于构 建比他们更好的系统——并让我们都知道,这样我们就可以跟踪谁在实现他们的里程碑,谁没有。 Nvidia 的路线图非常宏大,它拥有 GPU、CPU、纵向扩展网络(用于跨 GPU 和有时 CPU 共享内 存的内存原子互连)和横向扩展网络(用于更松散地将共享内存系统相互连接)。它还有 DPU,即 具有本地化 CPU 和有时 GPU 处理的高级 NIC,以下路线图中未显示这些产品: Quantum 系列 InfiniBand 交换机的容量增长也同样不尽如人意,也没有入选。对于人工智能领域来 说,InfiniBand 的重要性越来越低,因为人工智能领域希望能够进一步扩展,而基于 Infi ...