Workflow
Reinforcement Learning
icon
搜索文档
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 20:07
核心观点 - 互联网是推动人工智能进步的核心技术,而非Transformer等模型架构,互联网提供了海量、多样化的数据,是next-token预测的完美补充 [1][5][55] - 自GPT-4以来,基础模型能力未显著提升,优化模型结构或手工制作数据集难以带来质的飞跃,研究者应转向互联网数据研究而非RL [1][13][16] - 互联网具备四大关键特性:数据多样性、自然学习路径、产品市场契合度、经济可行性,这些特性使其成为AI训练的终极数据源 [54][60] Transformers的局限性 - Transformer架构并非AI进步的关键,自GPT-4后更好的架构(如SSMs、Mamba)未带来显著性能提升,因当前范式已转向数据受限时代 [11][13][14] - 若无互联网,仅依赖书籍或教科书训练模型会导致知识面狭窄,如phi模型虽在小规模任务表现优异,但世界知识储备和创造性不足 [28][30][31] - 数据质量与数量之争:教科书代表高质量但窄领域数据,互联网则提供行星级规模的自然数据分布,后者更利于模型泛化能力 [23][24][28] 互联网作为AI训练基石的四大优势 数据多样性 - 互联网包含多语言、多文化、多视角数据,去中心化结构保障了数据多样性,删除特定数据会导致模型认知版图缺失 [36][43][52] - 对齐研究显示,预训练需同时接触对齐与非对齐数据(如4chan有毒数据),模型才能理解边界,纯净化数据反而损害性能 [37][38][39] 自然学习路径 - 互联网数据天然形成难度梯度(如从Khan Academy到arXiv),为模型提供渐进式学习课程,避免手动设计数据集的低效 [43][44][47] - RL依赖密集课程学习,互联网用户贡献行为(如点赞、创作)自发形成类似AlphaZero自我博弈的进化压力 [44][46][47] 产品与研究的协同 - 互联网用户真实需求驱动数据生产,与研究者手动策划数据集存在本质差异,决定模型能力的应是用户而非研究者 [48][51][52] - AGI应记录人类完整文化演变(如Wikipedia、GitHub、社交媒体),而非理想化片段,模型偏差反映的是真实人类认知偏差 [52][53] 经济可行性 - 互联网低成本特性使其规模化成为可能,高昂订阅费会抑制用户数据贡献,经济可行性是数据扩展的前提条件 [51][54][60] RL与next-token预测的对偶性 - next-token预测与互联网存在隐喻性对偶关系(如序列数据对应HTML文件,推理成本对应经济可行性),RL尚未找到类似对偶 [55][57] - RL当前数据源(人类偏好、可验证奖励)存在噪声大、领域窄等问题,需探索如机器人学、推荐系统等新场景,但均面临规模化挑战 [61][62][63] - 用RL优化困惑度是方向性错误,应寻找全新数据源而非改造旧目标,RL流形(对偶系统)的发现将是重大突破 [58][65][67]
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 12:26
大模型后训练阶段的奖励建模方法 - 强化学习是大模型后训练阶段提升能力、对齐人类偏好的核心方法,但奖励模型的设计与训练是关键瓶颈 [2] - 主流奖励建模方法包括"基于偏好的奖励建模"和"基于规则的验证",前者存在数据获取成本高、泛化能力有限问题,后者难以扩展到通用场景 [3] - 需要一种扩展方便、泛化性强、场景通用的奖励建模方案,类似大语言模型通过Next Token Prediction统一任务的思路 [4] POLAR奖励模型的核心创新 - POLAR采用策略判别学习(Policy Discriminative Learning)方法,通过衡量候选策略与最优策略之间的"距离"建立奖励信号,摆脱对绝对偏好的依赖 [8][9] - 利用对比学习建模策略分布差异,同一策略生成的轨迹作为正例,不同策略生成的轨迹作为负例 [10] - 预训练阶段完全使用自动化合成数据构建,POLAR-1.8B和POLAR-7B分别使用0.94T和3.6T Token数据 [14] POLAR的训练与应用效果 - 两阶段训练:预训练阶段使用Bradley-Terry Loss学习策略差异,微调阶段使用少量偏好数据对齐人类偏好 [14][15] - 在STEM任务中,POLAR-1.8B和POLAR-7B分别超越最佳基线24.9和26.2个百分点 [33] - 使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0%,相比WorldPM-72B-UltraFeedback优化结果提升6.7% [34] POLAR的技术优势与潜力 - 展现出与LLM类似的Scaling Laws,验证集损失随模型参数和计算量增加呈幂律关系下降 [35] - 1.8B参数的POLAR即可取得与15倍和40倍参数量的SOTA模型相当结果,显示强大潜力 [33] - 为通用RFT提供有效实践方案,有望打通RL链路扩展的最后一环 [37]
两个华人 AI 分别融了数千万美金:创始人都来自 Meta
投资实习所· 2025-07-09 13:42
华人AI团队融资与产品创新 - Pokee AI完成1200万美元种子轮融资 由Point72 Ventures领投 高通、三星、锦秋基金等跟投 融资额度超额认购3倍 [1] - 创始人Bill Zhu为Meta AI前应用强化学习组负责人 斯坦福大学强化学习博士 团队核心成员均来自Meta [1][11] - 公司愿景是实现任何在线工作流程的自动化 通过AI功能集成到现有工具中 覆盖文本/图像/视频/代码生成编辑等场景 [1] 技术路径与产品定位 - 采用强化学习(RL)而非主流LLM技术 解决"执行问题"而非"生成问题" 在工具选择中准确率超97% [6][11] - 通过与环境交互学习 适应复杂网络环境 类比国际象棋自我对弈模式 持续优化决策能力 [11] - 产品定位企业级B端市场 集成Google Workspace/Meta平台/LinkedIn等30+工具 实现跨平台自动化操作 [2][3] 核心应用场景 - 三大核心场景:AI+生产力(Productivity) AI+社交媒体营销(Social Media) AI+研究与工程(Research&Engineering) [9] - 典型案例:社交媒体营销全流程自动化 包括内容创作/媒体增强/跨平台发布/效果监控 [7] - 解决企业工作流痛点 自动化重复性任务 降低用户学习迁移成本 提升操作效率 [3][8] 行业趋势与竞争格局 - 企业工作流程自动化成为行业焦点 Pokee AI尝试覆盖更广泛场景而非单点突破 [11] - 华人AI团队持续涌现 另一Meta前VP创立的B端AI产品已获多轮融资 被财富500强企业采用 [12] - 行业呈现高速发展态势 多个华人AI项目融资额超千万美元 部分企业ARR已达百万量级 [15]
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 23:45
纪要涉及的公司和行业 - **公司**:DeepSeek、OpenAI、Anthropic、Google、Microsoft、Amazon、Parasail、Friendli、Lambda、Nebius、Cursor、Oracle、Huawei、AMD、NVDA等 [4][22][24][29][30] - **行业**:人工智能(AI)行业,特别是大语言模型(LLM)领域 [4] 纪要提到的核心观点和论据 DeepSeek相关 - **核心观点**:DeepSeek R1发布后虽有影响,但自身服务市场份额下降,原因在于其在tokenomics上的权衡导致用户体验不佳 [8][13][21] - **论据** - **价格与延迟**:DeepSeek虽产品价格便宜,但用户需等待数秒模式才响应首个token,相比其他提供商延迟高,如Parasail、Friendli等可提供低延迟服务,微软Azure价格高但延迟低25s,且多数R1 0528实例现以低于5秒延迟托管 [22] - **上下文窗口**:DeepSeek运行K上下文窗口,是主要模型提供商中最小的之一,限制了如编码等需要大上下文窗口的用例,而相同价格下其他提供商如Lambda和Nebius可提供2.5倍上下文大小 [24] - **市场份额变化**:发布后消费者应用流量激增,但未跟上其他AI应用增长,自身网络应用和API服务市场份额下降,而第三方托管实例使用量近20倍增长,自身总token份额每月下降 [8][9][10][13] - **持续发展**:R1发布后持续扩展强化学习(RL),在许多领域尤其是编码方面有所改进,推理模型不断快速改进且更有效、更实惠 [5][7] Anthropic相关 - **核心观点**:Anthropic在编码应用方面成功,但受计算资源限制,不过用户体验优于DeepSeek [29][32][41] - **论据** - **编码应用成功**:Anthropic专注代码产品开发,其Claude Code使用量激增,超过OpenAI的Codex,Google也推出类似工具Gemini CL [29][30] - **计算资源压力**:Claude的输出速度在API上下降30%至略高于5 tokens每秒,因需处理大量请求且编码使用倾向大token数对话,相比之下OpenAI和Google的模型速度更快 [33] - **用户体验优势**:速度虽低但快于DeepSeek的2.5 tokens每秒,且回答问题所需token数远少于其他模型,端到端响应时间更低,Claude在领先推理模型中总输出token数最少 [41][42] 市场动态相关 - **核心观点**:AI市场竞争激烈,各公司在计算资源、价格、性能等方面竞争,开源模型有发展潜力,速度可通过其他因素补偿 [44][47][40] - **论据** - **价格竞争**:DeepSeek低价冲击市场后,OpenAI旗舰模型价格下降80%,其6月对GPT - 4 API定价大幅削减,缩小与R1的价格/性能差距 [4][53] - **计算资源投入**:Amazon大规模建设AI集群,投资数十亿美元用于Trainium AI集群,Anthropic将获得超50万个Trainium芯片用于推理和训练,Anthropic还从Google GCP租用大量计算资源,Google云也向其他AI公司扩展服务 [37][38][39] - **开源模型潜力**:廉价计算资源的可用性和软硬件的快速创新将推动开源模型发展,如DeepSeek R1在编码性能上不断改进,对采用有积极影响 [47] 其他重要但是可能被忽略的内容 - DeepSeek将研发团队从杭州迁至北京,运营人员翻倍以应对媒体请求,虽有R2延迟传言,但并非因出口管制导致训练延迟,且其仍保持快速招聘速度,还为华为盘古模型提供技术支持 [54][55][56] - 推理云兴起,越来越多公司效仿Anthropic以服务形式销售token,而非像ChatGPT那样以月度订阅形式捆绑销售 [44]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 17:20
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业 使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 提供高保真、高效率的机器人训练环境 支持高度并行化计算 可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走 再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一:构建六自由度机械臂模型 实现正逆运动学求解和PID控制 [15][16] - 项目二:为机械臂添加视觉感知能力 实现基于视觉的物体检测和抓取 [17][18] - 项目三:训练智能体学会复杂运动技能 如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四:实现模型预测控制算法 进行实时轨迹优化 [21][22][23] - 项目五:设计多机器人协作系统 共同完成复杂任务 [24][25] - 项目六:通过域随机化技术实现Sim-to-Real迁移 在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能 能够构建复杂机器人仿真环境 实现高保真物理交互 [29] - 深入理解强化学习核心算法 掌握机器人控制理论和实践技巧 实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验 熟悉现代AI开发工具链 培养良好工程习惯 [31] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 [33] - 产品经理方向:年薪30-80万 有机会发展为技术总监或创业者 [33]
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 17:49
基础语言模型研究 - 上海创智学院与上海交通大学的研究论文揭示了Llama和Qwen基础语言模型在强化学习(RL)训练中的性能差异,并提出中期训练(mid-training)策略成功将Llama改造成高度适配RL的推理基础模型,显著缩小与Qwen的性能差距[1][7] - 研究团队通过大规模可控实验(每次训练20B tokens)发现数学语料质量、QA数据分布、指令数据注入和中期训练规模是影响RL效果的关键因素[14][16] - 论文提出的OctoThinker模型在数学推理基准测试中相比原始Llama实现10%-20%性能提升,例如1B模型在GSM8K从7.66提升至44.88,MATH500从4.60提升至27.80[31][32] 数据集开发 - 团队构建了MegaMath-Web-Pro-Max高质量数学语料库,规模达MegaMath-Web-Pro的5.5倍,通过Llama-3.1-70B-instruct标注和fasttext分类器筛选,选择0.4召回阈值平衡质量与数量[17][19][21][25] - 该数据集被MIT、EPFL等顶尖高校和Apple、Microsoft等企业广泛采用,显示学术界与工业界的高度重视[3] - 对比实验显示使用MegaMath-Web-Pro的模型RL性能明显优于FineMath-4plus,证实高质量语料对基础模型和RL训练的关键作用[22] 模型训练方法 - OctoThinker采用两阶段训练方案:第一阶段用200B tokens构建强推理基座(OctoThinker-Base-Stable),第二阶段通过20B tokens分支训练形成短链、长链和混合链三大专业化分支[27][29] - 分支训练采用学习率衰减策略(余弦衰减至初始10%),短链分支含30%竞赛短推理QA,长链分支含30%反思型长推理QA,混合分支平衡两者[27][29] - 3B规模的OctoThinker-Long-Zero经RL训练后性能媲美Qwen2.5-3B,证明该方法有效提升Llama的RL兼容性[35] 行业影响 - Meta AI科学家Wenting Zhao等专家高度评价该研究解决了mid-training中的关键谜题,Pleias AI Lab的独立实验验证了方法的普适性[2] - 开源模型和数据集在GitHub和HuggingFace发布,代码仓库和论文获得广泛关注[5] - 未来研究方向包括精炼数学语料库、开发无需蒸馏的RL友好型基础模型、拓展工具集成推理等新分支[38]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 22:29
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 通过结合语言理解与物理操作能力 实现从虚拟到现实的跨越[1] - 全球科技巨头如Tesla、Boston Dynamics、OpenAI、Google等均在布局具身智能领域 代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目[1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业 应用场景涵盖精密装配、手术协助、家庭服务及危险救援[1] MuJoCo技术核心价值 - MuJoCo作为物理仿真引擎 是连接虚拟与现实世界的关键桥梁 提供高保真高效率的机器人训练环境[4] - 解决传统机器人试错学习的高成本与低效问题 仿真速度可达现实时间的数百倍 支持极端环境下的无损训练[6] - 采用先进接触动力学算法 精确模拟机器人与环境交互 支持并行化计算、多模态传感器建模及长时间稳定仿真[6] - 已成为学术界与工业界标准工具 被ICRA、IROS、NeurIPS等顶级会议广泛采用 Google、OpenAI、DeepMind等公司均依赖其进行研究[8] 具身智能实战课程体系 - 课程设计六个递进式模块 每周聚焦特定技术目标 涵盖MuJoCo基础、强化学习、机器人控制、多智能体系统及Sim-to-Real迁移[13][16] - 包含六个实战项目:智能机械臂控制(六自由度模型与PID控制器)、视觉抓取系统(物体检测与光照模拟)、强化学习运动技能(抛接球/平衡控制)、自适应MPC控制、多机器人协作、Sim-to-Real迁移验证[19][21][23][25][27][29] - 采用PyTorch、Stable Baselines3等工具链 强调工程规范与调试技巧 项目均来自中国机器人企业实际应用场景[10][29] 技术能力与职业发展 - 学员将掌握MuJoCo仿真建模、强化学习算法设计、机器人控制理论及Sim-to-Real迁移等完整技术栈[32] - 职业路径包括机器人算法工程师(年薪30-150万)、AI研究工程师或仿真技术专家 产品经理方向年薪可达30-80万[35] - 课程采用离线视频教学与VIP群答疑模式 2025年7月15日开课 六周完成全部内容[37]
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 21:15
核心观点 - 高效混合架构设计结合MoE架构与Lightning Attention的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%[2] - 超越DAPO的算法CISPO通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速[2] - 可扩展上下文支持从40K到80K Token生成长度的扩展[2] 当前面临的挑战 - 计算精度偏移:训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布[4] - 长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题[5] - 奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制[5] 核心方法 - 混合注意力架构:采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度降低,每7层Lightning Attention后插入1层Softmax Attention[8] - CISPO算法:通过重要性采样权重裁剪保留所有token梯度,避免PPO/DAPO对关键低概率Token的奖励得分偏低[9][10][11] - 分阶段RL数据混合:从规则验证任务逐步过渡到通用领域任务,避免灾难性遗忘[13] - 持续预训练与SFT优化:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)[13] 性能表现 - AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5[14] - OpenAI-MRCR (128k)表现76.1,OpenAI-MRCR (1M)表现58.6[14] - TAU-bench (airline)表现60.0,TAU-bench (retail)表现67.8[14] 数据与训练 - 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%[13] - 监督微调:注入长链式思考模式,数学/编程数据占SFT数据的60%[13] - 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口[13]
Albion Technology & General VCT PLC: Interim Management Statement
Globenewswire· 2025-06-17 18:56
文章核心观点 公司发布2025年1月1日至3月31日的中期管理声明,涵盖业绩、募资、投资组合等方面情况 [2] 业绩表现 - 截至2025年3月31日,公司未经审计的净资产值为2.748亿英镑,每股73.51便士(不包括库存股),较2024年12月31日每股增加0.47便士,增幅0.6% [3] 募资情况 - 2025年1月6日开启新普通股的招股说明书追加发行认购申请,3月31日宣布已达到3000万英镑的发行上限(含1000万英镑超额配售权) [4] - 2025年3月21日发行2977.4402万股,发行价每股74.54 - 75.30便士,净收入2174.8万英镑 [4] - 2025年4月4日发行1010.0775万股,发行价每股75.30便士,净收入737.8万英镑 [10] 投资组合 新增投资 - 对Latent Technology Group等7家公司进行新投资,总计267万英镑 [5] 追加投资 - 对Mondra Global等5家公司进行追加投资,总计259万英镑 [5] 前十大持仓 - 截至2025年3月31日,前十大持仓包括Quantexa等公司,Quantexa持仓价值5.1401亿英镑,占净资产值18.7% [6] 股份回购 - 期间公司因处于禁售期未进行股份回购,董事会政策是在符合公司利益的情况下在市场回购股份,意图在市场条件和流动性允许时以较净资产值约5%的折扣进行回购 [8][9] 其他信息 - 可在公司网页获取历史和当前财务业绩及其他股东信息 [11]
NVIDIA (NVDA) Conference Transcript
2025-06-11 20:45
纪要涉及的公司 NVIDIA 纪要提到的核心观点和论据 1. **量子计算** - 核心观点:量子经典结合是发展方向,未来所有超级计算中心都会采用这种模式 [9][15] - 论据:量子计算机需连接GPU超级计算机进行控制和纠错,纠错方面的突破性工作意义重大;预计每五年逻辑量子比特数量增加10倍,五年后可能有20 - 100个逻辑量子比特,可用于早期生物分子或化学材料研究 [10][12] 2. **主权投资与欧洲市场** - 核心观点:欧洲主权AI建设将代表各国GDP,未来几年全球将有价值约1.5万亿美元的建设投入 [17][18] - 论据:欧洲信息技术产业相对美国较轻,但重工业更发达,机器人和工业数字双胞胎将有很大发展;欧洲有20个由政府支持的AI工厂正在建设,部分为超级工厂,主要用于本地消费 [16][17] 3. **物理AI模型** - 核心观点:物理AI模型与大语言模型不同,将是多模态的,能使机器人更易被中小企业使用 [19][23] - 论据:机器人可根据指令生成动作并进行推理,如将苹果放入抽屉的过程;欧洲多个国家有强大的机器人能力,但缺乏软件能力,物理AI模型可弥补这一不足 [20][21][22] 4. **市场供需与限制因素** - 核心观点:供应虽受限但仍在快速增长,终端市场受本地语言等因素限制 [30][33] - 论据:公司产品供应需提前预测,但不受关键组件限制;不同地区人们偏好使用母语与设备交互,需要针对当地语言训练大语言模型,每个模型微调约需一个月超级计算机工作时间 [30][33][35] 5. **AI模型评估与应用** - 核心观点:推理模型和智能体将不断改进,企业模型效果良好 [39][41] - 论据:推理模型能解决未见过的问题,智能体可从上下文受益;与ServiceNow、SAP和Cadence等合作的企业模型是狭义超级智能体,经过微调后能在特定工作中表现出色 [39][40][41] 6. **数据中心增长** - 核心观点:欧洲市场将成为NVIDIA数据中心业务增长的强大驱动力 [44] - 论据:欧洲大部分地区服务不足,当地云服务提供商有机会尽快部署最新技术,增量市场潜力大 [46][47] 7. **业务模式与机会** - 核心观点:后训练是重要机会,推理业务成功,边缘计算有四个主要应用场景 [49][53][56] - 论据:后训练通过强化学习和人类反馈进行,可用于编码和科学模拟等;NVIDIA是全球最大的推理平台;边缘计算的四个主要应用场景为自动驾驶汽车、机器人、设施和基站 [49][50][56] 8. **供应链与风险** - 核心观点:公司将在多个大洲进行制造,降低对台湾的依赖;华为在AI芯片制造方面有一定进展,但与公司存在差距 [64][67] - 论据:公司计划在美国建设价值50万亿美元的AI超级计算机,同时在韩国的三星也有部分组件制造;华为在AI芯片制造方面落后公司几年,但中国电力成本低,可通过增加芯片使用量弥补性能差距 [64][67][68] 9. **产品相关** - 核心观点:GB 300过渡顺利,NVLink有潜在机会,RTX Pro服务器市场机会巨大 [82][87][98] - 论据:GB 300按计划出现,过渡窗口更短,且包装未改变;很多人对使用NVLink感兴趣,公司正在打造相关生态系统;RTX Pro服务器可集成到传统企业IT组织,市场规模达数百亿美元 [82][89][98] 10. **产品使用寿命与财务** - 核心观点:产品的会计寿命由客户决定,但实际使用寿命可达五到七年;公司在追求增长的同时注重成本和价格平衡 [113][119] - 论据:过去两年Hopper性能提升了四倍,软件优化可在购买硅片后长期提高性能;公司从总拥有成本(TCO)价值角度确定价格,注重战略投资以推动平台全球增长 [114][119] 11. **AI包装与价值交付** - 核心观点:NIMS和NEMO是现代AI包装方式,有助于公司向客户交付价值 [126][128] - 论据:NIMS和NEMO将大量软件集成在一个容器中,类似AI盒子,方便客户使用;公司通过整合GPU、NVLink等系统,实现了40倍的性能提升,能向客户证明价值 [126][129][130] 其他重要但是可能被忽略的内容 1. 公司自动驾驶汽车业务年收入已达50亿美元 [56] 2. 公司从每年3040亿美元的中国业务降至零,但因全球需求强劲仍将继续增长 [70] 3. 很多ASIC项目可能会被取消,但部分人对使用NVLink感兴趣 [87][89] 4. RTX Pro服务器已投入生产 [103] 5. 主权AI建设是逐步进行的,基础设施建设已讨论一年多 [108][110]