Workflow
推理
icon
搜索文档
外网热议:为什么 DeepSeek 大规模部署成本低,但本地运行昂贵?
程序员的那些事· 2025-06-09 10:14
大规模AI模型部署与本地运行成本差异 - DeepSeek-V3等模型在大规模部署时成本低效率高,但本地运行时效率低下且昂贵,核心原因在于推理服务提供商采用批量处理机制优化GPU利用率[2] - 批量推理通过将多个用户请求的令牌堆叠成大型矩阵乘法(GEMM),显著提升GPU计算效率,比逐个处理令牌快10-100倍[3] - 推理服务器采用"收集窗口"机制(5-200毫秒)对请求进行排队批量处理,窗口越大吞吐量越高但延迟也相应增加[6] 专家混合模型(MoE)的特殊性 - MoE架构(如DeepSeek-V3)包含数百个独立专家模块,导致GPU需要进行大量小型矩阵乘法而非少量大型运算,效率低下[7] - MoE模型需要更大批量规模(4000请求/批次)才能使所有专家模块饱和运行,否则吞吐量急剧下降[7] - 专家并行性优势在于不同节点可存储不同专家模块,减少跨节点通信,但前提是具备足够多节点和显存容量[18] GPU计算与内存瓶颈 - GPU在大型GEMM运算上效率最高,但面临"屋顶线模型"限制——内存带宽成为瓶颈,每次加载1字节数据理论上可支持300次浮点运算[17] - 大批量处理的核心价值在于从内存加载每个参数时可执行更多操作,最大化内存带宽利用率[17] - 大型模型需多GPU管道处理,但会产生"管道气泡"问题,必须通过足够大的批量规模来避免,否则GPU利用率大幅降低[9] 行业技术发展趋势 - 超大规模LLM公司正开发负载均衡器、管道架构和调度器来优化计算轨迹,识别并消除计算瓶颈和空闲气泡[16] - 现有GPU虚拟化技术(vGPU/MIG)在批量处理场景下面临隔离成本高、配置不灵活等问题,制约高安全性应用发展[16] - 专家并行性成为MoE模型扩展关键,需确保所有专家模块常驻显存并最大化批量利用率[18]
博通公司20250606
2025-06-09 09:42
纪要涉及的行业和公司 行业:半导体、基础设施软件、AI 公司:博通(Broadcom) 纪要提到的核心观点和论据 - **2025财年第二季度业绩表现**:总收入同比增加15亿美元达80亿美元,同比增长20%,主要源于AI半导体和VMware业务 [3] - **各业务部门表现** - **半导体解决方案部门**:收入84亿美元,同比增长17%,占总收入56%;AI半导体收入超85亿美元,同比增长20%,连续15个季度强劲增长,由定制AI加速器和AI网络业务驱动,以太网AI网络占比40% [2][4] - **基础设施软件业务**:收入60亿美元,同比增长,占总收入44%,毛利率93%,同比提升5个百分点,营业利润率约76%,反映VMware整合成效 [2][5] - **未来业绩指引** - **第三季度**:合并收入预计达158亿美元,同比增长21%,经调整EBITDA至少为66% [2][6] - **全年**:合并毛利率受基础设施、软件和半导体收入占比变化影响,非GAAP税率在第二季度和2025财年保持稳定 [2][7] - **AI市场前景预期** - **业务增长**:AI半导体业务预计持续强劲增长,2026财年延续此趋势 [3][9] - **xpu需求**:2025年下半年起xpu需求显著上升,满足推理与训练双重需求 [3][9] - **客户部署**:至少三个客户将在2027年前部署超百万个定制化AI加速集群 [3][9] - **收入增长**:2025财年AI服务收入预计增长约60%,2026财年拓展更多客户,增长率与2025财年持平 [3][10] - **资本配置情况**:第二季度支付28亿美元现金股利,回购47亿美元或约470万股普通股;季度末现金储备95亿美元,总债务694亿美元,偿还约60亿美元后降至678亿美元;固定利率债务加权平均利率4%,加权平均到期年限10年,浮动利率债务加权平均利率5.3%,到期年限2.6年 [3][8] 其他重要但可能被忽略的内容 - **网络基础设施**:表现强劲超出预期,因AI网络化与加速器集群部署相关,交换机密度增加带动;Tomahawk交换机需求大 [11] - **扩展网络**:超大规模客户有向以太网发展趋势,集群规模扩大到72个GPU以上时,共包光学技术可能重要 [12][16] - **毛利率下降因素**:除无线业务外,其他业务利润率略低,XPS业务占比增加致季度环比下降130个基点,半导体和定制业务也有影响 [18] - **NVLink开放影响**:不会显著改变生态系统格局,明年AI网络增长由以太网等现有开放标准驱动 [18] - **推理性能提升原因**:超大规模计算平台和大型语言模型客户为证明投资价值,通过训练和推理实现商业化 [18][19] - **资本回报和并购策略**:一半自由现金流用于派息,剩余用于降债,机会主义进行股票回购;未来并购需债务融资,降债为并购留借款空间 [22] - **网络与XPU比例**:未来几年网络与XPU比例维持在30%以下但接近40% [24] - **AI出口管制影响**:贸易环境动态变化,无法明确答复出口管制影响 [25] - **VMware客户转换**:续约完成近三分之二,还需一年多至一年半完成剩余工作 [26]
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
贝壳财经· 2025-06-09 09:24
大模型高考英语作文测评结果 - 讯飞星火X1以平均分19.5分排名第一,内容完整且紧扣主题,语言准确句式多样,结构清晰段落衔接自然 [22][27] - DeepSeek R1以平均分19分排名第二,内容详实建议具体,理由全面语言精准,但超字数限制被扣分 [7][27] - 百度文心X1以平均分18.5分排名第三,内容创新建议详实,理由充分语言优秀,结构合理过渡流畅 [26][27] - 通义千问Qwen3以平均分17分排名第四,内容基本完整建议合理,语言准确表达得体,但理由稍简略 [14][27] - ChatGPT o3以平均分14.5分排名第五,内容覆盖要点但理由浅显,语言有错误句式单调,结构发展不足 [10][27] - 腾讯混元T1以平均分13分排名第六,内容基本相关但理由泛泛,语言口语化句式简单,结构松散结尾随意 [19][27] 大模型英语写作能力分析 - 各模型均能完成写作任务,但在内容细节、逻辑关系、观点表达精准性等方面差异较大 [27] - 部分模型语法句法选词精准到位逻辑清晰,部分模型逻辑性欠缺展开不够具体深入 [28] - AI作文立意创新性强于真实考生,因信息搜索整合能力更强,但句式丰富度不及优秀考生 [28] - 模型内嵌评分标准和写作方向差异明显,内容简繁程度与内部数据库密切相关 [28] 国内大模型近期发展动态 - DeepSeek于5月28日更新R1-0528版本 [29] - 腾讯于5月21日迭代混元T1和混元Turbo S [29] - 阿里巴巴于4月29日开源新一代通义千问Qwen3 [29] - 百度于4月25日发布X1 Turbo [29] - 科大讯飞于4月20日升级讯飞星火X1 [29] - 4-5月国内主流大模型集中进行推理层面更新,带来英语写作等能力进步 [29]
RTX5090目前的市场行情
傅里叶的猫· 2025-06-08 20:28
售价 - RTX5090发布时预期售价高达4万元以上 但4个月后价格已跌至2万元出头 部分电商平台同德品牌低至2.3万元 [2] - 价格快速下滑原因包括芯片过热问题影响消费者信心 多卡组网性能瓶颈传闻降低企业采购意愿 厂商初期大幅抬价导致需求不及预期 RTX4090改装48GB版本更具性价比 [2] 租金 - 初期售价高昂导致租赁市场发展缓慢 5月份价格回落后部分机房开始上架RTX5090机型 [3] - 8卡整机扣除机柜租赁费和电费后投资回本周期约4年 对AI企业而言周期较长 [3] - 单卡租赁价格约1万元/年 8卡整机配置价格约30万元 [6] 算力 - FP16精度算力单卡419 TFLOPS 8卡整机约3.4 PFLOPS 300张可组成PFLOPS级算力集群 [4] - 在大型语言模型训练 推理及高性能计算任务中具备显著优势 但需依赖软件优化和组网效率 [4] 功耗 - 额定功耗575W 峰值功耗瞬间高达900W 8卡整机功耗约6kW [7] - 按每千瓦时电费0.6元计算 8卡整机每月电费约3600元 高功耗增加运营成本并对机房散热供电系统提出更高要求 [7] 性能 - 支持FP8/FP4低精度运算 显著提升AI推理效率 与RTX4090相比推理速度快约50% [8] - 4K分辨率下游戏平均帧率显著优于4090 但性能优势发挥需针对性优化 [8] 发热 - 发热问题集中在芯片和12V-2x6电源连接器 出现过热和熔化现象 发生概率较低但需关注 [9] - 缓解措施包括限制瞬间功率 采用液冷或涡轮风扇 使用原厂电源连接线 [9] 组网 - 早期多卡组网锁卡或性能瓶颈传闻源于驱动不成熟 随着驱动更新问题已基本解决 [11] - NVLink和PCIe组网表现稳定 适合构建高性能AI集群 [11]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模 型、推荐系统。 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。 研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的 出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会 采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。 研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型,从而在开放性 NLP 任务中增强语言模型的表现,并使较小的模型也能通过强化学习成功获得思 考能力。 论文地址:https://huggingface.co/papers/2505.22653 代码链接: ...
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 11:40
核心观点 - GCoT是首个应用于无文本图数据的类思维链提示学习框架,通过多步推断机制显著提升少样本学习性能 [1] - 在8个图数据集的少样本节点分类与图分类任务中全面超越现有SOTA方法,1-5样本设置下优势最显著 [1][19] - 框架创新性融合层次化结构知识生成节点专属提示,拓展了图学习推理方式 [24][25] 方法解析 整体框架 - 将图和提示输入预训练图编码器,聚合各层隐藏表示生成"思维"指导下一步推断 [5] - 包含三阶段:基于提示的推断→思维构建→基于思维的提示学习 [6][7][8] 关键技术 - **思维构建**:对编码器各层嵌入加权求和生成融合向量,捕获节点层次化结构知识 [7][24] - **节点专属提示**:通过条件网络将上轮思维转化为节点特定提示矩阵,动态调整下一步输入 [8][25] - **标准提示学习**:采用GPF+方法生成偏置项提示,但作用于最终嵌入而非初始特征矩阵 [9][10] 实验结果 性能表现 - 节点/图分类任务中均超越基准模型,预训练方法优于监督学习 [18] - 1-10样本实验中全面领先,1-5样本区间提升最显著(具体数据未披露) [19] - 多步推断机制是关键:完整GCoT优于单步变体GCoT\L1/L2/L3 [20] 消融实验 - 移除分步推断的GCoT\CoT性能大幅下降,验证逐步推断必要性 [20] - 将CoT机制植入GPF/GPF+/ProG等基准模型后,所有模型性能均提升 [21] 创新价值 - 首次实现思维链提示学习在图数据中的应用,突破无文本数据推理瓶颈 [22] - 提出层次化思维融合与动态提示生成机制,为图学习提供新方法论 [23][24] - 开源代码与论文推动行业技术迭代(论文链接见原文) [25]
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]
理想司机Agent的一些细节
理想TOP2· 2025-06-06 23:24
:基于2D/3D 信息编码整合进模型后,Agent 具备理解道路标牌【例如,出口,上下坡道,左右 转,电梯口,不允许通行,区域B12345,ABCDEFGG区 etc】的能力,和语音交互感知【左右转,靠边停 车,掉个头,快点慢点,甚至给出先去A区再靠边,或者掉头后再去C区】的能力。简单指令场景依赖的是 本地的多模态LLM,复杂指令是Token化后上云大参量的LLM,将任务拆解后转换成顺序任务后在本地LLM 执行。 :具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因:首先更多的 是行车的关联结构,而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开 车【大概要往哪个地方开,而并非是像Hd map 具有严格的驾驶轨迹限定】,换句话说,关联点建好后。理 论上,给Agent 需求后,会直接进行关联点分析,规划出一条最近的【可以符合通行逻辑】的地下/园区驾 驶轨迹。 当然现在他能力还有限,还是偶尔会出现开错路,然后触发掉头再开【对因为行车模型化 后,理论上可以触发无限制掉头,几乎不会卡死】 :具备感知推理能力,而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车 ...