大模型推理
搜索文档
芯片ETF(512760)连续5日净流入超4亿元,英伟达公布芯片出货预期
每日经济新闻· 2025-11-05 15:05
芯片ETF(512760)跟踪的是中华半导体芯片指数(990001),该指数从沪深市场中选取涉及半导体芯 片材料、设备、设计、制造、封装和测试等环节的上市公司证券作为指数样本,以反映半导体芯片行业 相关上市公司证券的整体表现。 长江证券表示,10月的GTC2025上,英伟达发布Blackwell与Rubin架构机柜方案,首代RubinNVL144性 能较GB300NVL72性能提升约3.3倍,第二代RubinUltra576性能提升约14倍,将于2027年下半年推出。 大会还首次亮相VeraRubinSuperchip,采用88核ArmCPU、双RubinGPU与2TB内存,算力达到 100PFLOPS;同时展示CPX计算板,支持超百万Token的上下文加速,面向大模型推理场景。英伟达预 计未来五个季度GPU销售额预计超5000亿美元,Blackwell与Rubin生命周期出货量预计达2000万颗,显 著高于Hopper的400万颗。英伟达将与甲骨文及美国能源部共建Solstice与Equinox超算系统,分别部署 10万和1万颗BlackwellGPU,总算力约2200EFLOPS,预计2026年上半年启用 ...
锦秋基金参与微纳核芯超亿元融资,首创三维存算一体3D-CIM™芯片开启大模型推理新篇章|Jinqiu Spotlight
锦秋集· 2025-10-30 21:34
文章核心观点 - 锦秋基金已完成对微纳核芯的投资,微纳核芯是一家全球领先的存算一体AI芯片公司,其首创的三维存算一体3D-CIM™芯片技术旨在破解AI大模型推理中“高性能、低功耗、低成本”的不可能三角,为端侧AI应用提供解决方案 [2][4][8] 投资事件与市场背景 - 微纳核芯完成超亿元B轮战略融资,由蓝驰创投领投,中芯聚源、锦秋基金等顶级机构参与 [4] - 端侧AI芯片组市场规模预计将从2024年的20亿美元增长至2028年的167亿美元 [6] - 端侧模型能力提升和算力增强将推动AI快速渗透,端侧计算是降低延迟、解决隐私安全的必然趋势 [4] 行业趋势与政策驱动 - AI Agent将从执行工具演进为决策伙伴,国务院文件提出2027年实现智能体终端普及率达70%的目标 [6] - 2035年全球智能体数量预计将达到9000亿台,算力需求提升10万倍 [6] - 端侧部署在隐私、时延、成本、可靠性方面具备优势,端-边-云协同在大模型推理中的必要性日益凸显 [6] 技术痛点与解决方案 - 大模型推理芯片面临高性能、低功耗和低成本三大核心痛点 [7] - 三维堆叠是实现高TPS性能的主流选择,但仍需破解“不可能三角” [7] - 微纳核芯的3D-CIM™架构融合了3D近存计算、存内计算和RISC-V存算异构架构,旨在解决上述痛点 [8] 微纳核芯产品与技术优势 - 3D-CIM™技术通过存储单元和计算单元融合,实现4倍以上算力密度提升和10倍以上功耗降低,相比传统冯诺依曼架构 [8] - 该技术不依赖于先进工艺,确保供应链自主可控,定位为全球最快可量产3D端侧AI芯片 [9] - RV-CIM™全栈技术解决了存算一体的计算完备性和软硬件生态壁垒问题 [8] 应用场景与市场定位 - 产品为AI手机、AI PC、IoT、一体机等大模型推理应用提供芯片解决方案,并可拓展至服务器、AI机器人等场景 [9][12] - 公司致力于开辟千亿级大模型推理蓝海市场,实现无处不在的AI普惠 [11][13] 团队与生态合作 - 微纳核芯团队拥有数十名知名高校博士/博士后,近六年在ISSCC上连续发表14项突破世界纪录的芯片成果 [10] - 公司作为“RISC-V存算一体应用组”组长单位,牵头启动全球首个RISC-V存算一体标准研制和生态建设,联合数十家产业链企业 [11] - 公司是唯一同时与多家手机龙头企业深度合作、且拉通手机主芯片厂商配合的3D AI芯片公司 [11]
独家|对话Tensormesh三位联创:如何从学术界走到大模型推理产业前线?
Z Potentials· 2025-10-24 16:18
图片来源:受访者提供 2025 年 10 月, Tensormesh ,这家致力于为企业提供缓存加速推理优化的公司,正式亮相并宣布获得由 Laude Ventures 领投的 450 万美元种子资金。 公司由芝加哥大学教授、 LMCache 的联合创始人 Junchen Jiang, Yihua Cheng, Kuntai Du 领导。 LMCache 是一个领先的开源键值缓存 (KV Cache) 项目, Tensormesh 是第一个将大规模 AI 推理缓存产品化的商业平台,将受 LMCache 启发的技术与企业级的可用性、安全性和可管理性相结合。 以下是我们对 Tensormesh 创始团队(亦为 LMCache 的核心贡献者)的独家访谈, Enjoy~ 很多学术背景的创业者早期都会被投资人这么提问:绝大多数教授创业会失败,怎么证明你能成? 这个质疑的背后,一方面是因为相比学术圈,创业是个九死一生的战场 ——数据显示,美国约90% 的初创企业最终会失败;另一方面,在投资人看来,学 术型创始人通常缺乏对市场、产品的敏感度和应对竞争的实战经验,风险自然更高。 Junchen带领的Tensormesh团队正是 ...
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心· 2025-10-21 17:32
文章核心观点 - 强化学习是推动机器获得推理与语言能力的关键驱动力 [2] - 过程监督强化学习通过监督推理过程而非仅看结果来提升模型推理能力,但存在探索效率低和训练成本高的问题 [3][7] - 清华与快手研究团队提出的AttnRL框架,通过引入注意力机制作为探索指南针,显著提升了过程监督强化学习的效率与性能 [4][9] 过程监督强化学习的现实困境 - 传统结果监督方法对所有token赋予相同奖励,忽略推理过程中的细粒度质量 [7] - 传统过程监督方法在分支位置选择和采样策略上效率低下,导致训练成本高昂 [7] - 具体瓶颈包括分支策略粗糙、采样效率低下以及训练流程冗余 [10] AttnRL框架的核心创新:注意力引导探索 - 关键洞察是模型推理过程中注意力得分高的步骤对应关键的思考时刻,如规划、自我验证或转折点 [12] - 提出基于注意力的树分支策略,通过计算前向上下文影响力分数,仅在影响后续推理程度最高的关键位置建立分支 [13] - 实验证明破坏高注意力步骤会显著降低模型解题准确率,验证了其作为关键节点的有效性 [17] AttnRL的自适应采样机制 - 引入难度感知探索,根据FCI分数过滤简单问题,对困难问题扩展更多推理树进行探索 [22] - 采用动态批次调整,根据有效样本数动态调整批次大小,确保所有样本的梯度均有贡献 [22] - 设计一步离策略训练流程,将初始采样与蒙特卡洛采样交错执行,每步训练只需生成一次样本,大幅降低采样成本 [23] 实验结果:性能与效率双赢 - 在六个数学推理基准上,AttnRL对1.5B和7B基座模型均实现稳定提升,平均准确率分别达到57.2%和68.7% [27][28] - 相比DeepScaleR-Preview-1.5B需要1750步和24K上下文,AttnRL仅需500步和8K上下文即实现更优结果 [28] - 基于注意力的分支方法在全对比例、全错比例、有效比例等统计上全面优于熵分支方法 [29] - 自适应采样确保每批次样本均有效,AttnRL在500步训练中生成56亿有效token,性能达57.2,优于GRPO和TreeRL等方法 [32] 未来展望 - AttnRL将注意力分数首次用于过程监督强化学习的探索决策,为提升大模型可解释性和强化学习研究开辟了新方向 [34] - 该方法表明效率与智能并非对立,可通过更高效的探索实现共赢 [34]
技能英伟达桌面超算,加入苹果Mac Studio快爆了:推理速度飙升至277%
量子位· 2025-10-17 12:58
技术方案与实现 - 通过将大模型推理的Prefill(预填充)和Decode(解码)两个阶段分离,分别分配给擅长不同硬件性能的设备来处理,即PD分离[7][8][11] - Prefill阶段计算量巨大,更依赖算力,而Decode阶段主要受内存带宽限制,DGX Spark拥有100TFLOPS的fp16算力但内存带宽仅273GB/s,M3 Ultra算力为26TFLOPS但内存带宽高达819GB/s,两者优势互补[9][11] - 采用流式传输技术解决KV缓存传输的通信延迟问题,使KV缓存可以逐层传输,实现通信与计算的并行重叠,从而提升整体效率[15][16] 性能提升效果 - 在Llama-3.1 8B模型上,该混合方案使Prefill阶段速度提升至单用M3 Ultra Mac Studio的3.79倍,Decode速度提升至单用DGX Spark的3.37倍[18] - 整体推理速度提升至单用M3 Ultra Mac Studio的2.77倍,总处理时间从6.42秒缩短至2.32秒[18][19] - 该性能优化通过EXO框架自动实现,框架能自动发现并分析连接设备的计算吞吐量、内存带宽等特性,并自动规划任务分配与传输策略[17][18] 行业趋势与背景 - PD分离的架构思路得到行业领先公司的验证,英伟达即将推出的Rubin CPX平台也采用类似设计,使用不同特性的处理器分别处理Prefill和Decode阶段[20] - 该方案由GitHub拥有三万星的EXO Lab团队开发,该团队专注于研究在消费级设备上部署大模型的分布式推理框架[3][4] - 苹果最新M5芯片在MacBook Pro上首个Token生成速度(受Prefill影响)较M1提升6.4倍,较M4提升3.55倍,但M3 Ultra在特定架构下仍显示出较高价值[27][30]
中国电信完成业界首个面向大模型推理的异构算力协同技术验证
新浪财经· 2025-10-14 07:42
试验核心成果 - 业界首次完成DeepSeek系列模型基于英伟达算力与国产算力交叉组合的异构PD分离推理试验验证 [1] - 试验实现大模型推理集群降本增效,在6类典型场景下完成推理性能验证 [1] - DeepSeek 671B模型在多种场景下实现推理集群总吞吐性能提升30%至72% [1] - 模型并发能力提升2倍,同等吞吐条件下异构算力组合推理成本最高下降42% [1] - 试验达成存量利旧与国产替代的双重目标 [1] 技术实现路径 - 行业共识为针对推理Prefill与Decode阶段特性优化芯片设计,英伟达与华为已发布相应芯片规划 [2] - 公司构建异构通信优化、PD资源调配、推理任务调度全栈自研异构混推体系 [2] - 通过自研异构传输引擎实现跨架构芯片PD池间KVCache的高效传输 [2] - 采用自研国产算力赋能工具“翼芯”,根据业务特征与算力性能自动推荐并实时优化PD资源配比 [2] - 构建AI推理平台,实现推理任务在Prefill池与Decode池间的动态调度 [2] 行业影响与未来规划 - 技术验证成功体现公司对智算推理优化技术的深刻理解及对国产算力适配调优的实践创新 [2] - 彰显公司作为算力基础设施建设方推动国产算力从可用到好用的央企担当 [2] - 未来将持续深化国产算力高质量发展布局,面向大模型训推一体、多智能体系统打造互联互通高效协同的异构算力生态格局 [2]
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
机器之心· 2025-10-09 12:43
模型架构创新 - 微型递归模型(TRM)采用递归推理架构,通过“起草-思考-修订”的循环过程(最多16次)来提升答案质量,其核心思想是“少即是多”[4][6][7][8][9] - TRM重新定义了完整的递归过程,在训练中先运行T-1次无梯度递归来改进中间表示,再进行一次带反向传播的递归,从而完全消除了对不动点假设和隐函数定理一步梯度近似的依赖[11] - 该模型采用单网络设计,而非HRM的双网络架构,减少了参数量;同时发现减少网络层数(最优为2层)并增加递归次数能提升泛化性能,避免过拟合[12][13][16][17] 技术参数与效率 - TRM模型规模极小,仅包含700万个参数,比HRM的2700万参数小4倍,比Qwen3 0.6B模型小约22倍,但性能卓越[1][4] - 在架构选择上,TRM探索了无注意力设计,用作用于序列维度的多层感知机(MLP)替代自注意力机制,在短上下文任务中更高效[18][19][20] - 模型训练仅使用1000个训练样本,便在复杂推理任务上取得卓越性能,显示出极高的数据效率[1] 性能表现对比 - 在Sudoku-Extreme测试中,不带自注意力的TRM-MLP模型准确率最高达87.4%,显著高于HRM的55.0%和直接预测法的0.0%[23][25] - 在Maze-Hard任务上,带自注意力的TRM-Att模型准确率达85.3%,远超HRM的74.5%;在ARC-AGI-1和ARC-AGI-2上,TRM-Att准确率分别为44.6%和7.8%,也优于HRM的40.3%和5.0%[25][26][28][29] - 与参数规模大数千倍的尖端大模型(如Deepseek R1的671B参数、Grok-4-thinking的1.7T参数)相比,仅700万参数的TRM在部分推理基准测试中甚至能够超越这些模型[4][25][26]
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 10:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
商汤拆分芯片业务始末:百度创始成员加入,半年已融15亿
36氪· 2025-09-19 21:42
公司背景与团队构成 - 曦望由商汤科技拆分成立 专注于大模型推理芯片研发 采用"1+X"战略推动芯片业务独立发展[4][5] - 高管团队包括联席CEO王湛(前百度创始产品经理)和王勇(前AMD、昆仑芯老将) 王湛负责运营管理和商业化 王勇主导产品与技术[11][12] - 团队规模达200人 年增长50% 核心成员来自AMD、Intel、阿里等企业[12] 技术研发与产品布局 - 累计投入11亿元研发资金 已量产两款芯片:S1(云边视觉推理芯片 出货超万片)和S2(大模型推理GPGPU)[13][14] - 下一代S3芯片计划2026年推出 通过架构创新将推理成本降低10倍 采用低精度计算单元和大容量显存设计[15][16] - 实现100%自主知识产权 覆盖指令集定义、GPGPU IP架构及编译器工具链[17] - 研发周期仅14个月 较行业平均22个月缩短36% 团队规模为行业普遍水平的1/3[17] 融资与商业化进展 - 2025年完成多轮融资 累计超15亿元 其中70%资方为产业资本(三一集团、第四范式、游族网络等)[13][19] - 通过绑定产业资本实现研发与商业化协同 在芯片规划阶段即考虑实际应用场景[19] - 与商汤日日新大模型和万卡智算中心形成技术协同 提供验证和商业化支撑[22] 行业趋势与竞争格局 - 2025年被视作中国GPU行业元年 推理市场爆发和外部环境变化为国产芯片创造机会窗口[22] - 国产芯片企业迎来商业化突破:寒武纪营收同比增长4347% 沐曦出货超2.5万颗 海光芯片出货迈过10万大关[22] - 行业共识转向兼容CUDA架构和聚焦细分赛道 避免早期企业在技术路线上的试错成本[24] - 市场至少支撑3-5家头部企业 2025年成为入场资格线 未实现流片的企业将失去竞争机会[25] 战略定位与发展路径 - 坚持兼容CUDA生态 选择推理芯片细分赛道 利用后发优势规避行业早期试错风险[24] - 核心竞争要素包括软硬件一体化能力、市场预判能力以及商业化落地速度[25] - 通过产业资本联动和商汤技术背书 实现从研发到商业化的闭环推进[19][22]