Workflow
大模型推理
icon
搜索文档
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心· 2025-10-21 17:32
文章核心观点 - 强化学习是推动机器获得推理与语言能力的关键驱动力 [2] - 过程监督强化学习通过监督推理过程而非仅看结果来提升模型推理能力,但存在探索效率低和训练成本高的问题 [3][7] - 清华与快手研究团队提出的AttnRL框架,通过引入注意力机制作为探索指南针,显著提升了过程监督强化学习的效率与性能 [4][9] 过程监督强化学习的现实困境 - 传统结果监督方法对所有token赋予相同奖励,忽略推理过程中的细粒度质量 [7] - 传统过程监督方法在分支位置选择和采样策略上效率低下,导致训练成本高昂 [7] - 具体瓶颈包括分支策略粗糙、采样效率低下以及训练流程冗余 [10] AttnRL框架的核心创新:注意力引导探索 - 关键洞察是模型推理过程中注意力得分高的步骤对应关键的思考时刻,如规划、自我验证或转折点 [12] - 提出基于注意力的树分支策略,通过计算前向上下文影响力分数,仅在影响后续推理程度最高的关键位置建立分支 [13] - 实验证明破坏高注意力步骤会显著降低模型解题准确率,验证了其作为关键节点的有效性 [17] AttnRL的自适应采样机制 - 引入难度感知探索,根据FCI分数过滤简单问题,对困难问题扩展更多推理树进行探索 [22] - 采用动态批次调整,根据有效样本数动态调整批次大小,确保所有样本的梯度均有贡献 [22] - 设计一步离策略训练流程,将初始采样与蒙特卡洛采样交错执行,每步训练只需生成一次样本,大幅降低采样成本 [23] 实验结果:性能与效率双赢 - 在六个数学推理基准上,AttnRL对1.5B和7B基座模型均实现稳定提升,平均准确率分别达到57.2%和68.7% [27][28] - 相比DeepScaleR-Preview-1.5B需要1750步和24K上下文,AttnRL仅需500步和8K上下文即实现更优结果 [28] - 基于注意力的分支方法在全对比例、全错比例、有效比例等统计上全面优于熵分支方法 [29] - 自适应采样确保每批次样本均有效,AttnRL在500步训练中生成56亿有效token,性能达57.2,优于GRPO和TreeRL等方法 [32] 未来展望 - AttnRL将注意力分数首次用于过程监督强化学习的探索决策,为提升大模型可解释性和强化学习研究开辟了新方向 [34] - 该方法表明效率与智能并非对立,可通过更高效的探索实现共赢 [34]
技能英伟达桌面超算,加入苹果Mac Studio快爆了:推理速度飙升至277%
量子位· 2025-10-17 12:58
技术方案与实现 - 通过将大模型推理的Prefill(预填充)和Decode(解码)两个阶段分离,分别分配给擅长不同硬件性能的设备来处理,即PD分离[7][8][11] - Prefill阶段计算量巨大,更依赖算力,而Decode阶段主要受内存带宽限制,DGX Spark拥有100TFLOPS的fp16算力但内存带宽仅273GB/s,M3 Ultra算力为26TFLOPS但内存带宽高达819GB/s,两者优势互补[9][11] - 采用流式传输技术解决KV缓存传输的通信延迟问题,使KV缓存可以逐层传输,实现通信与计算的并行重叠,从而提升整体效率[15][16] 性能提升效果 - 在Llama-3.1 8B模型上,该混合方案使Prefill阶段速度提升至单用M3 Ultra Mac Studio的3.79倍,Decode速度提升至单用DGX Spark的3.37倍[18] - 整体推理速度提升至单用M3 Ultra Mac Studio的2.77倍,总处理时间从6.42秒缩短至2.32秒[18][19] - 该性能优化通过EXO框架自动实现,框架能自动发现并分析连接设备的计算吞吐量、内存带宽等特性,并自动规划任务分配与传输策略[17][18] 行业趋势与背景 - PD分离的架构思路得到行业领先公司的验证,英伟达即将推出的Rubin CPX平台也采用类似设计,使用不同特性的处理器分别处理Prefill和Decode阶段[20] - 该方案由GitHub拥有三万星的EXO Lab团队开发,该团队专注于研究在消费级设备上部署大模型的分布式推理框架[3][4] - 苹果最新M5芯片在MacBook Pro上首个Token生成速度(受Prefill影响)较M1提升6.4倍,较M4提升3.55倍,但M3 Ultra在特定架构下仍显示出较高价值[27][30]
中国电信完成业界首个面向大模型推理的异构算力协同技术验证
新浪财经· 2025-10-14 07:42
试验核心成果 - 业界首次完成DeepSeek系列模型基于英伟达算力与国产算力交叉组合的异构PD分离推理试验验证 [1] - 试验实现大模型推理集群降本增效,在6类典型场景下完成推理性能验证 [1] - DeepSeek 671B模型在多种场景下实现推理集群总吞吐性能提升30%至72% [1] - 模型并发能力提升2倍,同等吞吐条件下异构算力组合推理成本最高下降42% [1] - 试验达成存量利旧与国产替代的双重目标 [1] 技术实现路径 - 行业共识为针对推理Prefill与Decode阶段特性优化芯片设计,英伟达与华为已发布相应芯片规划 [2] - 公司构建异构通信优化、PD资源调配、推理任务调度全栈自研异构混推体系 [2] - 通过自研异构传输引擎实现跨架构芯片PD池间KVCache的高效传输 [2] - 采用自研国产算力赋能工具“翼芯”,根据业务特征与算力性能自动推荐并实时优化PD资源配比 [2] - 构建AI推理平台,实现推理任务在Prefill池与Decode池间的动态调度 [2] 行业影响与未来规划 - 技术验证成功体现公司对智算推理优化技术的深刻理解及对国产算力适配调优的实践创新 [2] - 彰显公司作为算力基础设施建设方推动国产算力从可用到好用的央企担当 [2] - 未来将持续深化国产算力高质量发展布局,面向大模型训推一体、多智能体系统打造互联互通高效协同的异构算力生态格局 [2]
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
机器之心· 2025-10-09 12:43
模型架构创新 - 微型递归模型(TRM)采用递归推理架构,通过“起草-思考-修订”的循环过程(最多16次)来提升答案质量,其核心思想是“少即是多”[4][6][7][8][9] - TRM重新定义了完整的递归过程,在训练中先运行T-1次无梯度递归来改进中间表示,再进行一次带反向传播的递归,从而完全消除了对不动点假设和隐函数定理一步梯度近似的依赖[11] - 该模型采用单网络设计,而非HRM的双网络架构,减少了参数量;同时发现减少网络层数(最优为2层)并增加递归次数能提升泛化性能,避免过拟合[12][13][16][17] 技术参数与效率 - TRM模型规模极小,仅包含700万个参数,比HRM的2700万参数小4倍,比Qwen3 0.6B模型小约22倍,但性能卓越[1][4] - 在架构选择上,TRM探索了无注意力设计,用作用于序列维度的多层感知机(MLP)替代自注意力机制,在短上下文任务中更高效[18][19][20] - 模型训练仅使用1000个训练样本,便在复杂推理任务上取得卓越性能,显示出极高的数据效率[1] 性能表现对比 - 在Sudoku-Extreme测试中,不带自注意力的TRM-MLP模型准确率最高达87.4%,显著高于HRM的55.0%和直接预测法的0.0%[23][25] - 在Maze-Hard任务上,带自注意力的TRM-Att模型准确率达85.3%,远超HRM的74.5%;在ARC-AGI-1和ARC-AGI-2上,TRM-Att准确率分别为44.6%和7.8%,也优于HRM的40.3%和5.0%[25][26][28][29] - 与参数规模大数千倍的尖端大模型(如Deepseek R1的671B参数、Grok-4-thinking的1.7T参数)相比,仅700万参数的TRM在部分推理基准测试中甚至能够超越这些模型[4][25][26]
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 10:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
商汤拆分芯片业务始末:百度创始成员加入,半年已融15亿
36氪· 2025-09-19 21:42
公司背景与团队构成 - 曦望由商汤科技拆分成立 专注于大模型推理芯片研发 采用"1+X"战略推动芯片业务独立发展[4][5] - 高管团队包括联席CEO王湛(前百度创始产品经理)和王勇(前AMD、昆仑芯老将) 王湛负责运营管理和商业化 王勇主导产品与技术[11][12] - 团队规模达200人 年增长50% 核心成员来自AMD、Intel、阿里等企业[12] 技术研发与产品布局 - 累计投入11亿元研发资金 已量产两款芯片:S1(云边视觉推理芯片 出货超万片)和S2(大模型推理GPGPU)[13][14] - 下一代S3芯片计划2026年推出 通过架构创新将推理成本降低10倍 采用低精度计算单元和大容量显存设计[15][16] - 实现100%自主知识产权 覆盖指令集定义、GPGPU IP架构及编译器工具链[17] - 研发周期仅14个月 较行业平均22个月缩短36% 团队规模为行业普遍水平的1/3[17] 融资与商业化进展 - 2025年完成多轮融资 累计超15亿元 其中70%资方为产业资本(三一集团、第四范式、游族网络等)[13][19] - 通过绑定产业资本实现研发与商业化协同 在芯片规划阶段即考虑实际应用场景[19] - 与商汤日日新大模型和万卡智算中心形成技术协同 提供验证和商业化支撑[22] 行业趋势与竞争格局 - 2025年被视作中国GPU行业元年 推理市场爆发和外部环境变化为国产芯片创造机会窗口[22] - 国产芯片企业迎来商业化突破:寒武纪营收同比增长4347% 沐曦出货超2.5万颗 海光芯片出货迈过10万大关[22] - 行业共识转向兼容CUDA架构和聚焦细分赛道 避免早期企业在技术路线上的试错成本[24] - 市场至少支撑3-5家头部企业 2025年成为入场资格线 未实现流片的企业将失去竞争机会[25] 战略定位与发展路径 - 坚持兼容CUDA生态 选择推理芯片细分赛道 利用后发优势规避行业早期试错风险[24] - 核心竞争要素包括软硬件一体化能力、市场预判能力以及商业化落地速度[25] - 通过产业资本联动和商汤技术背书 实现从研发到商业化的闭环推进[19][22]
腾讯云总裁邱跃鹏:腾讯云已全面适配主流国产芯片
新浪科技· 2025-09-16 11:26
AI基础设施升级 - 腾讯云通过异构计算平台整合多种芯片资源提供高性价比AI算力 并全面适配主流国产芯片[1] - 大模型产业重心从训练转向推理 客户对Agent应用热情推动推理需求暴涨[3] - 自研FlexKV多级缓存技术将首字时延降低70% 对话时延降低57%[4] - 集成多token联合预测技术使生成速度提升35% 注意力数据并行功能使吞吐量提升30%[4] - MoE-Chunk技术支持超过256K超长输入 适用于长文档分析和复杂代码生成场景[5] 全球化基础设施布局 - 云基础设施覆盖全球55个可用区 部署3200多个加速节点 为超1万款游戏提供安全防护[1][10] - 在日本大阪和沙特新建可用区 全球设立9个技术支持中心 获得400多项专业认证[1][14] - 自研星星海服务器全球累计部署核数超2亿 旗舰SA9单机规格提升至768核[9] - 防护容量达25T(同比增长70%) 带宽储备达400T(同比增长100%)[13] 企业级解决方案创新 - 推出Agent Runtime解决方案 集成执行引擎/云沙箱/安全服务 提供100毫秒极速启动支持数十万实例并发[6] - 云沙箱通过MCP/SDK/API多种方式接入 具备严格身份权限管理和数据安全防护[6] - 专家服务智能体Cloud Mate集成超90%腾讯云产品 提供超100万次智能架构治理服务[7] - Cloud Mate对风险SQL拦截率达95% 累计检测超770万行代码 平均排障时间从30小时缩短至分钟级[8] 客户实践与性能提升 - 完成印尼GoTo集团超大规模迁移 管理1亿注册用户/10000台云主机/730+数据库实例/1000+微服务[13][14] - 5个月建成印尼第三可用区 交付500+定制化需求 进行5轮全链路演练[14] - 新一代TDSQL数据库在复杂查询场景下总时延下降80% 专有云TCE达到RTO 2分钟容灾能力[9] - EdgeOne Pages产品上线3个月助力超10万用户出海 互动直播组件客户数增长超300%[11][12] 行业领导地位与技术贡献 - 与AWS/Google/Microsoft同被评为全球游戏云平台领导者[10] - 深度参与开源社区 向DeepSeek/vLLM/SGLang提交优化技术[1] - 优化DeepEP使IB网络性能提升30% RoCE网络性能翻倍[3] - 支撑国家级活动8000万观众同时在线直播 保障亚太超一半正版英超直播[13]
劲爆!高盛上调寒武纪目标价1835元,“寒王”市值超五粮液股价超茅台?85后创始人陈天石身价超1500亿,大佬章建平火了!
搜狐财经· 2025-08-25 10:37
股价表现 - 寒武纪上周五涨停后股价达1243元 为A股第二高价股 仅次于贵州茅台 [1] - 公司市值超5200亿元 超过美的集团 五粮液 东方财富 浦发银行 中信证券 恒瑞医药等知名企业 [1] - 自7月11日以来股价累计暴涨137% 2023年以来从不足50元飙升至1243元 最大涨幅超25倍 [3] - 高盛将目标价上调50%至1835元 潜在市值接近7700亿元 [3] 市场驱动因素 - 英伟达暂停H20芯片生产催化国产AI芯片替代需求激增 [5] - DeepSeek-V3.1正式发布并适配国产芯片架构 打开国产芯片想象空间 [5] - 国内云厂商和互联网大厂对自主可控AI芯片需求快速增长 [5] - 本土大模型快速发展带动高性能AI推理芯片旺盛需求 [5] 公司竞争优势 - 被称为"中国英伟达" 在AI芯片架构设计和软硬件协同优化方面具有技术积累 [5] - 定增申请获上交所审核通过 39.85亿元募资将投入大模型芯片及软件平台建设 [5] - 创始人陈天石持有29.63%股份 市值达1541亿元 [5] 资金动向 - 游资章建平持续加仓至608.63万股 持股1.46%跻身第七大股东 [6] - 当前持股市值75.66亿元 以均价计算浮盈超40亿元 [6]
"六边形战士"GPU公司完成亿元新融资
是说芯语· 2025-08-24 09:39
融资与资金用途 - 公司完成近亿元B2轮融资 由飞图创投领投[2] - 资金将重点投入RPP芯片产业化推进 核心技术研发升级以及边缘计算和AI芯片推理市场拓展[2] - 公司曾在今年3月完成数千万元B1轮融资 由长石资本领投 达泰资本 江门长信 硕明等机构跟投[2] 公司背景与研发布局 - 公司成立于2017年 已在珠海 深圳 西安及美国设立研发中心[2] - 经过8年持续技术研发与产品迭代 建立起完整AI计算产品矩阵[3] 核心技术架构 - 自主研发可重构并行处理器架构(RPP)专为并行计算设计[4] - RPP架构具有生态兼容性和超高能效并行计算能力 打破高性能芯片与通用芯片界限[4] - 底层兼容CUDA编程语言和多种开发工具 实现边缘AI应用快速高效部署[4] - 融合GPGPU通用性与NPU高效计算能力 在大模型推理 计算机视觉等领域具有优势[4] 产品特性与商业化进展 - RPP-R8芯片已在AI PC 医疗检测 存储服务器等多个领域实现商业化落地 与联想等头部企业建立深度合作[6] - RPP-R8 AE7100E芯片是业界最小最薄GPGPU 功耗控制在10W以下 适配Qwen Llama Stable Diffusion等主流大模型[6] - AI芯片AE7100尺寸为17mm × 17mm 集成该芯片的M.2加速卡尺寸为22mm x 88mm[6] - M.2加速卡拥有32TOPS算力及60GB/s内存带宽 可动态控制功耗 支撑大模型在笔记本电脑等设备运行[6] - 已适配DeepSeek Llama3-8B Stable Diffusion 通义千问 BitNet等开源模型[6] 战略发展方向 - 公司将围绕打造自有产权高端通用型芯片的发展方向前行[7]
寒武纪涨停总市值超5200亿!即将超越贵州茅台成为新股王?
搜狐财经· 2025-08-22 15:00
股价表现 - 截至14时44分股价报1243.20元 较前一交易日大涨20.00% [1] - 成交额达160.90亿元 市值超5200亿元 [1] - 自7月25日收盘以来累计涨幅达107.12% 盘中创1243.2元区间新高 [1] 市场驱动因素 - 国产替代加速 国内云厂商和互联网大厂对自主可控AI芯片需求快速增长 [1] - 大模型推理需求爆发 本土大模型发展带动高性能AI推理芯片需求 [1] - 技术实力获市场认可 被赋予"中国英伟达"称号 [1] 公司动态 - 2025年度向特定对象发行A股申请获上交所审核通过 已提交证监会注册 [2] - 发布澄清公告 明确网传载板订单/收入预测/新产品信息均为不实信息 [2] - 强调不存在应披露未披露重大事项 经营情况正常 [2] 行业前景 - 处于AI产业风口 国产替代和大模型需求双重驱动 [2] - 行业景气度提升 公司作为AI芯片龙头持续受益 [1][2]