Software & Services
搜索文档
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了
机器之心· 2025-12-23 12:15
行业核心问题:长序列推理的成本与效率瓶颈 - 在当前主流的Full Attention机制下,计算开销会随着输入长度平方增长,导致处理长序列时“又贵又慢”,成为大模型应用中最昂贵的奢侈品 [1] - 尽管各大模型厂商竞相推出更长的上下文窗口(如128K),但在计费上长文本显著更贵,且实际落地产品常需将用户输入变短,这凸显了长序列处理在成本与性能上的核心矛盾 [1] 现有技术路线及其局限性 - 业界主流的Attention压缩方案分为Linear Attention和Sparse Attention两种 [8] - Linear Attention(以Qwen-Next和Kimi-K2为代表)可将存储代价压缩到O(n),计算代价压缩到O(n),但长序列下的信息召回能力显著弱于Full Attention,常需混合使用,限制了性能与加速收益 [10] - Sparse Attention通过稀疏化优化计算,实践中能达到接近**90%**以上的稀疏度,已被DeepSeek-V3.2采用,但其算子与调度设计复杂,影响工程生态的通用性与可维护性 [8][10] - Sliding Window Attention(SWA)因其简单和可规模化复用,被gpt-oss和MiMo等项目采用,并非仅是权宜之计 [10] RTPurbo解决方案:核心原理与假设 - 阿里RTP-LLM团队提出非侵入式的后训练压缩方案RTPurbo,在不损失模型效果的前提下,实现了Attention计算**5倍**压缩 [1][4] - 其核心假设源于对LLM注意力模式的观察:绝大多数Attention Head天然偏好局部信息,只有极少数“长程头”能在长文本中稳定定位并召回关键关联信息 [10] - 类比人类阅读写作,LLM处理长文本时,先由少量Head从长上下文中“召回”相关信息,再在更局部的上下文范围内完成推理输出 [10][11] - 基于此,RTPurbo采用Headwise级别的混合压缩算法,仅保留关键长程Attention Head的全局信息(使用Full Attention),对剩余冗余Head直接丢弃远程Tokens(使用SWA) [4][7] 技术验证与性能表现 - 对比试验表明,仅**15%**的长程头使用Full Attention配合**85%**的Head使用SWA(方案一),其长文能力显著优于反向配置的方案二(后者保留**85%**的KV cache) [12][13] - 在2Wikimqa任务上,原模型(100% FULL)得分为**35.75%**,方案一为**35.40%**,方案二降至**32.58%**;在Passage_retrieval_en任务上,原模型与方案一均为**100%**,方案二降至**62.25%** [13][14] - 未经微调,方案一在Ruler-32k和Ruler-64k任务上表现几乎无损,分别为**96.06%**和**94.44%**,与原模型(**95.15%**和**94.57%**)相当 [14] - 但在某些特定任务(如Hotpotqa、Musique)上,未经微调的压缩模型会出现性能退化,表明需要额外训练来消化注意力模式切换带来的扰动 [14][15] 训练策略:自蒸馏解决数据与能力保留难题 - 直接使用长文SFT/预训练语料对RL后模型进行续训,会导致过拟合、灾难性遗忘,并损伤短文本任务能力,例如在MMLU-Pro上分数从**72.54%**降至**67.28%** [17][18] - RTPurbo采用“模型自蒸馏”作为关键训练策略,让压缩后模型对齐原模型输出,仅需约**1万条32k**长度的预训练语料(训练时间小时级),即可使长文任务表现与原模型持平 [19] - 该策略仅对模型自身输出进行对齐,避免依赖特定领域数据,从而确保短文本下游指标基本无损 [24] 压缩效果与通用能力保持 - 在长文本测试集Longbench上,压缩后的Qwen3-Coder-30B-A3B-Instruct平均得分达**52.02%**,略高于原模型的**51.20%**;Qwen3-Coder-Plus压缩后平均得分为**50.03%**,与原模型**49.82%**相当 [22] - 在Ruler测试集上,压缩模型在32k和64k长度下的平均得分分别为**92.31%**和**88.57%**,与原模型持平 [22] - 在多项短文本通用Benchmark上,采用自蒸馏训练的模型未出现性能衰减:例如Qwen3-Coder-30B-A3B在MMLU PRO上得分从**70.08%**微升至**70.55%**,在HumanEval上从**95.10%**升至**96.34%** [23] 工程优化与极致性能 - 为解决Headwise混合计算模式导致的负载不均衡问题,RTP-LLM在算子层与框架层做了针对性优化 [30][31] - 优化包括:对Full Attention Head进行PTX指令级优化、采用稀疏度感知的动态负载均衡调度、实现高效的SWA算子以避免冗余访存、以及用Context Parallel替代Tensor Parallel以提高GPU利用率 [34][35] - 通过综合优化,RTP-LLM能将Attention稀疏的理论收益稳定转化为端到端加速,在**256k**长序列下实现单算子最高**9倍**加速(图中仅使用**15%**的Full Attention) [35] 项目影响与开源 - RTPurbo被定位为一套具有良好可迁移性和通用性的长序列加速方案,可为更大规模、更多架构的LLM提供高性价比的推理加速路径 [25] - RTP-LLM是阿里巴巴智能引擎团队自研的高性能大模型推理引擎,支持了淘宝、天猫、高德、饿了么等核心业务的大模型推理需求 [37] - 项目模型与推理代码已发布至Huggingface和ModelScope平台,项目已在GitHub开源 [5][9][38]
DEADLINE ALERT: Faruqi & Faruqi, LLP Investigates Claims on Behalf of Investors of F5
Globenewswire· 2025-12-23 10:21
公司面临集体诉讼 - 律师事务所Faruqi & Faruqi正在调查针对F5公司的潜在索赔 并提醒投资者注意2026年2月17日的首席原告申请截止日期 [2] - 诉讼指控公司及其高管违反了联邦证券法 做出了虚假和/或误导性陈述 和/或未能披露公司安全能力的真实状况 [4] - 指控的核心是F5自身在当时正经历一次对其关键产品的重要安全漏洞 且该漏洞的披露将严重影响公司从安全市场中获利的潜力 [4] 安全漏洞事件详情 - 2025年10月27日 F5公布了2025财年第四季度业绩 并提供了远低于市场预期的2026财年增长指引 [5] - 业绩指引疲软在很大程度上归因于安全漏洞事件 公司宣布预计销售和续订将减少 销售周期延长 预测终止 以及因持续补救工作导致费用增加 [5] - 涉事产品BIG-IP是公司收入最高的产品 这扩大了事件影响的严重性 因为公司通常不按产品线披露收入构成 [5] 事件市场影响 - 消息公布后 F5普通股股价大幅下跌 [6] - 股价从2025年10月27日的收盘价每股290.41美元 下跌至2025年10月28日的每股258.76美元 [6] - 在两个交易日内股价累计下跌了10.9% [6]
媒体观察:价值链出海时代,IBM以AI重塑企业全球化能力
搜狐财经· 2025-12-22 14:32
北京,2025年12月22日——近两年,中国企业的增长重心正从市场层面的"出海",转向价值链层面的全 球化。企业不再满足于出口产品,而是将研发、供应链、营销与服务体系全面推向海外,构建本地化经 营能力。 然而,价值链全球化的难度在于:企业内部的数字化、智能化基础是否足以支撑跨地域协同、跨系统对 接与跨业务运作。这不只是技术问题,而是企业下一阶段竞争力的决定性变量。 在与众多出海企业的长期接触中,IBM大中华区技术销售总经理、首席技术官翟峰明显感觉到一个趋 势:出海已经不是选择题,而是必答题。这意味着企业需要一套能够跨地域协同、跨系统统筹、跨业务 贯通的数字化底座,而AI,已经成为构建这一底座的核心。 AI构建企业全球化底座 "企业想用好AI,不仅需要模型,还必须把底层数字化基座补齐,包括高质量的数据、安全治理以及集 成。"翟峰回顾IBM近年来的系列战略收购:从webMethods到DataStax,从HashiCorp到最新的 Confluent,这些背后共同指向企业当前最迫切的需求——智能化能力与全球化运营能力的同步构建。在 中国,IBM试图以"咨询+解决方案+平台+基础设施"的全栈方式,为企业提供"智能化 ...
5 Global Dividend Stocks to Add Stability to Your Singapore Portfolio
The Smart Investor· 2025-12-22 11:30
Singapore’s stock market offers banks, which are among the best in the world, and a large and tightly regulated REIT market. These are perfect for local investors to invest within their circle of competence.Yet, portfolios overconcentrated in finance and property are exposed to sector-specific risks.Here are five global dividend stocks that might beef up diversification in a portfolio.Johnson & Johnson (NYSE: JNJ) – Pursuing High-Margin GrowthAfter spinning off its consumer businesses to Kenvue in 2023, Joh ...
软件与服务- 软件能否在 2026 年重拾动能-Technology – Software & Services-Weekly Reboot – Can Software regain momentum in 2026
2025-12-22 10:31
涉及的行业与公司 * 本纪要为摩根士丹利关于欧洲科技行业的研究周报,核心覆盖**软件与服务**、**支付与金融科技**、**IT服务**及**信息服务**四大子行业 [1][6][7] * 报告详细覆盖了数十家欧洲上市公司,包括但不限于: * **软件**:Amadeus、Dassault Systèmes、SAP、Sage、Temenos、Nemetschek、Sinch、TeamViewer、Trustpilot、Hexagon AB [10][11] * **支付与金融科技**:Adyen、Nexi、Wise、WAG Payment Solutions (Eurowag)、Worldline [10][11][15] * **IT服务**:Capgemini、Accenture(作为参考)、Computacenter、Softcat、SoftwareOne、Indra Sistemas、Sopra Steria、Tietoevry、Netcompany、IONOS Group、OVH Groupe [2][11][18] * **信息服务**:Informa、RELX、Wolters Kluwer、Springer Nature [11][20] 核心观点与论据 * **2026年行业展望**:报告发布了针对2026年的“重大议题”研究,涵盖欧洲研究的34个议题和约25个行业,核心探讨**软件行业能否在2026年重获增长动力**以及**代理商务(agentic commerce)是否会在支付公司中推动进一步分化** [1][10] * **AI已成为增长核心驱动力**:从TMT 2025会议的讨论中明确,**AI已不再是实验性技术**,正在驱动实际增长、重塑客户体验并加速整个科技领域的创新 [3] * **具体公司积极信号**: * **Accenture**:其2026财年第一季度业绩在收入和利润率上均超共识预期,尽管全年指引未变,但这对欧洲IT服务行业(特别是Capgemini)是一个轻微利好 [2] * **Microsoft**:与微软各业务高管的会面增强了对其稳健需求的信心,预计将转化为**持续的中双位数收入增长**,并对投资回报率推动运营利润率持续扩张更有信心,这将驱动**高双位数的每股收益复合年增长率** [4] * **Tata Consultancy Services**:其战略转向提供**全栈AI驱动服务**(从基础设施层到智能层),认为企业AI之旅仍处于早期阶段,TCS将发挥关键作用,AI将打开可寻址市场 [5] * **行业评级与目标价**:报告给出了覆盖公司的具体评级和股价目标,例如对Amadeus、Dassault Systèmes、SAP、Adyen等给予“超配”,对Nexi、Temenos给予“低配” [11] * **公司财务指引汇总**:报告详细列出了覆盖公司的近期及中长期财务指引,例如: * **SAP**:中期目标为云收入超过215亿欧元,总收入超过375亿欧元,云毛利率约76%,非IFRS营业利润率约30.7% [13] * **Adyen**:2026年后的目标是**在任何给定年份实现约20%的年度净收入增长** [15] * **Capgemini**:预计2025年按固定汇率计算增长+2.0%至+2.5%,营业利润率13.3%至13.4% [18] * **Indra Sistemas**:长期目标为FY30收入达到100亿欧元,FY30息税前利润率达到12% [18] 其他重要内容 * **估值图表**:报告包含了大量历史估值图表,展示了欧洲软件与信息服务、IT服务等板块的**NTM市盈率**相对于Eurostoxx 600指数的走势,以及各主要公司的长期市盈率和企业价值/销售额比率图表 [21][22][23][24][25][26][27][28][29][31][32][33][34][35][36][38][39][40][41][43][44][45][46][47][48][50][51][52][54][55][56][57][58][61][62][63][64][65][68][69][70][71][72][74][75][76][78][79][80][81][84][85][88][89][90][92][93][94][95][96][97][99][100][101][102][103][104][105][106][107][109][110][111][112][113][114][116][117][118][119][120][121][123][125][126][127][129][130][131][132][133][135][136][137][138][139][141][142][143] * **潜在利益冲突披露**:摩根士丹利声明与报告覆盖的许多公司存在业务关系,可能产生利益冲突,并具体列出了其持股超过1%、在过去12个月内提供过投行服务或预计在未来3个月内寻求投行服务补偿的公司名单 [8][151][152][153] * **研究范围与日历**:列出了未来四周的覆盖日历,其中提到OVH Groupe将于2026年1月8日发布2026财年第一季度业绩 [12] * **分析师认证与评级定义**:报告末尾包含分析师认证,并详细解释了“超配”、“均配”、“未评级”、“低配”等股票评级的具体定义 [150][161][167][168]
The 3 Deep Learning Stocks That Could Be Worth 50% More by 2027
The Motley Fool· 2025-12-21 23:50
2025 was a solid year, and valuations aren't cheap, yet there is still significant upside left in these three AI leaders.2025 is nearly over, and despite the strong year, many investors are biting their fingernails over the prospects for 2026. Will the artificial intelligence (AI) boom continue despite talks of a bubble and debt investors recently balking at funding large-scale data centers? Whom will President Donald Trump pick as the new Federal Reserve chair, and will the new nominee be independent?Short ...
The Magnificent Seven Myth Is Starting to Crack
Yahoo Finance· 2025-12-21 23:23
Lee pointed out that the S&P 500 itself has still had a very good year, up roughly 15% to 17%, and is on track for a third consecutive year of double-digit gains. That is rare. This has been one of the longest bull runs we have seen since the mid-1990s, rivaling the recovery periods after the dot-com bust and the financial crisis.I said plainly that when leading stocks start to run out of gas, that is often how market tops are formed. You do not need the entire market to collapse. You just need fewer stocks ...
What Is the Best Quantum Computing Stock Billionaire Investors Are Buying Right Now?
The Motley Fool· 2025-12-21 13:00
Quantum computing stocks are becoming more popular on Wall Street.When it comes to investing in quantum computing stocks, it's natural for pure plays like IonQ, Rigetti Computing, or D-Wave Quantum to surface first in the conversation. What investors may not fully realize, however, is that a number of megacap tech companies are also exploring the advantages of quantum artificial intelligence (AI).For instance, cloud hyperscalers Microsoft and Amazon have each designed their own quantum chips. Meanwhile, Nvi ...
甲骨文-若你搭建了平台,客户会买单吗?
2025-12-20 17:54
涉及的公司与行业 * 公司:甲骨文公司 [1] * 行业:科技、媒体与电信投资级信用债 [3] 核心观点与论据 * **投资评级与观点**:报告对甲骨文维持“中性”评级,认为其信用利差缺乏持续收窄的明确催化剂 [3] 信用利差在财报发布后两天平均走阔约30个基点,5年期CDS达到近二十年高点 [3] * **财报表现评估**:F2Q业绩整体符合预期,但增长质量和潜在指标需谨慎看待 [8] 总收入同比增长13%至160.6亿美元,略低于预期的161.9亿美元 [8] 云收入同比增长33%,占总销售额一半 [8] 剩余履约义务同比激增433%,环比增长15%,达到5230亿美元 [8] 自由现金流因资本支出高于预期而大幅下降至-100亿美元 [8] * **业绩指引与资本支出**:管理层重申2026财年670亿美元的收入目标 [8] 将2026财年资本支出指引大幅上调约150亿美元至约500亿美元 [3][8] 预计F3Q云收入同比增长39%,总收入增长17% [8] * **云基础设施业务**:OCI收入增长66%至41亿美元 [10] GPU相关收入同比增长177%,多云数据库消费量同比增长817% [10] * **资产负债表与融资**:F1Q末总债务1080亿美元,现金及等价物200亿美元,净杠杆率约3.32倍 [10] 管理层将AI基础设施建设融资方案主要框定在债务范畴,包括高级无担保债券、定期贷款和私人信贷 [3][4] 资产负债表外新增2480亿美元的租赁承诺,主要与数据中心相关 [10] * **信用评级与风险**:三大评级机构给予投资级评级,但穆迪和标普展望为负面 [2] 穆迪确认Baa2评级,但指出交易对手风险以及支持增长所需的支出和承诺是主要的信用担忧 [10] 报告认为,要实质性缓解担忧,公司需要承诺维持BBB中段评级、削减股息、阐明杠杆目标或表示对股权融资持开放态度 [3] 其他重要内容 * **客户集中度与风险**:管理层强调Meta和英伟达是关键超大规模客户,但显著避免提及OpenAI [8][10] 报告指出这凸显了风险集中度以及规模化AI基础设施盈利面临的竞争挑战 [8] * **租赁负债处理**:标普和穆迪表示会将租赁负债合并计入经调整的杠杆率,并利用披露的表外租赁承诺来预测杠杆率 [10] * **融资结构可能性**:报告认为,尽管普通股发行可能性极低,但甲骨文最终可能需要转向混合或优先股发行,以部分解决投资者担忧并控制杠杆 [4] * **市场情绪与担忧**:财报整体基调令人失望,加剧了市场对AI资本支出上升和基本需求质量的担忧 [3] 投资者越来越关注执行风险、自由现金流压力以及甲骨文可能正在前置一个比当前指引更具波动性的周期 [3]
FFIV INVESTOR ALERT: F5, Inc. Investors with Substantial Losses Have Opportunity to Lead the F5 Class Action Lawsuit
Prnewswire· 2025-12-20 10:55
集体诉讼案件概述 - 律师事务所Robbins Geller Rudman & Dowd LLP宣布,针对F5公司的证券集体诉讼已提起,案号为Smith v. F5, Inc., No. 25-cv-02619 (W.D. Wash.) [1] - 该诉讼旨在代表在特定“集体诉讼期”内购买或获得F5公司证券的投资者,指控F5及其部分高管违反了1934年《证券交易法》 [1] - 希望作为首席原告的投资者需在2026年2月17日前向法院提交动议 [1] 公司业务与指控核心 - F5是一家全球多云应用安全和交付公司,帮助客户在本地或公共云上部署、保护和管理应用 [2] - 诉讼指控,在集体诉讼期间内,被告制造了虚假印象,让人误以为其拥有关于F5收入前景和预期增长的可靠信息,并淡化了季节性和宏观经济波动的风险 [3] - 指控称,F5当时实际上正遭受一起重大的安全事件,这使其客户的安全和公司未来前景面临重大风险,与其宣扬的行业最佳安全能力和对满足客户安全需求的信心不符 [3] 指控涉及的关键事件与市场影响 - 2025年10月15日,F5披露在2025年8月发现一个高度复杂的国家级威胁行为体长期、持续访问了其某些系统并下载了文件,受影响的系统包括其BIG-IP产品开发环境和工程知识管理平台 [4] - 此消息披露后,根据起诉书,F5股价在两个交易日内下跌了近14% [4] - 2025年10月27日,F5发布了2025财年第四季度业绩,并提供了远低于市场预期的2026财年增长指引,主要原因包括此次安全漏洞 [5] - F5宣布预计销售和续订将减少、销售周期延长、预测终止,以及因持续补救工作导致费用增加 [5] - 被告还披露,此次安全漏洞涉及的产品BIG-IP是F5收入最高的产品 [5] - 在此消息披露后,根据起诉书,F5股价在两个交易日内下跌了近11% [5]