Llama
搜索文档
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」
机器之心· 2026-05-06 16:39
大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型 (SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升 就微乎其微。 针对小模型在强化学习中的推理困境,香港中文大学(深圳)T-Lab 唐晓莹教授携课题组博士毕业生郭永新、邓文博提出了全新算法 G²RPO-A(Guided Group Relative Policy Optimization with Adaptive Guidance)。已被 ACL 2026 主会议(Main Conference)接收。 该方法通过在 roll-out 过程中注入高质量思维轨迹,并根据训练状态动态调整指导强度,有效缓解小模型面临的奖励稀疏问题。在 Llama、Qwen、 DeepSeek 等多个主流模型家族上的实验表明,G²RPO-A 在数学推理和代码生成任务上显著优于 vanilla GRPO,其中 Qwen3-1.7B 在 MATH500 上从 50.96 提升到 6 ...
Publishers sue Meta for copyright infringement over AI training
Yahoo Finance· 2026-05-05 23:02
诉讼核心事实 - 五家主要出版商和畅销书作家斯科特·图罗对Meta及其CEO马克·扎克伯格提起集体诉讼,指控其盗用数百万本书籍和期刊文章来训练Llama人工智能模型 [1] - 原告方包括出版商阿歇特、麦克米伦、麦格劳-希尔、爱思唯尔和圣智学习,案件在曼哈顿联邦法院提起 [2] - 诉状指控Meta工程师通过Anna's Archive搜索引擎获取盗版书籍和文章,用于训练模型,并指控扎克伯格“亲自授权并积极鼓励了侵权行为” [2] 被指控的侵权行为细节 - 据称用于训练的著作范围广泛,包括教科书、科学文章和小说,例如N.K.杰米森的《第五季》和彼得·布朗的《野生机器人》 [3] - 原告方以Llama的输出作为证据,例如当被要求模仿作者贝基·洛马克斯的风格撰写旅行指南时,模型回应称其训练数据包含了她的已出版作品 [4] - 诉状警告,人工智能生成的图书正以“大量取代人类创作作品”的规模出现在亚马逊上 [5] 涉事公司的回应与立场 - Meta否认指控,其发言人声明训练人工智能使用受版权保护的材料可以构成合理使用,并表示将积极应诉 [5] - 美国出版商协会主席玛丽亚·帕兰特批评科技公司“优先考虑盗版网站而非学术和想象力” [5] 行业背景与影响 - 此次诉讼是人工智能公司与版权持有者(包括作者、新闻机构、视觉艺术家和出版商)之间一系列版权纠纷的最新案例之一 [5] - Meta、OpenAI、Anthropic等公司都曾因在人工智能训练中使用受版权材料而面临侵权索赔 [5] - 法院目前对于此类使用是否构成版权法下的合理使用尚未达成一致结论 [5] - Anthropic与指控其盗版的一群作者达成了据信是该类诉讼中的首个重大和解,同意支付15亿美元 [6]
Nebius to acquire Eigen AI in $643m cash-and-stock deal
Yahoo Finance· 2026-05-04 19:55
收购交易概览 - 荷兰AI云公司Nebius已同意以现金加股票交易方式收购专注于推理和模型优化的公司Eigen AI,交易价值约为**6.43亿美元**[1] - 此次收购旨在将Eigen AI的推理及训练后优化技术直接整合至Nebius的托管AI生产平台“Token Factory”中[1] 收购战略与整合目标 - 整合计划旨在支持企业级部署,包括为广泛的开源模型提供自动扩展端点和微调功能[2] - 将Eigen AI的技术栈整合进Token Factory,旨在提高硬件效率和吞吐量,同时减少客户的运营开销[6] - 此次整合将使Nebius Token Factory处于推理技术前沿,为客户提供市场领先的模型性能、单位经济效益以及大规模计算能力支持[7] 市场扩张与团队整合 - 此次收购标志着Nebius向美国市场扩张,Eigen AI的创始研究人员将加入Nebius,并在旧金山湾区建立一个工程与研究中心[2] - Eigen AI的关键团队成员包括在稀疏注意力研究方面知名的联合创始人Ryan Hanrui Wang,以及在激活感知权重量化方面获得认可的联合创始人Wei-Chen Wang,联合创始人Di Jin曾为Meta的大语言模型和强化学习框架做出贡献[3] - 创始团队此前曾在麻省理工学院的HAN实验室和CSAIL从事研究[3] 行业背景与技术定位 - 行业趋势显示,推理是目前AI领域增长最快的部分,预计今年将占计算需求的**约三分之二**[4] - 生产环境中开源模型的采用日益增加,使得推理优化成为优先事项,尤其是新模型架构对内存和计算资源提出了额外需求[5] - Eigen AI的技术旨在解决从训练后、微调到生产部署的整个模型生命周期的优化需求,支持包括GPT-OSS、Qwen、Gemma、Nemotron、Llama、GLM、DeepSeek、Kimi和MiniMax在内的多种流行开源模型[6] 合作愿景与客户价值 - Eigen AI联合创始人表示,加入Nebius后将与Token Factory团队合作,共同突破推理性能的边界,消除AI模型定制和部署的摩擦,使开发者能够可靠地在生产环境中运行模型而无需管理底层基础设施[4] - Nebius与Eigen AI此前已有合作,其实施方案在Artificial Analysis的评估中获得了高性能排名[2]
One Line In Meta's Earnings Wiped Out The Celebration
Benzinga· 2026-04-30 22:15
核心观点 - 市场对Meta公司资本支出大幅上调的反应负面 突显投资者对AI领域高投入但短期回报不明确感到担忧 股价因此大幅下跌 [2] - AI竞赛的成本正在快速上升 但市场开始关注支出与回报之间的关联 单纯的高投入已不足以支撑股价 [2][5] 资本支出与市场反应 - Meta公司将其2026年资本支出指引区间从1150亿至1350亿美元 上调至1250亿至1450亿美元 [2] - 尽管公司基本面依然稳健 增长和现金流强劲 但股价在盘后交易中因资本支出增加而大幅下跌 [2][5] - 与微软等同行不同 Meta未能获得市场对其AI成本上升的同等理解 市场反应更为负面 [3] 技术面与同业比较 - 在财报发布前 Meta股价的技术形态已经出现走弱迹象 股价从高位大幅回撤 逼近关键移动平均线 [4] - 动量指标转弱 MACD回落 RSI跌至40左右的低位 显示趋势强度发生转变 [4] - 与同业相比 分化加剧 与可直接货币化AI的云业务公司相比 Meta股价开始表现落后 [4] AI投资回报的可见性 - Alphabet和微软可以指出云收入作为AI基础设施的近期回报 而Meta的回报路径更难以量化 分散在广告系统、参与度提升以及Llama等长周期项目中 [5] - 市场正在重新评估其预期 在当前AI投资阶段 仅靠支出已不够 需要看到明确的转化和回报 [5][6] - 整个科技行业的AI支出正逼近7000亿美元 市场开始划清支出与回报的界限 [2]