测试时间计算

搜索文档
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
选自 Symbolic Capital 作者:Sam Lehman 机器之心编译 AI / 机器学习 scaling 简史 (极简版) 强化学习(RL)是当今 AI 领域最热门的词汇之一。近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意 义。 原文地址:https://www.symbolic.capital/writing/the-worlds-rl-gym 「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。」这句话形容当今的现代 AI 领域最为贴切。似乎每天都有新的突破性模型、训练方法或公司 涌现,迫使我们重新思考 AI 世界的可能性。今年早些时候是 DeepSeek,接下来是星际之门项目,现在还有 Qwen、Manus、MCP 等。谁知道接下来会发生什么? 目前,在打造更好的模型方面,通过预训练以及最近的测试时间计算进行 scaling 是引领性方法。但最近,随着 DeepSeek-R1 和 R1-Zero 的发布,人们开始更加亲 睐一种不同的模型 scaling 方法 —— 强化学习(RL)。本文的目标是探索基于 RL 的模型改进的含义,并会特别 ...
一颗芯片的豪赌
半导体行业观察· 2025-03-15 11:46
文章核心观点 亚马逊押下巨资挑战Nvidia,通过垂直整合策略利用自制Trainium 2微处理器打造“Rainier项目”,若成功亚马逊和Anthropic将双赢,虽面临吸引客户质疑及Nvidia竞争,但合作有互惠互利之处且亚马逊只需Trainium获得一定成功减少对Nvidia依赖即可 [1][2][11] 亚马逊挑战Nvidia举措 - 亚马逊用5纳米Trainium 2微处理器打造“Rainier项目”,由收购的Annapurna Labs设计,通过垂直整合榨取芯片计算能力 [1] - 亚马逊希望通过精心设计数据中心,从数⼗万个Trainium 2芯片中获取最大计算能力 [1] 与Anthropic合作情况 - Anthropic是亚马逊重要客户,同意用Rainier训练Claude下一版本,使其性能更佳、成本效益更高 [2] - 亚马逊80亿美元投资使Anthropic估值达600亿美元,此前该公司用Google Tensor处理器和Nvidia GPU训练Claude早期版本 [2] - 两家公司合作在亚马逊投资Anthropic之前就已开始,Annapurna曾向Anthropic提供第一代Trainium芯片试用 [5] 竞争优势与挑战 - 亚马逊Trainium芯片已找到市场,公司称制造和交付的每款芯片都有客户等待 [5] - 转向Trainium 2的好处是亚马逊同意开放指令集,利于Anthropic优化模型 [6] - 因Cuda领先优势,与Nvidia竞争极其困难,且Nvidia面临短缺问题 [3][4] - 《商业内幕》称亚马逊一直努力寻找芯片客户,去年AWS最大客户对Trainium芯片的采用率仅为Nvidia GPU的0.5%,Inferentia芯片为Nvidia使用率的2.7% [12] Rainier项目特点 - Rainier项目计划将单个计算集群划分为多栋建筑,通过“弹性光纤”高速数据连接,让模型训练像在一个屋檐下运行 [10] Anthropic的考量 - Anthropic聘请工程师对Nvidia GPU逆向工程获取指令集架构,以优化模型 [6] - 使用Trainium芯片有学习曲线,但Anthropic和少数公司可利用访问权限改进芯片 [7] - 若Anthropic用Trainium芯片训练模型,其客户可能成为亚马逊网络服务实际客户 [8] Claude聊天机器人情况 - Claude AI聊天机器人受专业软件开发人员喜爱,但存在速率限制问题 [2] - Claude旗舰型号因能生成高质量计算机代码,在人工智能领域颇有名气 [11]