Workflow
Reinforcement Learning
icon
搜索文档
ChatGPT Agent 团队专访:基模公司做通用 Agent,和 Manus 有什么不一样?
Founder Park· 2025-07-23 21:23
ChatGPT Agent技术架构 - 结合深度研究和Operator两大方向,创造具备文本浏览器、图形界面浏览器及终端权限的多工具集成Agent,实现工具间状态共享[6][7] - 通过强化学习在数千个虚拟机训练,模型自主探索工具使用策略而非预设编程模式,完成需1小时执行的复杂任务[10][11][18] - 技术突破包括突破上下文长度限制的扩展能力,以及实时观察/干预的虚拟计算机界面设计[19][21] 核心功能与应用场景 - 典型任务覆盖深度研究报告生成、商业操作(预订/采购)、幻灯片/表格制作及数据分析,支持B2C/B2B混合的"专业消费者"场景[13][16] - 演示案例包括自动搜集OpenAI财务数据生成估值模型幻灯片(耗时28分钟),以及古代DNA研究资料整合[16][15] - 代码处理能力表现为交互式函数建议而非全量重写,与Codex形成互补[24][25] 训练方法与工程挑战 - 训练数据采用小规模高质量数据集,强化学习数据效率比预训练高数个量级[29][32] - 关键难点在于维持数千虚拟机同时联网训练的稳定性,以及"比特世界2"项目鼠标路径识别等历史难题的算力突破(计算量增长约10万倍)[22][29] - 安全机制包含多层监控体系,针对金融操作/生物危害等风险进行专项红队演练[36][39] 未来发展方向 - 目标构建通用型Agent框架,覆盖人类计算机操作全任务集,通过迭代提升准确率[23][33] - 探索个性化/记忆功能、主动任务触发等新型人机交互范式[26][34] - 技术路线倾向于单一底层模型支持多技能迁移,而非垂直领域子Agent分化[27]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
机器之心· 2025-07-21 12:04
核心观点 - 提出基于视觉 Grounding 的多轮强化学习方法 MGPO,使多模态大模型(LMMs)能在多轮交互中自动预测关键区域坐标,裁剪子图像并整合历史上下文,实现高分辨率图像的精准推理 [1][8] - MGPO 无需额外 Grounding 标注,仅通过最终答案正确性的反馈即可让模型涌现出鲁棒的视觉 Grounding 能力 [2][8] - 相比监督微调(SFT)和 GRPO,MGPO 在高分辨率图像 Benchmark 上表现显著提升,在 MME-Realworld 和 V* Bench 分别提升 5.4% 和 5.2% [18] 方法创新 - 自上而下的可解释视觉推理:赋予 LMMs 问题驱动的视觉搜索机制,提供可解释的视觉 Grounding 输出 [2] - 突破最大像素限制:即使高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标并从原始图像中裁剪出清晰子图像 [2] - 固定两回合对话模板:解决模型冷启动问题,第一轮要求输出区域坐标,第二轮回答问题 [13] 实验结果 - 在 V* Bench 上,MGPO 达到 76.4 分,超过 GRPO 的 71.2 分和 SFT 的 71.7 分 [18] - 基于 7B 模型和 2.1 万样本训练的 MGPO 模型超过 OpenAI 的 o1(69.7 分)和 GPT-4o(73.9 分)[18] - RL 训练过程中,MGPO 生成的有效 Grounding 坐标比例显著上升,证明其自主涌现视觉 Grounding 能力 [19] 技术原理 - 模拟人类多步视觉推理:先预测关键区域坐标并裁剪子图像,再结合上下文进行推理 [10] - 坐标归一化与子图像裁剪:从原始高分辨率图像中裁剪清晰子图,避免缩放导致的细节丢失 [15] - 仅需标准 VQA 数据即可训练,无需昂贵 Grounding 标注 [8][19]
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 14:13
纪要涉及的行业和公司 - 行业:自动驾驶(Robotech)行业 - 公司:小马、百度、文远、滴滴、Otto X、Vimo 纪要提到的核心观点和论据 技术架构与算法框架 - 最初自动驾驶底层算法框架是模块化做法,包含感知、预测、规控、规划和控制,如今强化学习和世界模式加入,但原框架未完全拿掉 [2] - 产业链车企经历从CNN架构到transformer的转变,小马逐步将规则方案替换为模型输出,出发晚的车企替换更容易,小马因原有方案基线高,替换需更长时间 [3][4] - 感知和预测模块很早就用模型做,规控模块虽有模型应用但未完全大模型化,业界多是一段式端到端化,大语言模型未上车,模型训练已使用transformer底层架构 [5][6][7] 数据处理 - 小马内部有模块化和端到端两种方案,模块化方案目前大部分用真实数据,端到端和规控模型化会增加仿真数据使用,因规控数据不足,仿真数据可解决corner case问题 [8][9] 学习方法应用 - 模仿学习较早用于规则处理不好的场景,强化学习用于e2e模型和部分小模块,使用比例不大 [11] 车辆投放 - 目前有安全冗余或测试车辆约小几百(300)辆,主要投放于北京和广州(北京在益州,广州在南沙区),深圳(前海)和上海较少 [14] - 今年计划扩大投放,主要城市为北京、广州和深圳,若上海拿到牌照也会增加投入 [21] 车辆成本与配置 - 车辆成本十几万,加装成本为主,包括9个激光雷达、13 - 14个相机、4个Orin X车载芯片及定位、线控等模块,成本在几万块以内,之前对内称整套成本可控制在20万以内 [15] 算力分配与融合方案 - 算力架构采用前融合和后融合并存,有冗余性,4个Orin X芯片中3个开启,1个备用。第一个芯片运行大部分感知模型,第二个芯片运行部分无雷达输入或对实时性要求稍低的模型,第三个芯片部分模型可能移至第二个芯片 [17][18] - 目前算力吃紧,2024年部分精力用于削减个体量化,暂无换CPU计划 [19] 运营经济账 - 每辆车每天接单约30单,每单平均价格约29元,可据此估算营收。成本主要是电费、车辆折旧费,还有人工充电、车辆维修等成本,1000多辆车可实现盈亏平衡 [24][25] - 后台安全员人车比去年为1:3 - 1:6,现在部分情况可达1:20 [25] 商业化落地排序 - 全球来看,Vimo在美国落地较多,走在前面;国内参与者中,小马、百度的阿波罗、文远较靠前,滴滴靠后,Otto X、袁隆等已停止相关业务 [27][28] - 小马拿商业牌照速度比百度快,内部端到端模型在某些情况下输出结果优于模块化模型,未来有望切换到端到端方案 [28][29] 其他重要但是可能被忽略的内容 - 公司计划在2027年底或2028年底实现公司层面盈亏平衡,可能需要万辆以上甚至十万辆车 [26] - 后续会议将关注无人物流等行业头部公司进展 [30]
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 13:08
核心人才流动 - OpenAI研究员Jason Wei和Hyung Won Chung将加盟Meta超级智能实验室 两人在OpenAI的Slack账户已停用 [1] - Jason Wei曾参与OpenAI的o3模型开发 是强化学习领域的专家 此前在谷歌专注于思维链研究 [1] - 人才流动引发外界对OpenAI团队文化的好奇 前员工Calvin French-Owen分享内部观察 [2][3] 公司文化特征 - OpenAI采用自下而上的研究模式 没有统一路线图 研究方向由研究员兴趣驱动 [10][11] - 沟通高度依赖Slack 任职期间仅收到10封邮件 信息管理依赖个人组织能力 [10] - 决策迅速 能根据新信息快速转向 体量庞大仍保持敏捷性 [12] - 推崇任人唯贤 领导晋升取决于提出好问题和实践能力 而非会议说服力或政治手腕 [11] 研发与项目运作 - Codex项目仅用7周完成 由8名工程师 4名研究员等组成的小团队推动 [26][28] - 采用"迷你主管"模式 研究人员自主探索问题 结果导向决定资源投入 [12] - 存在多个并行原型项目 如Codex发布前内部有3-4个不同原型在推进 [11] - 使用单体monorepo代码库 主要语言为Python 服务运行在Azure Kubernetes上 [20][22] 业务与竞争格局 - 最大成本为GPU算力 Codex某项功能的GPU成本相当于Segment整个基础设施 [17] - 同时竞争数十个领域 包括API产品 深度研究 硬件 图像生成等 [18] - 面临Meta 谷歌 Anthropic三足鼎立的AGI竞争格局 [33] - 高度关注Twitter舆论 有专人跟进热门帖文 被戏称"靠网络舆论运转" [18] 产品与技术特点 - ChatGPT Connectors采用异步方案 用户可像对待同事一样与编程智能体交互 [28] - Codex擅长处理大型代码库 能同时启动多任务比较输出 发布53天生成63万条PR [30] - 模型训练经历从小规模实验验证到大规模运行的工程化过程 [24] - 安全团队规模庞大 优先处理实际风险如仇恨言论 生物武器制造等 [16] 组织扩张与挑战 - 员工数量从1000人快速扩张至3000人 任职一年的员工资历排名前30% [10] - 不同团队文化差异显著 有的全力冲刺 有的稳定推进 有的专注临门一脚 [10] - 工程工具跟不上团队扩张速度 主服务器CI频繁中断 测试运行需半小时 [22] - 保留技术理想主义 以实现AGI为目标 允许试错并快速修正 [4][15]
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 21:59
具身智能技术发展 - 具身智能技术正在快速成为现实 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在布局这一领域 该技术将彻底改变制造业、服务业、医疗健康、太空探索等行业 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑" 还要拥有能够感知和改变物理世界的"身体" 使其能够理解物理定律、掌握运动技能、适应复杂环境 [1] - 该技术的应用场景包括工厂精密装配、医院手术协助、家庭贴心服务、危险环境救援等 潜在影响力是革命性的 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [3] - 相比传统方法 MuJoCo可使仿真速度比现实时间快数百倍 支持高度并行化计算 可同时运行成千上万个仿真实例 [5] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的复杂交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [5] 行业应用与认可 - MuJoCo已成为学术界和工业界标准工具 大量前沿研究基于MuJoCo进行 Google、OpenAI、DeepMind等科技巨头都在使用该技术 [7] - 掌握MuJoCo意味着站在具身智能技术最前沿 拥有参与技术革命的入场券 [7] 课程内容设计 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等前沿应用 [9][15] - 项目一:智能机械臂控制系统 涉及MuJoCo建模、物理仿真、基础控制等技术 构建六自由度机械臂模型 [17][18] - 项目二:视觉引导的抓取系统 添加视觉感知能力 实现物体检测和抓取 理解感知与控制的关系 [19] - 项目三:强化学习驱动的运动技能 训练智能体学会复杂运动技能 如机械臂抛接球、四足机器人奔跑等 [20] - 项目四:自适应控制与轨迹优化 实现模型预测控制算法 进行实时轨迹优化 [21] - 项目五:多机器人协作系统 设计多机器人协调配合 共同完成复杂任务 [22] - 项目六:Sim-to-Real迁移验证 通过域随机化技术提高鲁棒性 在真实机器人上进行验证 [23] 技术能力培养 - 课程将培养学员掌握MuJoCo各项功能 构建复杂机器人仿真环境 实现高保真物理交互 [25] - 深入理解强化学习核心算法 掌握机器人控制理论基础和实践技巧 实现精确运动控制和轨迹跟踪 [25] - 掌握Sim-to-Real迁移技术 将仿真成果成功应用到真实世界 [25] - 培养完整项目开发经验 熟悉现代AI开发工具链 包括Python生态、深度学习框架等 [25] - 通过六个递进式项目实践 培养独立解决复杂问题的能力 成为具身智能领域复合型人才 [26] 课程安排 - 课程采用六周渐进式学习设计 每周有明确学习目标和实践项目 [14] - 每周内容:MuJoCo基础入门、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统、Sim-to-Real迁移 [17] - 开课时间为2025年7月15日 采用离线视频教学 vip群内答疑方式 [27] 目标人群 - 机器人/强化学习方向研究生、本科生 期望快速补齐实战能力 [29] - 具身与机器人从业者 已有编程或算法基础 想进军该领域 [29] - 从传统CV、自动驾驶、机械臂转向具身机器人研究或工程的转行者 [29] - 对前沿技术感兴趣的爱好者 [29]
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 20:07
核心观点 - 互联网是推动人工智能进步的核心技术,而非Transformer等模型架构,互联网提供了海量、多样化的数据,是next-token预测的完美补充 [1][5][55] - 自GPT-4以来,基础模型能力未显著提升,优化模型结构或手工制作数据集难以带来质的飞跃,研究者应转向互联网数据研究而非RL [1][13][16] - 互联网具备四大关键特性:数据多样性、自然学习路径、产品市场契合度、经济可行性,这些特性使其成为AI训练的终极数据源 [54][60] Transformers的局限性 - Transformer架构并非AI进步的关键,自GPT-4后更好的架构(如SSMs、Mamba)未带来显著性能提升,因当前范式已转向数据受限时代 [11][13][14] - 若无互联网,仅依赖书籍或教科书训练模型会导致知识面狭窄,如phi模型虽在小规模任务表现优异,但世界知识储备和创造性不足 [28][30][31] - 数据质量与数量之争:教科书代表高质量但窄领域数据,互联网则提供行星级规模的自然数据分布,后者更利于模型泛化能力 [23][24][28] 互联网作为AI训练基石的四大优势 数据多样性 - 互联网包含多语言、多文化、多视角数据,去中心化结构保障了数据多样性,删除特定数据会导致模型认知版图缺失 [36][43][52] - 对齐研究显示,预训练需同时接触对齐与非对齐数据(如4chan有毒数据),模型才能理解边界,纯净化数据反而损害性能 [37][38][39] 自然学习路径 - 互联网数据天然形成难度梯度(如从Khan Academy到arXiv),为模型提供渐进式学习课程,避免手动设计数据集的低效 [43][44][47] - RL依赖密集课程学习,互联网用户贡献行为(如点赞、创作)自发形成类似AlphaZero自我博弈的进化压力 [44][46][47] 产品与研究的协同 - 互联网用户真实需求驱动数据生产,与研究者手动策划数据集存在本质差异,决定模型能力的应是用户而非研究者 [48][51][52] - AGI应记录人类完整文化演变(如Wikipedia、GitHub、社交媒体),而非理想化片段,模型偏差反映的是真实人类认知偏差 [52][53] 经济可行性 - 互联网低成本特性使其规模化成为可能,高昂订阅费会抑制用户数据贡献,经济可行性是数据扩展的前提条件 [51][54][60] RL与next-token预测的对偶性 - next-token预测与互联网存在隐喻性对偶关系(如序列数据对应HTML文件,推理成本对应经济可行性),RL尚未找到类似对偶 [55][57] - RL当前数据源(人类偏好、可验证奖励)存在噪声大、领域窄等问题,需探索如机器人学、推荐系统等新场景,但均面临规模化挑战 [61][62][63] - 用RL优化困惑度是方向性错误,应寻找全新数据源而非改造旧目标,RL流形(对偶系统)的发现将是重大突破 [58][65][67]
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 12:26
大模型后训练阶段的奖励建模方法 - 强化学习是大模型后训练阶段提升能力、对齐人类偏好的核心方法,但奖励模型的设计与训练是关键瓶颈 [2] - 主流奖励建模方法包括"基于偏好的奖励建模"和"基于规则的验证",前者存在数据获取成本高、泛化能力有限问题,后者难以扩展到通用场景 [3] - 需要一种扩展方便、泛化性强、场景通用的奖励建模方案,类似大语言模型通过Next Token Prediction统一任务的思路 [4] POLAR奖励模型的核心创新 - POLAR采用策略判别学习(Policy Discriminative Learning)方法,通过衡量候选策略与最优策略之间的"距离"建立奖励信号,摆脱对绝对偏好的依赖 [8][9] - 利用对比学习建模策略分布差异,同一策略生成的轨迹作为正例,不同策略生成的轨迹作为负例 [10] - 预训练阶段完全使用自动化合成数据构建,POLAR-1.8B和POLAR-7B分别使用0.94T和3.6T Token数据 [14] POLAR的训练与应用效果 - 两阶段训练:预训练阶段使用Bradley-Terry Loss学习策略差异,微调阶段使用少量偏好数据对齐人类偏好 [14][15] - 在STEM任务中,POLAR-1.8B和POLAR-7B分别超越最佳基线24.9和26.2个百分点 [33] - 使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0%,相比WorldPM-72B-UltraFeedback优化结果提升6.7% [34] POLAR的技术优势与潜力 - 展现出与LLM类似的Scaling Laws,验证集损失随模型参数和计算量增加呈幂律关系下降 [35] - 1.8B参数的POLAR即可取得与15倍和40倍参数量的SOTA模型相当结果,显示强大潜力 [33] - 为通用RFT提供有效实践方案,有望打通RL链路扩展的最后一环 [37]
两个华人 AI 分别融了数千万美金:创始人都来自 Meta
投资实习所· 2025-07-09 13:42
华人AI团队融资与产品创新 - Pokee AI完成1200万美元种子轮融资 由Point72 Ventures领投 高通、三星、锦秋基金等跟投 融资额度超额认购3倍 [1] - 创始人Bill Zhu为Meta AI前应用强化学习组负责人 斯坦福大学强化学习博士 团队核心成员均来自Meta [1][11] - 公司愿景是实现任何在线工作流程的自动化 通过AI功能集成到现有工具中 覆盖文本/图像/视频/代码生成编辑等场景 [1] 技术路径与产品定位 - 采用强化学习(RL)而非主流LLM技术 解决"执行问题"而非"生成问题" 在工具选择中准确率超97% [6][11] - 通过与环境交互学习 适应复杂网络环境 类比国际象棋自我对弈模式 持续优化决策能力 [11] - 产品定位企业级B端市场 集成Google Workspace/Meta平台/LinkedIn等30+工具 实现跨平台自动化操作 [2][3] 核心应用场景 - 三大核心场景:AI+生产力(Productivity) AI+社交媒体营销(Social Media) AI+研究与工程(Research&Engineering) [9] - 典型案例:社交媒体营销全流程自动化 包括内容创作/媒体增强/跨平台发布/效果监控 [7] - 解决企业工作流痛点 自动化重复性任务 降低用户学习迁移成本 提升操作效率 [3][8] 行业趋势与竞争格局 - 企业工作流程自动化成为行业焦点 Pokee AI尝试覆盖更广泛场景而非单点突破 [11] - 华人AI团队持续涌现 另一Meta前VP创立的B端AI产品已获多轮融资 被财富500强企业采用 [12] - 行业呈现高速发展态势 多个华人AI项目融资额超千万美元 部分企业ARR已达百万量级 [15]
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 23:45
纪要涉及的公司和行业 - **公司**:DeepSeek、OpenAI、Anthropic、Google、Microsoft、Amazon、Parasail、Friendli、Lambda、Nebius、Cursor、Oracle、Huawei、AMD、NVDA等 [4][22][24][29][30] - **行业**:人工智能(AI)行业,特别是大语言模型(LLM)领域 [4] 纪要提到的核心观点和论据 DeepSeek相关 - **核心观点**:DeepSeek R1发布后虽有影响,但自身服务市场份额下降,原因在于其在tokenomics上的权衡导致用户体验不佳 [8][13][21] - **论据** - **价格与延迟**:DeepSeek虽产品价格便宜,但用户需等待数秒模式才响应首个token,相比其他提供商延迟高,如Parasail、Friendli等可提供低延迟服务,微软Azure价格高但延迟低25s,且多数R1 0528实例现以低于5秒延迟托管 [22] - **上下文窗口**:DeepSeek运行K上下文窗口,是主要模型提供商中最小的之一,限制了如编码等需要大上下文窗口的用例,而相同价格下其他提供商如Lambda和Nebius可提供2.5倍上下文大小 [24] - **市场份额变化**:发布后消费者应用流量激增,但未跟上其他AI应用增长,自身网络应用和API服务市场份额下降,而第三方托管实例使用量近20倍增长,自身总token份额每月下降 [8][9][10][13] - **持续发展**:R1发布后持续扩展强化学习(RL),在许多领域尤其是编码方面有所改进,推理模型不断快速改进且更有效、更实惠 [5][7] Anthropic相关 - **核心观点**:Anthropic在编码应用方面成功,但受计算资源限制,不过用户体验优于DeepSeek [29][32][41] - **论据** - **编码应用成功**:Anthropic专注代码产品开发,其Claude Code使用量激增,超过OpenAI的Codex,Google也推出类似工具Gemini CL [29][30] - **计算资源压力**:Claude的输出速度在API上下降30%至略高于5 tokens每秒,因需处理大量请求且编码使用倾向大token数对话,相比之下OpenAI和Google的模型速度更快 [33] - **用户体验优势**:速度虽低但快于DeepSeek的2.5 tokens每秒,且回答问题所需token数远少于其他模型,端到端响应时间更低,Claude在领先推理模型中总输出token数最少 [41][42] 市场动态相关 - **核心观点**:AI市场竞争激烈,各公司在计算资源、价格、性能等方面竞争,开源模型有发展潜力,速度可通过其他因素补偿 [44][47][40] - **论据** - **价格竞争**:DeepSeek低价冲击市场后,OpenAI旗舰模型价格下降80%,其6月对GPT - 4 API定价大幅削减,缩小与R1的价格/性能差距 [4][53] - **计算资源投入**:Amazon大规模建设AI集群,投资数十亿美元用于Trainium AI集群,Anthropic将获得超50万个Trainium芯片用于推理和训练,Anthropic还从Google GCP租用大量计算资源,Google云也向其他AI公司扩展服务 [37][38][39] - **开源模型潜力**:廉价计算资源的可用性和软硬件的快速创新将推动开源模型发展,如DeepSeek R1在编码性能上不断改进,对采用有积极影响 [47] 其他重要但是可能被忽略的内容 - DeepSeek将研发团队从杭州迁至北京,运营人员翻倍以应对媒体请求,虽有R2延迟传言,但并非因出口管制导致训练延迟,且其仍保持快速招聘速度,还为华为盘古模型提供技术支持 [54][55][56] - 推理云兴起,越来越多公司效仿Anthropic以服务形式销售token,而非像ChatGPT那样以月度订阅形式捆绑销售 [44]