Workflow
图像生成
icon
搜索文档
特朗普放大招!为给AI供电,美国重启停摆核电站,能源底牌曝光
搜狐财经· 2025-12-16 18:30
帕利塞兹核电站重启事件 - 密歇根湖东岸的帕利塞兹核电站于2022年因亏本运营而关闭,但计划在2026年初重新发电,将成为美国历史上第一座重启的核电站 [1][3] 从弃核到抢核的转变动因 - AI爆发式增长引发电力“饥荒”,国际能源署数据显示,过去5年全球数据中心用电量年均增长12%,预计到2030年需求将翻倍至945太瓦时,超过日本当前全年用电量 [6] - 训练顶尖大模型需要数万个GPU满负荷运行数月,消耗大量稳定电力,而全球数十亿次AI服务请求的总能耗堪比中小国家用电量 [8] - 美国淘汰化石能源进程与不稳定的风光发电,加剧了电力供需缺口 [8] - 核电是唯一能同时满足“稳定、清洁、大容量”要求的能源,科技巨头为保障AI业务稳定,宁愿支付溢价获取核电 [10][12][14] - 重启旧核电站的成本仅为新建的三分之一,经济性提升 [12] - 核电站重启能为当地带来显著经济利益,例如帕利塞兹核电站所在的科弗特镇,当年因关闭损失40%财政收入,重启将带回数百工作岗位并提振房价 [15] AI算力需求与能源供给的差距 - 麻省理工学院教授估算,全美可重启的旧核反应堆最多提供3吉瓦电力 [17] - 到2030年,AI与数据中心额外电力需求预计达50吉瓦,即使重启全部旧核电站也仅能满足约五分之一的需求 [17] 核电重启面临的挑战与博弈 - 环保组织和公众对核安全的担忧持续存在,重启项目常面临诉讼和抗议 [19] - 行业通过提升安全标准进行回应,例如三里岛重启项目负责人称当前安全标准比1979年事故时高10倍 [19] - 核电重启带动了产业链复苏,为美国核电设备制造商带来检修与升级订单,并促使核燃料供应商扩产 [21] - 发展核电有助于美国将AI产业的核心能源根基掌握在自己手中,减少对外部能源的依赖 [21] 未来能源解决方案的展望 - 重启旧核电站仅是缓兵之计,面对AI算力需求的指数级增长,最终需要建设新核电站 [23] - 美国正在试点建设周期更短、体积更小的小型模块化反应堆,以匹配数据中心的分布式需求 [23] - 新建核电站审批流程漫长,可能长达10年,与AI产业的快速发展存在时间上的矛盾 [23] - 帕利塞兹核电站的复活标志着AI发展已触及能源供给的天花板,算力与能源的赛跑成为关键 [25][26]
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 08:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]