GraphCast
搜索文档
香港大学等提出增量天气预报模型VA-MoE,参数精简75%仍达SOTA性能
36氪· 2025-10-13 16:30
研究背景与挑战 - 数值天气预报(NWP)是天气预报领域的主流手段,通过求解大气动力学方程组模拟温度、气压、风速等关键变量的演变过程[1] - 现有AI气象模型假设所有气象变量在训练和预测时可同步获取,但实际观测数据来源多样、采集频率不一,存在数据异步性问题[2] - 数据异步性导致模型引入新变量时必须全量重新训练,带来极高的计算成本[2] 核心技术:VA-MoE模型 - 研究团队设计了“增量天气预报(IWF)”新范式,推出“变量自适应专家混合模型(VA-MoE)”[2] - 模型通过分阶段训练与变量索引嵌入机制,引导不同专家模块专注特定类型气象变量[1][2] - 当新增变量或站点时,无需全量重训即可实现模型扩展,在保障精度的同时大幅降低计算开销[1][2] - 模型以Transformer为核心backbone,并针对气象数据的多尺度、强关联特性做了关键优化[11] - 采用“多任务联合损失”机制,兼顾预报精度与物理一致性,包含动态预测损失和重建损失两个核心部分[14] - 构建“专精+协同”的专家体系,为每类变量配置独立的“通道自适应专家”,并设置“共享专家”模块整合局部信息[15] 实验设计与数据 - 研究以欧洲中期天气预报中心(ECMWF)发布的ERA5数据集为实验基础,覆盖1979年至今的连续气象观测数据[5] - 常规实验采用0.25°空间分辨率(对应网格尺寸721×1440),消融实验采用1.5°分辨率版本(网格尺寸128×256)[5] - 数据集划分为高空变量(Z、Q、U、V、T等5种类型,定义在13个不同气压层上)和地面变量(T2M、U10、V10、MSL、SP等)[6][9] - 初始训练阶段采用1979-2020年的40年数据,增量训练阶段使用2000-2020年的20年数据,测试阶段选取2021年全年数据[8] 性能验证结果 - 在地面与高空变量预测中,VA-MoE的预测精度与Stormer、GraphCast相当,并显著优于ClimaX、FourCastNet等模型[18] - 基于40年数据以增量模式训练的VA-MoE,仅需标准迭代次数的一半即可达到相近精度[20] - 即使数据缩减至20年、迭代次数降至四分之一,模型仍可维持业务可用的精度[20] - 在500hPa位势高度(Z500)的长期预报中精度有所提升,验证了其“学新不丢旧”的能力[20] - 与视觉Transformer及其专家扩展版本对比,VA-MoE精度显著更高,尽管参数量接近VA-MoE的两倍[21] 行业发展趋势 - 全球学术界与企业界正形成合力,持续推动气象建模范式的深度革新[22] - 剑桥大学、艾伦·图灵研究所与微软研究院联合开发的“Aardvark Weather”实现了从多源观测数据到高分辨率预报的直接映射[23] - 复旦大学联合多家机构研发的FuXi-Weather系统实现了从卫星亮温到预报结果的完整端到端建模[24] - 谷歌DeepMind的GraphCast可在1分钟内完成未来10天的全球天气预报,在1380个测试变量中超过90%的指标精度优于HRES系统[25] - 微软的Aurora大模型在天气、空气质量与海浪预测等多任务中实现89%的综合准确率,计算速度较传统数值模型提升5000倍[25]