项目核心与创新点 - 由上海人工智能实验室与中山大学联合研发的Earth-Agent,旨在解决多模态大语言模型在地球科学应用中的核心瓶颈,目标是打造能够自主规划并执行复杂地球科学任务的“AI科学家”[3] - 项目创新性地模拟了人类专家“知识工具化”与“流程自动化”的能力构建逻辑,将领域知识封装为可调用的工具,并由大语言模型担任“大脑”进行智能规划与调度[5][6][10] - 核心框架包含两大关键构建:1)领域知识工具封装化,集成了104个专用工具;2)基于LLM的智能规划与调度,采用ReAct机制自主完成从数据预处理到复杂时空分析的全链路工作流[8][10] 基准评估体系 - 为解决评估难题,研究团队构建了Earth-Bench基准,包含248个专家标注的任务,覆盖13,729张图像,平均每个题目需处理55张影像,平均每个问题需要5.4步才能完成[12][13] - 该基准涵盖三大模态数据:RGB图像、原始光谱数据和地球产品数据,核心是评估智能体执行完整地球科学分析工作流的能力,而非简单的单步任务[12][14] - 评估协议采用双层次设计,不仅关注最终结果的端到端评估,还引入了专家推理轨迹进行逐步评估,认为推理过程与结论本身同样重要[17] 性能表现与对比分析 - 在不同LLM骨干网络的测试中,进行过工具调用预训练的模型表现大幅领先,其中DeepSeek-V3.1和Kimik2在推理过程中的工具使用准确率上超越了GPT-5[19] - 与通用Agent架构的对比显示,Earth-Agent在Spectrum、Products、RGB三个模态上的平均效果(GPT-5版为55.83)显著领先于GPT-Agent(40.42)等其他方法[22] - 与多模态大语言模型方法的对比中,Earth-Agent在经典遥感任务上表现优异,例如在AID数据集分类准确率达93.42%,在DOTA数据集检测任务上达60.88%,均领先于对比模型[22] 技术验证与未来展望 - 消融实验证实了工具调用的关键作用:在不使用工具的情况下,不同LLM的准确率均约为37%,而允许调用工具后,GPT-5的准确率提升至65%,其他模型也均有显著提升[25] - 项目提出了一个与MLLM不同的新范式,将能力外化为结构化工具库,而非全部编码到模型参数中,这种范式更接近人类的学习和工作方式[26] - 未来发展路线明确:从基石到生态,工具库可方便扩展;从评估到训练,为解决“工具幻觉”等问题提供指导;从语言到视觉,视觉语义的工具感知可能是下一个突破点[26]
首个地球科学智能体Earth-Agent来了,解锁地球观测数据分析新范式
机器之心·2025-10-27 16:44