大模型涌现属性

搜索文档
AI一眼认出95万物种,还能分辨雄雌老幼,2亿生物图像炼成“生命视觉”大模型
量子位· 2025-06-29 13:34
核心观点 - BioCLIP 2模型通过大规模训练(2亿生物图像数据)实现了目前最优的物种识别性能,并在非物种任务(如栖息地识别、植物疾病识别)中表现优异[1] - 模型展现出两大涌现属性:物种间生态对齐和物种内差异分离,且这些属性随训练规模扩大而增强[10][12] - 研究团队构建了TreeOfLife-200M数据集,包含95.2万个分类标签,是迄今规模最大、最丰富的生命图像库[2] 模型架构与训练 - 模型从ViT-B扩大至ViT-L,参数量增加为知识涌现做准备[4] - 训练数据来自GBIF、EOL等4大平台,总计2.14亿生物图像[2] - 采用层级对比学习框架,利用界-门-纲-目-科-属-种+学名+常用名的多粒度文本提供监督[2] 性能表现 - 零样本物种识别平均准确率达55.6%,比第二好的SigLIP模型提升16.1个百分点[5] - 在动物和植物分类任务中,BioCLIP 2平均准确率57.5%,显著优于CLIP(42.7%)、DINOv2(47.3%)等模型[9] - 少样本物种识别性能远超DINOv2等常用视觉模型[5] 涌现属性分析 - 物种间生态对齐:具有相似生态习性的物种在特征空间中聚集(如淡水鱼与咸水鱼分界清晰)[10][11] - 物种内差异分离:雌雄/幼成体差异沿物种差异正交方向分布,正交程度随训练规模同步增大[12][14] - 实验显示:从1M到214M图像训练,非物种任务性能单调上升,体内差异分离度同步提升[15] 数据集与创新 - TreeOfLife-200M数据集覆盖95.2万个分类标签,包含标本、野外相机陷阱等多样化图像类别[2] - 首次在生物多样性领域实现视觉语义基座的涌现属性,证明"正确的监督+规模"可复刻大模型特性[16]