涌现属性

搜索文档
AI一眼认出95万物种,还能分辨雄雌老幼,2亿生物图像炼成“生命视觉”大模型
量子位· 2025-06-29 13:34
核心观点 - BioCLIP 2模型通过大规模训练(2亿生物图像数据)实现了目前最优的物种识别性能,并在非物种任务(如栖息地识别、植物疾病识别)中表现优异[1] - 模型展现出两大涌现属性:物种间生态对齐和物种内差异分离,且这些属性随训练规模扩大而增强[10][12] - 研究团队构建了TreeOfLife-200M数据集,包含95.2万个分类标签,是迄今规模最大、最丰富的生命图像库[2] 模型架构与训练 - 模型从ViT-B扩大至ViT-L,参数量增加为知识涌现做准备[4] - 训练数据来自GBIF、EOL等4大平台,总计2.14亿生物图像[2] - 采用层级对比学习框架,利用界-门-纲-目-科-属-种+学名+常用名的多粒度文本提供监督[2] 性能表现 - 零样本物种识别平均准确率达55.6%,比第二好的SigLIP模型提升16.1个百分点[5] - 在动物和植物分类任务中,BioCLIP 2平均准确率57.5%,显著优于CLIP(42.7%)、DINOv2(47.3%)等模型[9] - 少样本物种识别性能远超DINOv2等常用视觉模型[5] 涌现属性分析 - 物种间生态对齐:具有相似生态习性的物种在特征空间中聚集(如淡水鱼与咸水鱼分界清晰)[10][11] - 物种内差异分离:雌雄/幼成体差异沿物种差异正交方向分布,正交程度随训练规模同步增大[12][14] - 实验显示:从1M到214M图像训练,非物种任务性能单调上升,体内差异分离度同步提升[15] 数据集与创新 - TreeOfLife-200M数据集覆盖95.2万个分类标签,包含标本、野外相机陷阱等多样化图像类别[2] - 首次在生物多样性领域实现视觉语义基座的涌现属性,证明"正确的监督+规模"可复刻大模型特性[16]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...