Workflow
CLIP
icon
搜索文档
超越CLIP,北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像
36氪· 2026-02-11 16:03
研究背景与核心问题 - 北京大学彭宇新教授团队在细粒度多模态大模型领域取得突破,相关论文已被ICLR 2026接收并已开源[1] - 真实世界具有细粒度特性,对象包含极其丰富的类别层次,例如民用飞机数据库收录全球固定翼飞机种类超过500种[2] - 细粒度视觉识别在现实生产和生活中具有重要价值,但传统识别方法局限于封闭域中的有限类别[4] - 多模态大模型进行细粒度识别面临两大挑战:依赖大量训练数据但细粒度标注数据收集难度高、成本大;在有限数据上训练后难以泛化到训练集外的开放域子类别[4] 解决方案与模型架构 - 团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,旨在利用多模态大模型的丰富知识和生成式解码范式,实现开放域任意类别对象的细粒度识别[4] - Fine-R1采用两阶段方案构建[5] - 第一阶段为思维链监督微调:基于Qwen2.5-VL-32B为少量数据构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析及最终预测四个步骤,并对基础模型进行监督微调[7] - 第二阶段为三元组增强策略优化:针对细粒度识别“类内差异大、类间差异小”的问题,通过构建输入图像、正样本(同一子类别)和负样本(不同子类别)的三元组,同时提升模型对类内差异的鲁棒性与类间差异的辨识性[8] 技术细节与优化策略 - 类内增强:同时利用输入图像及其正样本的思考轨迹,以捕获更广泛的类内变化,当模型对两者产生不同预测时,奖励差异会促使模型仅关注判别性特征[8][9] - 类间增强:通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,促进模型对来自不同子类别的相似图像生成不同响应,从而增强模型对类间差异的辨识性[9][10][11] - 最终目标函数结合了类内与类间增强[12] 实验结果与性能表现 - 在封闭式识别(多选题)任务中,每类仅需4张训练图像,Fine-R1对训练集内(Seen Categories)和训练集外(Unseen Categories)子类别的平均识别准确率均超越主流模型[13] - Fine-R1-7B模型在训练集内子类别的平均识别准确率达到**91.71%**,在训练集外子类别的平均识别准确率达到**85.70%**,整体平均准确率为**88.71%**[13] - Fine-R1-3B模型在训练集内子类别的平均识别准确率为**88.97%**,在训练集外子类别的平均识别准确率为**81.41%**,整体平均准确率为**85.19%**[13] - 在开放式识别(问答题)任务中,同样在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率超越了主流的通用多模态大模型与推理大模型[14] - Fine-R1-7B模型在开放式识别任务中的整体平均准确率达到**74.80%**,Fine-R1-3B模型达到**67.32%**[14] 模型优势与能力分析 - Fine-R1在每类仅需4张训练图像的极低数据需求下,对训练集内外子类别的识别准确率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判别式模型[4][13] - 实验分析表明,Fine-R1性能提升的主要原因是提升了“模型运用细粒度子类别知识的能力”,而非优化视觉表征或增加知识储备[16] - 案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别[18] - 该研究展现了生成式多模态大模型在解决判别式任务上的巨大潜力[4] 行业影响与资源 - 该研究代表了细粒度多模态大模型领域的前沿进展,相关论文、开源代码及模型均已公开[19] - 开源代码发布于GitHub平台,模型地址位于Hugging Face[19] - 该成果由北京大学彭宇新教授团队完成,实验室为北京大学多媒体信息处理实验室[19]
超越CLIP!北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像
量子位· 2026-02-11 09:55
行业背景与问题 - 当前多模态大模型在复杂多模态任务上表现出色,但在细粒度视觉识别任务上明显落后于其所依赖的视觉编码器(如CLIP)[1] - 真实世界具有细粒度特性,对象包含极其丰富的类别层次,例如“飞机”大类可细分为“波音707”等上百种子类,民用飞机数据库收录全球固定翼飞机种类超过500种[3] - 细粒度视觉识别大模型旨在利用多模态大模型的丰富细粒度知识,突破传统方法在封闭域中识别有限类别的局限,实现开放域中任意类别的细粒度识别[5] - 多模态大模型的细粒度识别能力依赖大量训练数据,但细粒度标注数据收集难度高、成本大,无法满足大模型训练所需的数据规模,且在有限数据上训练后难以泛化到训练集外的子类别[5] 技术方案与创新 - 北京大学彭宇新教授团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,通过思维链监督微调与三元组增强策略优化,提升模型运用已有知识推理未见子类别的能力[5] - Fine-R1构建包含两个主要步骤:1) 思维链监督微调,模拟人类思考过程,为模型快速构建推理能力;2) 三元组增强策略优化,通过引入正负样本提升模型对类内差异的鲁棒性和类间差异的辨识性[7] - 思维链监督微调基于Qwen2.5-VL-32B构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析及最终预测四个步骤,并利用该数据对基础模型进行监督微调[8] - 三元组增强策略优化针对“类内差异大、类间差异小”的问题,为每张输入图像匹配同一子类别的正样本和外观相似但不同子类别的负样本,构成三元组进行类内与类间增强[8] - 类内增强利用输入图像及其正样本的思考轨迹,捕获更广泛的类内变化,当模型对两者产生不同预测时,奖励差异会促使模型仅关注判别性特征[8][10] - 类间增强通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,促进模型对来自不同子类别的相似图像生成不同响应,增强判别性[10][11] 性能表现与结果 - 在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判别式模型[5] - 在6个权威细粒度图像分类数据集上的封闭式识别(多选题)结果显示,Fine-R1-7B模型在已见类别上的平均准确率达到91.71%,在未见类别上达到85.70%,总体平均为88.71%,显著优于对比模型[14][15] - 在开放式识别(问答题)任务中,Fine-R1-7B模型在已见类别上的平均准确率达到82.62%,在未见类别上达到66.97%,总体平均为74.80%,超越了主流的通用多模态大模型与推理大模型[16][17] - 实验分析表明,Fine-R1主要通过提升“模型运用细粒度子类别知识的能力”提高了识别准确率,而非优化视觉表征或增加知识储备[19] - 案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别[21] 研究影响与资源 - 该研究相关论文已被ICLR 2026接收,并已开源[2] - 论文标题为“Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning”,论文、开源代码及模型地址均已公开[22] - 该研究展现了生成式多模态大模型在解决判别式任务上的巨大潜力[5]
DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
量子位· 2026-01-27 16:32
核心观点 - DeepSeek开源了其全新的OCR模型DeepSeek-OCR 2,核心功能是将PDF文档精准转换为Markdown格式 [1] - 该模型的核心突破在于摒弃了传统的“光栅扫描”逻辑,引入了基于图像语义动态重排视觉标记的能力,从而模拟人类阅读的因果视觉流 [2][3] - 在性能上,该模型仅采用轻量模型,但达到了媲美谷歌Gemini-3 Pro的效果,并在OmniDocBench v1.5基准上实现了3.73%的性能提升 [4][5] 技术架构与核心升级 - **核心升级:DeepEncoder V2**:模型的核心升级在于编码器部分,用轻量化的语言模型Qwen2-0.5B替换了前作中的CLIP组件,构建了DeepEncoder V2,使其在视觉编码阶段就具备了因果推理能力 [2][10][16] - **工作原理**:新的编码器通过一种“双流注意力机制”和定制的注意力掩码,实现了对视觉标记的智能重排,使其在进入主解码器前就理顺了逻辑顺序,弥合了2D空间结构与1D语言建模之间的鸿沟 [16][18][19][20][21][22] - **其他组件**: - 视觉分词器沿用80M参数的SAM-base架构,输出维度从1024优化至896,实现了16倍的标记压缩,减轻了计算压力 [23][24][25] - 编码阶段引入灵活裁剪方案,最终输入LLM的视觉标记总数稳定在256到1120之间 [27] - 后端解码器保留了3B参数的MoE结构,实际激活参数约500M [28] 性能表现与基准测试 - **基准测试结果**:在OmniDocBench v1.5基准(包含1355个页面)上,DeepSeek-OCR 2的“Overall”得分达到91.09%,相比其前代模型(DeepSeek-OCR (9-crops))的87.36%提升了3.73个百分点 [5][6][35] - **细分指标提升**:在多个细分任务上均有显著提升,其中公式识别(Formula OM)得分从84.14%提升至90.31%(提升6.17个百分点),表格识别(TableTEDs)得分从85.25%提升至87.75%(提升2.5个百分点),阅读顺序编辑距离(R-orderEdit)从0.085降至0.057 [6][36] - **与竞品对比**: - 在相似的视觉标记预算(1120个)下,其整体文档解析编辑距离(OverallEdit)为0.100,优于谷歌Gemini-3 Pro的0.115 [37][38] - 其性能超越了包括GPT-4o、Qwen2.5-VL-72B、Gemini-2.5 Pro、Qwen3-VL-235B在内的多个先进大模型 [6][34] 训练流程与数据策略 - **数据策略**:训练数据中OCR相关数据占比达80%,并进行了采样均衡化(正文、公式、表格按3:1:1比例划分)和标签精简化(合并语义相似的布局标签)优化 [29][30] - **训练流程**:采用三阶段训练流程,包括编码器预训练(通过下一标记预测任务)、查询增强(联合优化编码器和解码器)以及解码器微调(仅优化解码器) [31][38] - **生产效果**:实际生产数据显示,在线用户日志的重复率从6.25%降至4.17%,PDF生产数据重复率从3.69%降至2.88%,证明了模型逻辑视觉理解能力的提升 [38][39] 团队背景与行业影响 - **核心团队**:论文的三位作者魏浩然、孙耀峰、李宇琨在AI领域有深厚背景,曾参与或主导过阶跃星辰GOT-OCR2.0、幻方AI大模型以及DeepSeek V2/V3等多款知名模型的研发 [40][41][43][45] - **学术贡献**:团队成员过往的研究成果(如DeepSeek-R1, DeepSeek-V3, ERNIE系列)在学术界有广泛影响力,引用次数高达数千次 [46] - **开源与可及性**:DeepSeek-OCR 2延续了团队的开源策略,项目代码、模型权重及论文已在GitHub和HuggingFace平台全面公开 [49][50]
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026
量子位· 2026-01-19 11:48
行业背景与核心矛盾 - 当前工业缺陷检测等领域普遍使用的传统视觉模型对训练数据要求高,需要大量精细标注数据才能达到理想效果[1] - 在工业质检与医学影像等真实场景中,异常检测面临核心矛盾:模型需要跨领域泛化,同时又要在几乎没有目标域数据的情况下精确定位细微异常[3] - 现实生产中产线频繁换型,新产品刚投产时缺陷样本极少,而异常往往表现为局部、稀疏、小尺度的像素级变化,这使得依赖监督学习或目标域微调的方法难以落地[3] AdaptCLIP解决方案概述 - AdaptCLIP是一种通用视觉异常检测框架,由西门子与腾讯优图联合研究团队提出,旨在解决通用异常检测在训练域与测试域分布显著不同时性能退化的结构性瓶颈[4] - 该框架将CLIP视为“基础服务模型”,不改动其主干结构,仅在输入与输出端引入三个轻量适配器,实现单一模型无需目标域微调,同时支持图像级异常分类和像素级异常分割,兼容零样本/少样本推理[5] - AdaptCLIP的核心机制是交替学习与上下文感知对比学习,旨在不破坏CLIP原有泛化能力的前提下让其学会“找异常”[5][8][9] 技术架构与关键创新 - 视觉适配器采用残差MLP结构,分别作用于CLIP输出的局部patch token和全局图像token,在固定文本语义空间的前提下使视觉特征更贴合异常检测任务,显著提升像素级定位能力[13][14][15] - 文本适配器直接学习“正常/异常”两类可优化提示嵌入,输入冻结的CLIP文本编码器生成语义表示,抛弃了传统的人工prompt工程,降低了对经验的依赖[16][17][18] - 采用交替优化策略而非联合学习,即固定文本优化视觉、固定视觉优化文本并循环迭代,论文通过消融实验发现,在小规模训练数据下联合学习易过拟合,而交替学习是零样本异常检测性能提升的关键[19][20][21] - 在少样本场景下启用提示-查询适配器,通过空间对齐(在正常样本中搜索欧氏距离最近的patch)消除旋转、平移干扰,并计算对齐残差特征[22][23] - 将原始查询特征与对齐残差逐元素相加形成联合特征,融合上下文信息,在1-shot设置下,引入上下文后在MVTec数据集上的像素级AUPR提升约40%[24][25][26] - 采用极简的轻量输出头完成预测:像素级分割使用1×1卷积与转置卷积模块上采样;图像级分类对联合特征进行平均池化与最大池化后输入MLP[27][28][29] 性能表现与实验结果 - 在零样本异常检测场景下,AdaptCLIP在MVTec、VisA、BTAD、Real-IAD等8个工业数据集上,图像级AUROC平均达到86.2%,在多类未见产品与跨类别测试中保持稳定优势[31] - 在医学影像任务中,AdaptCLIP在内窥镜数据集Kvasir与Endo的零样本像素级异常分割AUPR平均达到48.7%,并在Br35H(MRI)、COVID-19(X-ray)等数据集的零样本图像级异常检测中取得平均90.7%的AUROC,均显著高于其他现有方法[31] - 在少样本设置下,随着正常样本数量从1-shot增加至4-shot,异常区域的定位逐步细化,提示-查询适配器显著降低了误报区域,使异常边界更加清晰[31] - 模型规模与效率方面,AdaptCLIP在零样本条件下仅引入约0.6M额外可训练参数(对比方法可高达10.7M),在518×518分辨率下,零样本条件单张图像推理时间约162 ms,兼顾检测精度与实际部署需求[32][37] 竞争优势与行业意义 - 相比现有方法,AdaptCLIP在模型轻量化、推理速度及跨领域泛化性能上具有综合优势,例如WinCLIP依赖密集窗口扫描导致计算与显存开销巨大,AnomalyCLIP等方法通过修改中间层或引入复杂token可能削弱CLIP的原始表征能力[6] - AdaptCLIP为工业与医疗等开放场景的异常检测提供了一条清晰路径:用最少的结构改动,换取最大的泛化收益,实现了真正可迁移的异常检测[38][39] - 该研究基于OpenAI在2021年发布的开源视觉-语言基础模型CLIP进行优化,使其在工业质检与医学影像等复杂真实场景中得以快速上手胜任工作,有望在零样本/少样本识别条件下达到与传统模型相当的性能[2]
他们认识香蕉也认识黄色,却不知道香蕉是黄色的
36氪· 2026-01-16 15:25
研究核心发现 - 语言系统与视觉感知系统在大脑中存在深刻交互,语言不仅影响知识的存储与提取,甚至能影响实时视觉感知[1][2][5] - 前颞叶是存储抽象概念知识的关键脑区,它通过白质纤维束与视觉皮层连接,实现语言系统与感觉系统的沟通[1][2] - 连接前颞叶与视觉皮层的白质纤维受损的特殊卒中患者,视觉功能完好但无法判断灰度图片中物体的颜色,且损伤越严重,颜色判断能力与大脑颜色编码越差[1][2][3] - 先天性失明者通过语言习得的颜色知识,其大脑前颞叶的活动模式与视力健全者高度相似,证明语言是独立于感官体验的知识获取途径[2] - 利用AI模型进行对照实验发现,接受过文本训练的模型其内部特征与人类视觉皮层中由语言引发的活动模式相似,而纯视觉模型及特殊卒中患者、猴子的大脑活动模式则更接近[5][7][8][9] - 无论是通过语音、文字还是手语习得的语言,都可能深刻影响视觉感知,早期失聪但熟练使用手语的听障者,其大脑活动也更接近接受文本训练的AI模型[9] 实验方法与模型 - 研究团队通过对比先天性/早期失明受试者与视力健全者的大脑活动,探究非感官途径的知识表征[2] - 为解决人类研究中语言与视觉输入高度耦合的难题,团队采用AI模型作为分离研究手段,严格控制输入数据类型[5][7] - 研究选取了三个架构相同、仅训练时语言输入不同的AI模型进行对比:纯视觉模型MoCo、通过图像标签训练的ResNet-50模型、通过图像对应完整描述文本训练的CLIP模型[7][8] - 将人类实验中使用过的图片输入AI模型,观察其内部反应模式,并与人类受试者观看同样图片时的大脑活动进行对比[8] 理论意义与学科交叉 - 研究挑战了“语言仅是交流工具、不影响基础感知”的传统神经科学观点,认为语言作为抽象编码系统已深度重塑人类认知[10] - 认知科学与人工智能研究正在相互靠近、相互启发,利用AI模型可检验人脑机制,反之亦然[12]
穷人福音,MIT研究:不用堆显卡,抄顶级模型作业就成
36氪· 2026-01-09 21:20
文章核心观点 - 麻省理工学院的研究表明,尽管用于科学发现的AI模型在架构、训练数据和模态上存在巨大差异,但随着模型性能的提升,它们对物质世界的内在理解会趋于一致,即向同一个“真理”收敛 [1][2][3] - 这种“表征对齐”现象不仅存在于科学AI领域,也出现在跨模态(如语言与视觉)的模型中,意味着强大的AI正在构建一个共享的、对现实的“内在图景” [9][14] - 研究揭示了高性能模型认知的趋同性,为AI开发提供了新方向:无需盲目堆砌算力和参数量,可通过“模型蒸馏”等技术,将大模型的知识迁移到更轻量的小模型上,从而实现高效且低成本的创新 [18][20][24] AI模型认知的收敛性 - 研究汇集了59个不同“出身”的模型,发现当模型变得足够强大时,它们对物质的理解(隐藏层表达)会变得极度相似,尽管它们处理数据的方式天差地别 [1][2] - 引入“表征对齐度”指标后发现,模型预测物质能量越准确,其思维方式就越接近其他顶尖模型,在表达空间里会自发地向同一个方向靠拢 [3][5] - 一个处理文字(SMILES字符串)的模型与一个计算受力的物理模型,在“认知”上实现了高度对齐,表明它们通过不同路径抵达了相同的理解顶峰 [2] - 无论模型架构多么复杂,其最终提取的物质特征在数学复杂度上压缩到了一个非常窄的范围,抓取的都是最核心、最精简的物理信息 [5][6] 跨模态与跨领域的普遍性 - 认知收敛现象不局限于科学AI,在纯文本语言模型(如GPT)和纯图像视觉模型(如CLIP)中也存在 [9] - 当模型规模变大、性能变强时,语言模型中对“猫”的文本向量表示(靠近“毛茸茸”“宠物”等词)与视觉模型中对“猫”的图像向量表示(靠近胡须、圆眼睛等特征)会在线性空间中越来越接近 [11][14] - 这表明AI无论从文字、图像、分子结构还是3D坐标切入,只要足够强大,其内部表征都会趋向同一个对现实的“内在图景” [14] 低性能模型的局限与风险 - 性能不佳的模型有两种失败模式:一是各自在错误的道路上渐行渐远(表征对齐度低),二是集体漏掉关键信息,虽然想法一致但理解肤浅 [15] - 例如MACE-OFF模型在特定任务上表现强,但表征对齐度极低,其学到的规律难以迁移到其他科学任务上,可能只是“死记硬背”而非真正理解 [15] - 当AI遇到训练数据中从未见过的分子结构时,预测误差(MAE)会激增,且表征完全偏离正常的物理分布,表明其缺乏真正的泛化能力 [17] - 训练数据的多样性和质量是模型能否触及“真理”的基础,数据不足会导致模型无法进化成真正的通用基座模型,只能在舒适区内“原地踏步” [17] 对行业发展的启示与未来方向 - 研究挑战了盲目追求大算力和大参数量的行业竞赛,指出了一条更务实的路径:利用“真理收敛”特性,通过“模型蒸馏”将大模型的知识复刻到更轻量、高效的小模型上 [18][24] - 实验显示,即使是参数量较小的模型,只要其表征能与最佳性能模型对齐,同样能在分子能量预测等任务中获得极高的准确度 [20] - Orb V3模型展示了通过大规模训练和聪明的正则化手段,简单的架构也能学到昂贵、强加物理限制的模型才有的理解力,这为模型设计提供了新思路 [20] - 未来评估科学AI的标准将更加多元,不仅看其任务“考分”,更要看其是否踏入了“真理的收敛圈”,这有助于催生更多针对特定场景的轻量级AI,实现“算力自由”下的创新爆发 [22][25] - 行业的发展重点可能从设计复杂架构或漂亮公式,转向如何更稳定地让模型进入“收敛圈”,并利用“表征对齐”实现模型的轻量化和知识迁移 [24]
为什么Agent总是Demo猛如龙实战一条虫?
量子位· 2025-12-22 17:30
智能体适应性研究综述 - 一篇由来自UIUC、斯坦福、普林斯顿、哈佛、UC伯克利等12所高校的三十多位研究者联合完成的51页论文,系统研究了自ChatGPT以来的主要智能体,并指出“适应性”是解决智能体在演示与实际场景中表现差距的关键[1][5][6] 智能体的定义与核心能力 - 智能体并非只会被动回答的AI,而是能够自主规划、使用工具(如搜索引擎、代码编译器、数据库)并记忆信息,以逐步完成复杂任务的系统[3] - 其核心优势在于面对新任务或新环境时,无需重新构建,可通过“微调自身”或“优化工具”来快速适应需求[3] 适应性分类框架(2x2范式) - 研究团队提出了一个2x2分类框架,从两个维度对现有适应方法进行划分[7] - 第一个维度是“优化谁”:优化智能体本身(Agent Adaptation)或优化其调用的工具(Tool Adaptation)[8] - 第二个维度是“信号来源”:来自工具执行的结果或来自智能体最终输出的评估[9] - 据此框架,现有方法被分为四大范式[10] 四大适应范式详解 - **A1范式**:智能体根据工具执行的反馈(如代码能否跑通、检索结果是否准确)来学习优化自身策略[10] - **A2范式**:以智能体的最终答案作为优化信号,典型代表是使用强化学习训练推理能力的工作,如DeepSeek-R1[11] - **T1范式**:采用即插即用方式,工具独立训练好后供智能体直接调用,例如SAM、CLIP等预训练模型[12] - **T2范式**:工具根据智能体的输出来优化自身,形成一种共生适应关系[13] 范式选择的指导意义与权衡 - 该分类框架为开发者提供了明确指导:若想提升AI使用工具的“细粒度”,选择A1;若想提升整体推理可靠性,选择A2;若追求工具通用性,选择T1;若想让工具适配特定AI,选择T2[15] - 同时明确了不同范式的权衡:修改智能体(A1/A2)灵活性高但成本也高,需要重新训练模型;修改工具(T1/T2)成本较低,但受限于智能体本身的能力[16] T2范式在数据效率与泛化能力上的优势 - 论文关键发现:T2范式的数据效率远超A2范式[18] - 以检索增强生成任务为例,采用A2范式端到端训练智能体(如Search-R1)需要约17万条训练样本[19] - 而采用T2范式,仅训练一个轻量级搜索子智能体来服务冻结的主模型,仅用2400条样本就达到了相当效果,数据量减少了约70倍,训练速度快了33倍[20] - 在泛化能力上,T2范式同样表现更优:在医学问答测试中,T2训练的智能体准确率达76.6%,而A2训练的Search-R1仅为71.8%[20] - 分析认为,A2范式要求模型同时学习领域知识、工具使用和任务推理,优化过于复杂;而T2范式下,冻结的大模型已具备知识和推理能力,小模型只需学习“如何搜索”这一程序性技能[20] 适应性研究的四大前沿方向 - **协同适应**:最具挑战性的方向,目标是让智能体与工具在同一个学习循环中相互优化,而非当前“冻一个、调一个”的模式,这涉及复杂的信用分配问题[21] - **持续适应**:针对真实世界任务分布、工具和用户需求随时间变化的非平稳性,解决如何让智能体持续学习新技能而不遗忘旧能力的部署难题[23] - **安全适应**:揭示了一个风险,即大模型在通过强化学习优化推理能力时,可能会侵蚀监督微调阶段建立的安全护栏,学会用复杂“思维链”为违规行为编造理由,从而更容易受到越狱攻击[25] - **高效适应**:关注资源受限场景,介绍了如LoRA在强化学习中的应用、FlashRL量化加速技术以及端侧设备的个性化适应方案[27] 资源与总结 - 该综述的GitHub仓库已开放,持续收录相关论文与资源,为搭建智能体系统的开发者提供了一份“适应性指南”[29] - 论文地址与GitHub链接已在文末提供[29]
1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
机器之心· 2025-12-14 12:53
核心观点 - 一项新的研究提出了“通用权重子空间假说”,认为不同神经网络模型的权重在训练后会收敛到一个共享的低维子空间,这表明模型架构对学习内容的影响可能比数据更大 [1] - 该发现为理解神经网络的泛化能力、隐式正则化及模型合并等技术的有效性提供了新的理论支持,并可能带来模型压缩、快速适应新任务等实际应用 [2] - 研究也引发了关于当前架构可能存在内在能力天花板、缺乏多样性的担忧 [8] 论文概览 - 研究首次在权重层面为深度神经网络参数空间中“通用性”的存在提供了严谨的实证证据 [14] - 研究聚焦于分析同一架构下的大量模型,包括约500个基于Mistral-7B的LoRA适配器、约500个Vision Transformer和50个LLaMA3-8B模型 [11] - 此前已有神经正切核理论、机制可解释性研究、彩票假说等线索暗示类似现象,但未涉及不同模型间参数性质的收敛 [13] 方法与结果概览 - 分析方法主要采用1-2阶的高阶奇异值分解,对数千个公开模型进行分析,无需额外训练成本 [16] - 在CNN实验中,对在五个不同数据集上训练的ResNet-50进行分析,发现大部分信息仅存在于16个或更少的共享子空间方向中 [19] - 将模型投影到该低秩子空间后,其性能相对于完全微调仍具竞争力,支持了联合子空间的实用性 [19] - 在基于Mistral-7B的500个LoRA模型分析中,所有模型的参数都可被一个有限的低秩子空间良好近似 [22] - 通用子空间模型在解析重构已见和未见任务时表现稳健,且内存效率提升了19倍 [23] - 在文生图任务中,将Stable Diffusion-XL的单个LoRA投影到通用子空间后,生成的图像保持了视觉质量和风格 [26] - 基于CLIP的评估显示,通用子空间在某些情况下甚至优于单个LoRA [27] - 在模型合并任务中,通用子空间方法仅基于几何结构解析计算合并系数,无需迭代调优或验证数据,在降低参数数量的同时取得了更高的平均准确率 [29] - 在多个数据集上的合并实验结果显示,该方法平均准确率达到83.5%,优于RegMean、Task Arithmetic、TIES等一系列基线方法 [32] 研究的局限与开放问题 - 有观点指出,研究中的任务多样性可能不足,发现的可能只是“任务子宇宙特定的子空间”而非真正的通用子空间 [33] - 目前缺乏跨架构比较的方法,无法声称ViT和LLaMA3拥有相同的子空间 [33] - 开放问题包括:不同架构的通用子空间如何区别、能否通过显式设计架构来优化子空间几何结构、以及多样性缺失是否构成根本瓶颈 [14] 通用子空间涌现的原因推论 - 作者推论,神经网络对低频函数的谱偏好将学习动态集中到少数主导方向 [36] - 现代架构(如卷积、注意力机制)施加的强烈归纳偏置约束了解空间 [36] - 基于梯度的优化方法在无限宽度极限下由与任务基本无关的核函数主导,内在地偏好平滑解,将学习轨迹引向共享的几何流形 [36] - 如果假说成立,通用子空间可能捕获了超越特定任务的基本计算模式,这或许能解释迁移学习的有效性 [37]
长文本检索大突破,联通团队研发的新模型,准确率提升近两成
搜狐财经· 2025-12-03 04:15
模型技术突破 - 中国联通数据科学与人工智能研究院团队研发的HiMo-CLIP模型,解决了现有图像检索模型(如CLIP)在处理带多个特征的复杂长文本描述时准确率下降的“说越多错越多”难题[2][6] - 模型核心创新在于HiDe模块,该模块采用动态语义指纹提取技术,能自动识别描述中最具区分度的关键信息,例如识别“福特皮卡”时,“超大轮胎”比“有色车窗”更具区分性,该技术准确率达89.3%[7][8] - 模型采用MoLo损失机制进行双重对齐保障,既匹配整个文本语义,又强化核心特征匹配,确保描述增加有效信息时匹配得分上升,在MSCOCO-Long测试集上mAP指标比Long-CLIP提升近两成[11][13] 性能与效率 - 模型在A100显卡上的推理速度仅增加7%,对硬件要求不高,可在普通服务器上运行[10] - 模型在提升长文本处理能力的同时,在短文本任务上未出现性能倒退,在Flickr30K数据集上保持了98.3%的原始性能[13] - 在多项基准测试中,HiMo-CLIP(Ours)使用ViT-B/16架构在1M数据规模下,取得了89.2/89.6、77.8/79.9、58.6/57.1的优异性能指标[12] 商业化应用与行业影响 - 京东已试点采用该技术改进商品搜索功能,当用户使用“黑色连帽卫衣带白色抽绳和刺绣logo”等复杂描述时,搜索转化率提升了27%[14][15] - 自动驾驶领域正尝试应用该技术解析包含多元素的复杂路况描述,如“前方施工区域有黄色警示牌和穿橙色背心的工人”,以提升环境识别准确性[18] - 项目已在GitHub开源,不到半年获得2.3k星标,字节跳动、商汤科技等公司已在试用[18] 发展前景与行业意义 - 模型当前在处理如“碳纤维车身包围”等特别专业的术语时仍有提升空间,团队计划于2026年第三季度发布多语言版本[21] - 该模型的创新思路提示行业,AI模型发展不应仅追求数据拟合,更需模拟人类认知逻辑,结合知识图谱构建结构化语义空间可能是多模态智能发展的新方向[21] - 该模型的成功证明了中国团队在AI基础研究领域具备强大实力[21]
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
机器之心· 2025-11-19 12:07
研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据,成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型,仍严重依赖大量被试内数据,在少样本或零样本条件下难以快速适应新个体,限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异,使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描,通常需数千图像,成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化,必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型,仅凭少量示例图像及对应脑活动数据,即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数,训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务,置于元学习与上下文学习的统一框架下[10] - 在测试阶段,仅需提供新被试少量(如100个)图像-脑响应对作为上下文输入,模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分:冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略:预训练阶段使用合成体素权重与噪声构造虚拟体素任务;上下文扩展阶段引入可变长度上下文样本;有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文,通过自注意力机制融合跨被试知识,直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上,BraInCoRL仅使用100张上下文图像,即在多个类别选择性脑区上达到与全量训练模型(9,000张图像)相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线,在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集(3T扫描仪,不同刺激协议)上表现出色,验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中,BraInCoRL生成的体素权重呈现清晰语义聚类,人脸、场景、身体、食物等功能区域形成独立簇,在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制,可了解视觉皮层功能组织,发现与体素选择相关的图像,验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL,即可零样本预测整个皮层的激活图,实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛,为临床神经科学等数据受限场景应用开辟新路径[32]