表征学习
搜索文档
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 08:28
文章核心观点 - 文章是一位资深AI研究员对个人职业变动与年度研究方向的回顾与总结 其核心观点在于强调大模型推理效率提升与模型可解释性研究是当前及未来人工智能领域两个至关重要且充满前景的方向 同时分享了个人从大公司离职加入初创企业的职业选择 [3][5][6][10] 个人职业变动与感悟 - 作者于2025年1月底被要求加入Llama4项目进行“救火” 尽管项目最终结果超出其最初设想的四种可能 但在此过程中团队在强化学习训练的核心问题上进行了多项有价值的探索 [3] - 作者在Meta工作十年多后最终离职 尽管此前因经济和家庭原因多次犹豫 但最终将此次变动视为一个积极的转折点 并决定加入一家初创公司担任联合创始人 [4][5] - 作者回顾了2021年的一项工作 该工作起初未受关注但后来在ICML会议上获得了最佳论文荣誉提名 并成为表征学习领域一篇较知名的文章 [5] 大模型推理研究方向 - **连续隐空间推理**:作者团队在2024年末公开的连续隐空间推理工作(COLM‘25)在2025年引发研究热潮 随后团队在2025年上半年发表了一篇理论分析文章(NeurIPS‘25) 阐述了该方法的优势所在 [6] - **推理效率提升**:团队通过多项研究致力于提高大模型推理效率 - **Token Assorted(ICLR‘25)**:通过VQVAE学习隐空间的离散token 并将其与文本token混合进行后训练 在降低推理代价的同时提升了性能 [7] - **DeepConf**:通过检测生成token的置信度来决定是否提前终止推理路径 从而显著减少推理所用token数量 在多数投票场景下性能更优 [7] - **ThreadWeaver**:通过制造并行推理的思维链并进行后训练来加快推理速度 [7] - **其他尝试**:包括在dLLM上用强化学习训练推理模型 以及在小模型上学习推理 [7] 模型可解释性研究方向 - **关注动机**:作者认为无论人工智能通过规模扩展最终成功或失败 可解释性研究都至关重要 是确保AI向善或寻找替代方案的关键 且人类探索的天性也驱使其研究“黑盒” [10] - **Grokking(顿悟)现象**:作者团队通过分析Grokking这一从记忆到泛化的特征涌现现象 来探索模型学习的表征与数据结构的关联 2024年的初步工作(NeurIPS‘25)后 近期在可证明的缩放定律研究上取得较大突破 [8] - **RL与SFT行为差异**:作者团队年末的工作从权重层面解释了强化学习与监督微调行为不一致的原因 指出SFT因使用非当前策略数据导致权重主分量被大幅修改 引发灾难性遗忘 而RL使用当前策略数据 主要改变权重次要分量 避免了该问题 [9] - **研究现状与愿景**:作者指出当前通过寻找“电路”来打开模型黑箱仍处于初步阶段 真正的挑战在于从第一性原理解释模型为何会涌现出解耦、稀疏、模块化等特征 其愿景是实现从“收集证据”到“推导原理”的范式转变 最终指导下一代模型设计 [11]
向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差
量子位· 2025-12-25 19:51
文章核心观点 - 当前将多模态数据纳入RAG和Agent框架时,普遍依赖的embedding→向量检索→下游任务流程存在未被正确认知的陷阱,行业认为向量检索方法已标准化并倾向于无脑使用HNSW,但事实并非如此 [1] - 以真实下游语义任务为黄金基准进行评估,HNSW在许多任务上表现不佳,表明RAG在多模态领域远未达到标准化程度,过去的评估体系存在严重偏差 [1] - 研究团队推出的新基准IceBerg,以下游语义任务而非传统的Recall-QPS为基准,其发现足以颠覆过去五年的行业认知,引发向量检索算法排名的大洗牌 [1] 认知偏差:距离度量与语义相似度 - 存在一个根本性的认知偏差:距离度量并不等同于语义相似度 [3] - 在大规模人脸验证数据集Glink360K上,人脸识别准确率在按距离度量计算的Recall达到99%之前就已饱和,且基于图的SOTA算法NSG在距离度量recall上优于基于哈希的RaBitQ,但在下游人脸识别准确率上却一致弱于RaBitQ,揭示了评价体系失准和“产能过剩”问题 [5] - 针对同一embedding,不同度量空间对下游任务效果影响巨大,例如使用EVA02图片encoder时,欧氏距离可达80%+的语义识别精度,而内积度量则始终停留在1%附近,表明度量空间选择存在巨大“陷阱” [6] 端到端信息损失漏斗模型 - 为解释向量检索“真实”效果与行业认知的偏差,提出了一个端到端的信息损失漏斗模型,描述了信息逐层损失的过程 [7] - **阶段一:表征模型Capacity瓶颈**:表征学习模型的能力上限决定了embedding的语义表达力和质量 [9][10] - 影响模型表达力的因素包括:1) 模型的泛化误差,即模型在测试集上表现通常逊于训练集,且在训练数据上也常无法达到100%准确 [11];2) 模型的学习目标,表征学习常不等于度量学习,模型学习的是语义相似度,其损失函数不一定鼓励“语义相近样本在度量空间中更接近” [12] - 这些原因导致数据通过模型转为embedding时,会产生大量信息损失,特别是在语义和度量对等性问题上 [13] - **阶段二:度量选择**:对于一些生成式表征模型,如某些auto encoder pretrain model,没有对度量空间的明确约束,此时选择欧氏距离还是内积距离会对结果产生巨大影响 [14][15] - **阶段三:向量检索方法选择**:向量检索方法主要分为基于空间切分(量化)和基于图结构索引两大类,不同方法对不同数据分布有不同“亲和度”,因为它们都以近似手段最小化搜索空间,但选择性忽略的数据不同,导致下游任务表现差异 [16][17] IceBerg基准测试结果与发现 - **向量检索算法排名大洗牌**:IceBerg Bench覆盖不同模态、任务和embedding model,以下游任务为中心进行排名,结果显示HNSW并非“常胜将军”,不同交叉组合下有不同的方法胜出 [18][19] - 例如,在ImageNet图片识别任务上,欧式距离和内积距离上的最优算法(HNSW/ScaNN)均未成为下游任务的赢家,胜出的是RaBitQ [20] - **新手玩家利器:自动化算法选型**:IceBench提供了自动化算法检测方案,通过分析数据分布的统计信号(如聚类程度、向量方向分散度)构建可解释的“决策树”,帮助用户无需暴力测试即可选对方法 [21][23] - 该工具将保持对最前沿encoder的追踪,实时更新算法选择建议 [24] 行业影响与未来方向 - IceBench首次从端到端的价值体系重新度量了SOTA向量检索方法的真实能力,并暴露了向量数据库领域海平面之下的认知陷阱 [25] - 研究团队呼吁未来的向量检索研究应更深入RAG、Agent等下游应用语境,关注度量-任务匹配度、算法-数据分布兼容性,乃至跨度量/多度量/多向量的统一向量检索算法,以真正实现RAG的标准化 [25]
AI4S新势力齐聚「SAIS Talk上智院星辰之夜」:五大前沿分享,等你来听
机器之心· 2025-09-24 15:48
上海科学智能研究院(上智院)概况 - 全球首个专注科学智能领域的研究院 成立于2023年9月 [2] - 使命是用人工智能驱动科学研究范式变革 赋能千行百业 [2] - 牵头研发伏羲气象大模型 燧人物质大模型 女娲生命大模型 星河启智科学智能开放平台等关键成果 [2] SAIS Talk活动信息 - 上智院主办的前沿技术分享会 已成功举行15期 [3] - 汇聚共性技术 物质科学 生命科学 地球科学等方向的青年研究员 [3] - 活动包含5-10分钟交流环节 涵盖表征学习 催化反应预测 生物分子动态模拟 单细胞图谱 全球天气预报等多个领域 [3] 表征学习研究进展 - 提出层级化时空表征与跨尺度隐式自回归建模框架 显著提升长期预测精度与稳定性 [5] - 在气候建模 流体力学及分子动力学等复杂系统展现重要应用潜力 [5] - 融合扩散模型与层级表征 提高复杂场景图像生成质量 实现零成本语义重采样控制 [5] 催化反应预测框架 - 开发RXNGraphormer统一预训练反应预测框架 弥合数值回归与序列生成的方法差异 [9] - 实现对化学反应活性 选择性和单步正向/逆向合成的精准预测 [10] - 模型能自发学习化学键变化规律 在多项预测任务中达到领先水平 [10] 生物分子动力学研究 - 基于4D扩散模型的生成框架实现蛋白质动力学轨迹生成或长时间尺度构象生成 [13] - 为阐释蛋白质功能与加速药物设计提供全新计算范式 [13] 单细胞调控关系识别 - 开发单细胞基因调控关系预测框架SCRIPT 长程调控预测性能较当前最优方法提升逾两倍 [17] - 在阿尔兹海默症和精神分裂症中发现未揭示的分子遗传学机制 [17] - 有望在复杂疾病的遗传诊断和药物靶点发现上发挥重要作用 [17] 全球天气预报系统 - FuXi-Weather为完全基于机器学习的全球天气预报系统 具备多源卫星观测资料同化能力 [21] - 实现循环资料同化与一体化预报 使用观测资料远少于传统数值预报系统 [21] - 能生成未来10天高精度天气预报 在观测稀疏区域预报表现优于欧洲中期天气预报中心HRES系统 [21]
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 17:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 13:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]