CLIP - 财报，业绩电话会，研报，新闻

CLIP

搜索文档

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

机器之心· 2025-11-19 12:07

研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据，成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型，仍严重依赖大量被试内数据，在少样本或零样本条件下难以快速适应新个体，限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异，使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描，通常需数千图像，成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化，必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型，仅凭少量示例图像及对应脑活动数据，即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数，训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务，置于元学习与上下文学习的统一框架下[10] - 在测试阶段，仅需提供新被试少量（如100个）图像-脑响应对作为上下文输入，模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分：冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略：预训练阶段使用合成体素权重与噪声构造虚拟体素任务；上下文扩展阶段引入可变长度上下文样本；有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文，通过自注意力机制融合跨被试知识，直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上，BraInCoRL仅使用100张上下文图像，即在多个类别选择性脑区上达到与全量训练模型（9,000张图像）相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线，在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集（3T扫描仪，不同刺激协议）上表现出色，验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中，BraInCoRL生成的体素权重呈现清晰语义聚类，人脸、场景、身体、食物等功能区域形成独立簇，在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制，可了解视觉皮层功能组织，发现与体素选择相关的图像，验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL，即可零样本预测整个皮层的激活图，实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛，为临床神经科学等数据受限场景应用开辟新路径[32]

大脑编码模型（brain encoding models）

大脑编码模型（brain encoding models）

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

机器之心· 2025-11-19 12:07

本文共同第一作者为陈寅杰、颜子鹏，相关研究工作于香港大学科研实习期间完成；通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotlight。在视觉处理任务中，Vision Transformers（ViTs）已发展成为主流架构。然而，近期研究表明，ViT 模型的密集特征中会出现部分与局部语义不一致的伪影（artifact），进而削弱模型在精细定位类任务中的性能表现。因此，如何在不耗费大量计算资源的前提下，保留 ViT 模型预训练核心信息并消除密集特征中的伪影？香港大学团队提出一种无需数据标记的 ViT 密集表征增强方法 PH-Reg （Post Hoc Registers），为该挑战提供了全新且高效的解决方法。该方法融合测试时增强（test-time augmentation）的去噪策略，去除教师模型密集特征中的伪影；并通过自蒸馏方法，在无需额外数据标记的条件下，得到能够输出无伪影密集特征的学生模型。 PH-Reg 具备良好的架构适配性，可灵活应用于 CLIP、DINOv2 等不同模型架构，能够高效去除密集特征的伪影，以此显著提升模 ...

Vision Transformers（ViTs）

自蒸馏框架

免训练去噪算法

PH-Reg（Post Hoc Registers）

CLIP

DINOv2

Vision Transformers（ViTs）

自蒸馏框架

免训练去噪算法

PH-Reg（Post Hoc Registers）

CLIP

DINOv2

360开源FG-CLIP2：登顶29项全球基准测试

扬子晚报网· 2025-11-03 20:17

模型性能与行业地位 - 360集团开源的视觉语言对齐模型FG-CLIP2在29项权威公开基准测试中全面超越Google的SigLIP 2与Meta的MetaCLIP2 [1] - 模型在包含多个物体的复杂场景中细节识别置信度高达96% [3] - 模型实现了从宏观场景理解到微观细节识别的能力跃迁，攻克了传统CLIP模型在细粒度识别上的痛点 [3] 核心技术突破 - 模型核心实现三大根本创新：层次化对齐架构、动态注意力机制、双语协同优化策略 [6] - 动态注意力机制能以最小算力代价实现精准的细节捕捉 [6] - 双语协同优化策略从底层解决了中英文理解不平衡的难题，实现真正的双语原生支持 [6] - 模型依托自研超大规模高质量数据集FineHARD，该数据集包含千万级局部区域标注并引入大模型生成的难负样本 [6] 行业应用潜力 - 在电商领域能精准理解复杂商品描述，实现所想即所得的精准搜索，有望革新商品检索与推荐体验并提升商业转化 [7] - 在具身智能领域可作为机器人的慧眼，通过精准识别物体属性与空间关系使其在复杂场景中的操作成为可能 [7] - 能力同样赋能于AIGC内容生成、内容审核及安防监控等多个关键场景 [7] - 此次开源是公司在AI基础模型领域的关键落子，为中国构建自主可控的AI技术体系增添重要基石 [7]

AI基础模型

细粒度识别

Artificial Intelligence

Artificial Intelligence

FG - CLIP2

SigLIP 2

MetaCLIP2

牛津VGG、港大、上交发布ELIP：超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

机器之心· 2025-10-29 19:02

核心观点 - 提出一种名为ELIP的方法，旨在利用学术界有限的计算资源来增强视觉语言大模型的预训练，以提升其在文字-图片检索任务中的性能 [2] - 该方法的核心思想是通过一个轻量级的MLP映射网络，将语言信息注入到图像编码器中，实现两阶段（ranking + re-ranking）的检索流程 [5] - ELIP方法被证明可以显著提升包括CLIP、SigLIP、SigLIP-2和BLIP-2在内的多种主流视觉语言模型的检索效果，并在新的OOD测试集上展现出强大的泛化能力 [20][21][22] 方法概览 - ELIP方法首先使用传统模型（如CLIP/SigLIP）进行初步排序，然后对排名靠前的候选结果进行重新排序 [5] - 重新排序的关键是一个简单的三层MLP映射网络，该网络将文本特征映射为视觉域中的token，并将其插入图像编码器，使图像编码过程能感知语言信息 [5][9] - 该方法具有通用性，可应用于CLIP、SigLIP、SigLIP-2和BLIP-2等模型，分别称为ELIP-C、ELIP-S、ELIP-S-2和ELIP-B [5] 模型架构创新 - 模型架构的主要创新在于仅需训练一个轻量级的MLP映射网络，而庞大的图像和文本编码器的权重保持固定，这大大降低了计算资源需求 [8][9] - 对于CLIP和SigLIP模型，训练时分别沿用InfoNCE损失函数和Sigmoid损失函数来对齐文本特征和重新计算后的图像特征 [9] - 对于BLIP-2模型（ELIP-B），由文本引导的图像特征被输入Q-Former与文本进行交叉注意力计算，最终由ITM Head预测图文匹配度，训练沿用BLIP-2的BCE损失函数 [11] 训练数据创新 - 针对学术界GPU资源有限导致训练批次大小（batch size）较小的问题，作者提出了一种硬样本训练批次构建方法 [13] - 该方法预先计算训练图片和对应文字标题的CLIP特征，然后将特征相似的图文对聚集在一起，形成一个包含挑战性样本的训练批次，以提升模型的分辨能力 [13][15] 新的评测数据集 - 除了COCO和Flickr等标准测试集，作者引入了两个新的分布外（OOD）测试集：Occluded COCO和ImageNet-R，以评估模型的泛化能力 [17][18] - Occluded COCO数据集中的正样本包含被遮挡的物体，ImageNet-R数据集中的正样本包含来自不常见领域的物体 [18] 实验结果 - 在COCO数据集上，ELIP-C将CLIP的平均Recall从60.58提升至65.71；ELIP-S将SigLIP的平均Recall从71.74提升至77.45；ELIP-S-2将SigLIP-2的平均Recall从73.72提升至78.82 [21] - 在Flickr数据集上，ELIP-C将CLIP的平均Recall从82.97提升至85.87；ELIP-S将SigLIP的平均Recall从92.37提升至94.98；ELIP-S-2将SigLIP-2的平均Recall从92.92提升至94.88 [21] - ELIP-B将BLIP-2在COCO上的平均Recall从82.87提升至83.02，在Flickr上从95.62提升至95.88，表现超过了最新的Q-Pert方法 [21] - 在OOD测试集上，所有ELIP变体均取得了零样本泛化提升，例如ELIP-S在Occluded COCO上的零样本性能为64.58，经过微调后可达71.99 [22] - 注意力图分析表明，当文本查询与图片相关时，ELIP能够增强模型对文字描述相关区域的注意力 [23]

视觉语言大模型

多模态图片检索

Artificial Intelligence

Artificial Intelligence

ELIP

CLIP

SigLIP

NeurIPS 2025｜VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

机器之心· 2025-10-28 17:37

技术背景与核心观点 - 自回归模型在图像生成领域的应用依赖于视觉Tokenizer，其作用是将高维像素空间映射到低维离散潜在空间，是决定生成模型上限的基石[3] - 传统视觉Tokenizer（如VQGAN）存在缺乏高层语义信息、潜在空间冗余以及表征结构混乱等困境[4][7] - 研究提出并验证了一个新假设：冻结的预训练视觉基础模型（如CLIP、DINOv2、SigLIP2）的潜在特征可以直接作为图像重建与生成的鲁棒结构化表征[4] - 基于视觉基础模型构建的Tokenizer（VFMTok）在图像重建和自回归图像生成任务上均表现出优于传统模型的性能[5] VFMTok的核心技术创新 - 采用多层图像特征提取技术，从冻结的预训练基础模型中按等间隔方式提取多层级语义特征，以同时捕获图像的低层细节和高层语义信息[14][17] - 设计了区域自适应量化机制，通过可学习的锚点查询结合可变形注意力机制进行自适应特征采样，聚焦于图像中模式一致的区域，有效提升token利用效率，仅用256个token表征一张图像[14][18] - 引入了语义特征重建目标函数，在重建图像内容的同时，重建冻结基础模型最后一层的语义特征，以提升Tokenizer的语义保真度[14][19] - 整体架构采用共享的轻量级Vision Transformer，减少了参数量并保证了语义保真度，其双重目标函数结合了传统Tokenizer损失和余弦相似度损失[19][20] 性能优势与实验成果 - 在图像重建质量上，VFMTok仅用256个token即可实现rFID 0.89和rIS 215.4的优异表现，超越了使用576个token的VQGAN基线（rFID 0.95, rIS 197.3）[12][23][29] - 在线性探针准确率上，仅使用冻结VFM作为编码器即可从VQGAN的23.1%提升至56.4%，引入完整VFMTok技术后达到69.4%[12][28][29] - 在自回归图像生成任务上，VFMTok能够显著提升训练收敛速度，训练收敛速度提升了3倍[24] - VFMTok-1.4B模型在参数量更少、训练迭代次数更少的情况下，自回归生成性能超越了同类LlamaGen-3B模型[26] - 接入RAR自回归图像生成框架后，VFMTok实现了SOTA的图像生成性能，gFID达到1.36[27] 效率与实用性突破 - VFMTok在有无分类器自由引导的情况下性能几乎一致（gFID: 2.07 vs 2.04），而LlamaGen则会从2.19急剧恶化至9.38，证明了其潜在空间具有极强的语义一致性[27][33] - 由于token数量减半（256 vs 576），自回归模型的生成过程长度减半，推理速度因此获得了约4倍的提升[33] - VFMTok实现了100%的码本利用率，超越了之前大部分传统的离散Tokenizers[23][29] - 该方法无需CFG即可实现高保真度的class-to-image图像生成，可以进一步减少图像生成时间[33]

Visual Foundation Models

Visual Tokenizer

Artificial Intelligence

VFMTok

DALL-E

Parti

Visual Foundation Models

Visual Tokenizer

Artificial Intelligence

VFMTok

DALL-E

Parti

李飞飞的答案：大模型之后，Agent向何处去？

虎嗅APP· 2025-09-07 10:51

Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶根据指令自动生成游戏关卡、道具和完整3D场景大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令机器人自主规划执行复杂物理操作如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集基于医学知识库提供诊断建议提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库在生成诊断时同步进行事实核查和来源引用抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体而非定制化模型[32] - 建立科学评测体系至关重要研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]

Agent

通用人工智能（AGI）

大模型

Artificial Intelligence

Artificial Intelligence

Agent AI

GPT系列

李飞飞的答案：大模型之后，Agent 向何处去？

创业邦· 2025-09-05 19:12

论文核心观点 - 李飞飞领衔的80页综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》为AI智能体领域建立统一框架提出从感知到行动的认知闭环架构并前瞻性预测行业技术演进路径 [5][6][9] - 论文定义Agent AI五大核心模块（环境感知、认知、行动、学习、记忆）构成动态迭代的智能体体系被视为实现AGI的系统性蓝图 [12][18] - 大模型（LLM/VLM）是驱动Agent的核心引擎但需通过环境交互解决幻觉与偏见问题需建立伦理安全机制 [5][20][21] - 应用潜力覆盖游戏、机器人和医疗三大领域包括游戏NPC动态交互、机器人自主物理操作、医疗智能问诊与健康管理 [5][24][30] 技术架构 - 环境与感知模块：智能体主动从物理/虚拟世界获取多模态信息（视觉、听觉、文本）并具备任务规划与技能观察能力 [13] - 认知模块：由LLM/VLM驱动负责复杂推理、策略制定及上下文理解是智能体的核心处理中枢 [14] - 行动模块：将决策转化为具体操作指令包括机器人控制命令或API调用通过控制器改变环境状态 [15] - 学习模块：支持预训练、零样本/少样本学习、强化学习及模仿学习通过环境反馈实现持续优化 [16] - 记忆模块：存储知识、逻辑与推理结果形成长期记忆体系支持经验复用与举一反三 [17][18] 大模型驱动机制 - LLM/VLM提供零样本规划能力例如将"热午餐"指令分解为具体子任务序列显著降低规则编写成本 [20] - 环境交互是关键锚点：通过真实/模拟环境反馈校准模型输出减少幻觉（如机器人操作错误）并对齐现实世界 [21] - 需解决数据偏见问题：通过多元化训练数据、偏见检测机制及道德指导方针确保包容性 [21] - 隐私与安全挑战：需建立数据使用监管框架通过提示工程或人类监督层确保敏感领域（如医疗）安全可控 [22] 行业应用场景 - 游戏领域：变革传统NPC脚本模式实现动态对话、行为调整及社会关系构建支持自然语言交互与AI辅助内容生成 [25][26] - 机器人领域：实现自然语言指令解析（如"收拾桌子"）结合GPT-4V理解人类演示视频并通过模拟训练与多模态融合提升物理操作鲁棒性 [28] - 医疗领域：智能问诊机器人提升初级诊疗效率连接实时医学数据库进行事实核查支持慢性病监控与个性化健康管理 [30][32] 行业发展与挑战 - 2025年被普遍视为Agent元年谷歌、OpenAI和微软等巨头技术布局均遵循论文能力栈框架 [5][9] - 当前需突破多模态深度融合、跨领域通用化及标准化评测（如CuisineWorld、VideoAnalytica基准）等核心挑战 [33]

Agent AI

通用人工智能（AGI）

人工智能幻觉

Artificial Intelligence

Artificial Intelligence

GPT系列

CLIP

李飞飞的答案：大模型之后，Agent向何处去？

虎嗅· 2025-09-05 08:34

论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述提出统一的多模态智能体认知框架为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入包含视觉听觉文本传感器数据并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储保留知识逻辑推理路径支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]

Agent

大模型

通用人工智能（AGI）

Artificial Intelligence

Artificial Intelligence

Agent AI

GPT系列

OpenAI提出的CLIP，被Meta联合谢赛宁、刘壮，扩展到全球300+语言

机器之心· 2025-07-31 13:11

MetaCLIP 2的核心创新 - 提出首个从零开始在原生全球图文对上训练CLIP的方法，不依赖外部资源如私有数据或机器翻译 [2] - 通过元数据拓展、数据筛选算法和训练框架三项核心创新实现全球扩展能力，覆盖300多种语言 [5] - 实验证明英语与非英语数据可互利，ViT-H/14模型在ImageNet英语准确率从80.5%提升至81.3%，多语言任务创SOTA [6][10] 技术架构与训练方法 - 元数据覆盖维基百科与多语言WordNet，采用语言隔离的子串匹配算法保持概念分布均衡 [22][24] - 训练框架同步扩大批次规模2.3倍（从32,768增至75,366），确保英语数据占比44%不变 [26][27][30] - 使用多语言tokenizer（XLM-V最优）和最小可行模型容量研究，保持与OpenAI CLIP架构一致性 [20][37] 性能优势与行业影响 - 在Babel-ImageNet、XM3600等多语言基准上性能超越mSigLIP 3.8%-7.6%，使用图文对数量仅为竞品72% [32][34] - 保留文化多样性数据分布，提升地理定位能力（如GLDv2任务69.0% Top-1准确率） [13][39] - 提供全球规模图文对数据集，支持MLLM、图像生成等下游应用，填补非英语数据处理的空白 [15][7] 实验验证与突破 - 消融实验显示语言隔离和t_lang调整机制对性能提升关键，ViT-H/14模型打破"多语言诅咒" [31][36] - 全球数据训练使英语与非英语任务同步优化，XM3600检索任务达到64.3%准确率 [6][32] - 嵌入质量评估显示MetaCLIP 2在对齐度和均匀性指标上优于SigLIP系列模型 [39]

Meta Platforms(US:META)

多语言大模型

全球尺度训练

Artificial Intelligence

Artificial Intelligence

CLIP

MetaCLIP 2

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

36氪· 2025-07-23 10:45

大规模视频语言预训练技术发展 - 视频语言预训练利用弱字幕和视频数据进行表征学习，采用预训练和微调范式降低计算成本并提升模型复用性 [1][2] - 主要代理任务包括掩码语言模型(MLM)、掩码帧模型(MFM)、语言重构(LR)等6类，分别聚焦语言预测、帧预测、对齐等序列视角学习 [2] - Transformer模型通过计算元素相似度聚合长程依赖，突破传统模型训练数据规模限制 [3] 关键数据集发展现状 - 基于标签数据集：Kinetics含65万视频片段覆盖700类动作，AVA含162万动作标签 [7] - 基于字幕数据集：Howto100M含136亿视频片段，WebVid-10M含1000万弱字幕视频，HD-VILA含1亿720p视频片段 [8] - 数据集规模直接影响模型鲁棒性，尤其对Transformer架构至关重要 [6] 主流预训练方法分类 - 单流方法：VideoBERT首次采用Transformer，ClipBert实现经济型端到端学习，ALPRO提出视频文本对比增强交互 [10] - 双流方法：CBT采用对比噪声估计损失，FiT学习联合多模态嵌入，CLIP-ViP将视觉语言对齐扩展至视频级 [11] - 方法选择取决于任务需求，单流擅长细粒度关系捕捉，双流提供模态处理灵活性 [11] 应用领域与迁移学习 - 下游任务覆盖视频文本检索、动作识别、视频问答等，需针对性设计迁移方案 [4] - CLIP模型基于4亿图像-文本对训练，在零样本图像分类任务表现突出 [3] - 跨模态任务研究激增，视频数据多模态特性(标题/音频/旁白)推动技术突破 [3]