Workflow
CLIP
icon
搜索文档
OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
机器之心· 2025-07-31 13:11
MetaCLIP 2的核心创新 - 提出首个从零开始在原生全球图文对上训练CLIP的方法,不依赖外部资源如私有数据或机器翻译 [2] - 通过元数据拓展、数据筛选算法和训练框架三项核心创新实现全球扩展能力,覆盖300多种语言 [5] - 实验证明英语与非英语数据可互利,ViT-H/14模型在ImageNet英语准确率从80.5%提升至81.3%,多语言任务创SOTA [6][10] 技术架构与训练方法 - 元数据覆盖维基百科与多语言WordNet,采用语言隔离的子串匹配算法保持概念分布均衡 [22][24] - 训练框架同步扩大批次规模2.3倍(从32,768增至75,366),确保英语数据占比44%不变 [26][27][30] - 使用多语言tokenizer(XLM-V最优)和最小可行模型容量研究,保持与OpenAI CLIP架构一致性 [20][37] 性能优势与行业影响 - 在Babel-ImageNet、XM3600等多语言基准上性能超越mSigLIP 3.8%-7.6%,使用图文对数量仅为竞品72% [32][34] - 保留文化多样性数据分布,提升地理定位能力(如GLDv2任务69.0% Top-1准确率) [13][39] - 提供全球规模图文对数据集,支持MLLM、图像生成等下游应用,填补非英语数据处理的空白 [15][7] 实验验证与突破 - 消融实验显示语言隔离和t_lang调整机制对性能提升关键,ViT-H/14模型打破"多语言诅咒" [31][36] - 全球数据训练使英语与非英语任务同步优化,XM3600检索任务达到64.3%准确率 [6][32] - 嵌入质量评估显示MetaCLIP 2在对齐度和均匀性指标上优于SigLIP系列模型 [39]
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
36氪· 2025-07-23 10:45
大规模视频语言预训练技术发展 - 视频语言预训练利用弱字幕和视频数据进行表征学习,采用预训练和微调范式降低计算成本并提升模型复用性 [1][2] - 主要代理任务包括掩码语言模型(MLM)、掩码帧模型(MFM)、语言重构(LR)等6类,分别聚焦语言预测、帧预测、对齐等序列视角学习 [2] - Transformer模型通过计算元素相似度聚合长程依赖,突破传统模型训练数据规模限制 [3] 关键数据集发展现状 - 基于标签数据集:Kinetics含65万视频片段覆盖700类动作,AVA含162万动作标签 [7] - 基于字幕数据集:Howto100M含136亿视频片段,WebVid-10M含1000万弱字幕视频,HD-VILA含1亿720p视频片段 [8] - 数据集规模直接影响模型鲁棒性,尤其对Transformer架构至关重要 [6] 主流预训练方法分类 - 单流方法:VideoBERT首次采用Transformer,ClipBert实现经济型端到端学习,ALPRO提出视频文本对比增强交互 [10] - 双流方法:CBT采用对比噪声估计损失,FiT学习联合多模态嵌入,CLIP-ViP将视觉语言对齐扩展至视频级 [11] - 方法选择取决于任务需求,单流擅长细粒度关系捕捉,双流提供模态处理灵活性 [11] 应用领域与迁移学习 - 下游任务覆盖视频文本检索、动作识别、视频问答等,需针对性设计迁移方案 [4] - CLIP模型基于4亿图像-文本对训练,在零样本图像分类任务表现突出 [3] - 跨模态任务研究激增,视频数据多模态特性(标题/音频/旁白)推动技术突破 [3]
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
被 AI 大厂逼至绝望,这帮欧洲人发起了一场“科学复兴运动”
AI科技大本营· 2025-06-24 15:45
LAION的起源与使命 - LAION诞生于对AI领域"黑箱"研究现状的反思,旨在通过开放数据集和工具推动机器学习研究的可复现性[7][12][13] - 由德国高中教师Christoph Schuhmann发起"在家爬虫"计划,后联合程序员Theo Coombes共同创建去中心化协作网络[2][3] - 核心信条为100%非营利与免费,目标是通过开放资源对抗AI发展的集权化趋势[3][9][26] 组织架构与关键成员 - 采用分布式实验室网络模式,核心成员包括尤利希超级计算中心的Jenia Jitsev博士、斯坦福大学Ludwig Schmidt教授等[5][9][11] - 依托德国亥姆霍兹联合会的超级计算资源,实现工业级模型训练能力[9][14] - 志愿者社区涵盖科学家、工程师、医生等多元背景,形成互补型人才网络[3][5] 技术突破与行业影响 - 成功构建LAION-400M/5B开放数据集,训练出的OpenCLIP模型性能媲美OpenAI原始CLIP[16][17] - OpenCLIP B32模型持续产生影响力,月下载量超100万次[17] - 验证了开源社区通过协作可复现顶尖实验室成果的可能性[16][26] 研究范式与学术理念 - 强调"以数据为中心"的机器学习理念,主张网络规模数据集的多样性优于人工筛选[21][22] - 遵循"苦涩的教训"原则,追求算法与数据集的双重可扩展性[22][23] - 通过OpenThoughts等项目推动推理模型发展,已积累100万条推理轨迹数据[41][43] 行业问题与批判 - 揭示大语言模型存在根本性逻辑缺陷,简单数字变化即可导致GPT-4等顶尖模型性能崩溃[35][36] - 指出商业模型过度自信的"虚构"问题可能对实际应用造成隐蔽风险[37][38] - 批评封闭实验室因商业压力可能偏离基础研究方向[27][28] 未来发展方向 - 计划扩大推理数据规模至数百万条,验证量变能否引发质变[41][43] - 寻求与Linux基金会等组织建立更紧密的开放生态合作框架[45] - 持续通过"爱丽丝梦游仙境"等研究对行业进行压力测试[33][38]
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
机器人圈· 2025-06-11 19:43
大模型理解能力研究 - 核心观点:大语言模型(LLM)和多模态大语言模型(MLLM)能够自发形成与人类高度相似的物体概念表征系统,证明其并非仅依赖统计概率的"随机鹦鹉"[1][2][3] - 研究团队通过470万次行为判断数据构建AI模型的"概念地图",证实其低维表征结构与人类相似[3][6][8] - 纯文本训练的ChatGPT-3.5与多模态Gemini模型预测人类行为选择的准确度分别达到噪声上限的87.1%和85.9%[9] 研究方法与发现 - 采用"三选一异类识别任务"分析1854种日常概念组合,首创"行为认知探针"方法避免黑箱神经网络的可解释性难题[5][8] - 从行为数据中提取66个核心维度,模型自发形成18个高级物体概念类别,分类准确率达78.3%(接近人类的87.1%)[9][13] - 模型表现出与人类一致的"生物/非生物""人造/自然"分类边界,印证认知神经科学经典发现[14] 模型与人类认知对比 - MLLM的低维嵌入预测大脑梭状回面孔区(FFA)神经活动的准确度达人类水平的85%,远超纯文本模型(60%)[23][24] - 大模型(如GPT-4、Gemini_Pro)在行为选择模式上更接近人类,传统单模态模型(如ResNet18、VGG16)一致性较低[28][29] - 人类决策依赖视觉特征和语义信息整合,而大模型更侧重语言驱动的语义归类[32][33] 应用前景与未来方向 - 潜在应用包括类脑智能系统开发、神经机制探索、认知增强型脑机接口构建[35] - 下一步将拓展至新一代多模态大模型测试平台,建立细粒度"认知图谱"并开发持续微调方法[35][36] - 研究团队由中科院自动化所主导,论文发表于《Nature Machine Intelligence》,相关代码与数据集已开源[37][39][40]
Mary Meeker:AI采纳现状如何?
搜狐财经· 2025-06-11 10:17
核心观点 - ChatGPT的搜索量增长速度超过传统Google搜索,成为AI领域最具变革性的技术之一 [2] - AI训练模型数据和计算资源的年增长率分别达到260%和360% [2] - AI采纳速度远超历次科技革命,仅用约三年时间达到普及 [5][6] AI增长与普及 - ChatGPT在用户、订阅数和收入方面展示出前所未有的普及度,呈现曲棍球棒式增长曲线 [3] - AI在消费者、开发者、企业和政府中的使用激增,全球化扩散速度远超互联网1.0时代 [4] - 多模态AI模型快速发展,2024-2025年已实现文本、图片、声音和视频的统一处理 [6] 开发者与企业应用 - Google生态系统的AI开发者数量从140万增长至700万,增幅达五倍 [5] - 全球75%的首席营销官正在试验AI,企业显著增加AI项目投入 [6] - AI推理成本通缩现象存在,每年美元购买力提升达10倍 [7] 全球市场与竞争 - 印度ChatGPT使用率为13.5%,美国9%,印尼和巴西均为5% [9] - 中国在大语言模型性能方面领先,AI能力支撑国家战略领域 [10] - 中国预计到2025年将聚焦AI在军事和非战斗支援中的应用 [10] 未来趋势 - 下一代用户将在原生AI环境中成长,机器将以母语和语音直接互动 [8] - AI将深度融入生活,未来难以想象没有AI的世界 [8] - 语音界面与实体结合将推动机器人管家等实用型设备发展 [10]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
产业信息网· 2025-05-29 09:47
多模态大模型行业定义及分类 - 多模态大模型是能够同时处理和理解多种模态数据(如文本、图像、音频、视频、3D模型等)的大规模人工智能模型,通过深度学习技术实现跨模态信息融合与推理 [2] - 与传统单一模态模型相比,多模态大模型更像全能翻译官,能够将不同模态信息融会贯通,更准确地处理复杂任务 [2] 多模态大模型行业发展历程 - 行业经历了任务导向阶段、视觉-语言预训练阶段和多模态大模型阶段 [4] - 多模态大模型阶段已实现更灵活的交互方式,强调跨模态理解与生成能力同步提升 [4] 多模态大模型行业发展现状 - 2024年中国多模态大模型市场规模为156.3亿元,较2023年增加65.4亿元,预计2025年达234.8亿元 [6] - 数字人领域应用份额最大(24%),其次是游戏与广告商拍(各13%),智能营销和社交媒体(各10%) [8] 多模态大模型行业产业链 - 上游包括AI芯片、GPU/FPGA/CPU/ASIC、服务器等硬件及基础软件 [10] - 中游为多模态大模型产品(如CLIP、BLIP、LLaMA等) [10] - 下游应用于工业、农业、金融科技等生产制造领域,教育、游戏、传媒等生活娱乐领域,基建、交通、医疗等公共服务领域 [10] - AI芯片市场规模从2019年116亿元增长至2024年1447亿元 [12] - 游戏领域2024年销售收入达3257.83亿元,用户规模6.74亿人 [14] 多模态大模型行业竞争格局 - 主流大模型包括中科院紫东太初、华为盘古、百度文心、腾讯混元、阿里通义、科大讯飞星火等 [16] - Kimi、DeepSeek等通过技术优化将训练成本控制在3000-6000万美元 [16] - 百度文心大模型4.5是首个原生多模态模型,具备多模态理解和高情商特点 [16] - 腾讯混元大模型采用动态路由机制,训练成本降低40% [16] - 阿里通义大模型在医疗、司法、文化传播等领域落地应用 [16] 多模态大模型行业发展趋势 - 多模态大模型正成为推动相关产业创新发展的重要力量,能提供更丰富和个性化的服务体验 [19] - 未来将实现更自然高效的人机协作,在金融分析、智能客服、教育辅导、内容创作等场景展现多任务处理能力 [19] - 技术发展将呈现更加多元和深入的趋势,模型将更智能、更人性化 [19]
2025年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色【组图】
前瞻网· 2025-05-22 16:58
多模态大模型技术概述 - 视觉+语言多模态大模型的主流方法是通过预训练的大语言模型和图像编码器结合图文特征对齐模块实现跨模态理解减少对高质量图文对数据的依赖[1] - 行业主要上市公司包括阿里巴巴百度腾讯科大讯飞万兴科技三六零昆仑万维云从科技拓尔思等[1] CLIP模型技术特点 - CLIP采用对比学习方法连接图像和文本特征通过文本编码器实现zero-shot视觉分类[2] - 使用句子模板(prompt engineering)作为分类标签显著提升效果例如"A photo of a..."的句式结构[2] Flamingo模型架构 - Flamingo整合CLIP与语言模型新增技术使模型能基于视觉和文本输入生成文本响应[5] - 训练使用4类数据集包括2种(图像文本)对1种(视频文本)对及交错图像文本数据集[5] BLIP模型创新 - BLIP统一视觉语言任务的理解与生成能力通过自监督引导学习增强跨模态性能[7] - 相比CLIP新增图像生成视觉问答图像描述等复杂任务处理能力[7] LLaMA多模态实现 - LLaMA采用CLIP ViT-L/14视觉编码器+语言解码器架构通过映射矩阵将视觉特征转化为Token[8] - 可替换基础映射层为gated cross-attention或Q-former等复杂网络提升性能[8] 行业研究资源 - 前瞻产业研究院提供《全球及中国多模态大模型行业发展前景与投资战略规划分析报告》[10] - 其他服务包括产业新赛道研究IPO咨询专精特新企业申报等解决方案[12]
AI“偏科”现象引关注:能编程作画却难辨钟表日期
环球网· 2025-05-18 10:27
AI技术能力现状 - 主流AI模型(如GPT-4、Stable Diffusion)在编程、艺术创作、文本生成等领域表现卓越,例如GitHub Copilot可提升代码生成效率40% [3] - AI绘画工具(如Midjourney)能生成媲美专业画师的作品 [3] - ChatGPT可撰写学术论文、营销文案,甚至通过美国律师资格考试等标准化考试 [3] AI技术局限性 - AI在处理基础生活任务时频繁出错,例如识别模拟钟表时间的准确率仅75%,耗时2-3秒(人类平均0.8秒) [3] - 推算日期类问题(如"100天后是周几")的错误率高达30% [3] - 在生活技能指导(如制作蛋糕)中常出现逻辑漏洞 [3] 技术缺陷根源 - 视觉-空间理解能力不足:现有模型(如CLIP)难以处理多模态信息(指针形状、角度、数字刻度) [3] - 时间序列与常识推理缺失:AI缺乏对动态日期变化(如闰年、月份天数)的建模能力 [4] 专家观点 - 麻省理工学院教授指出当前AI的"智力"依赖模式匹配而非真正理解,需提升空间感知和时间理解能力 [4]