多模态大型语言模型（MLLM） - 财报，业绩电话会，研报，新闻

多模态大型语言模型（MLLM）

搜索文档

自动驾驶之心· 2025-11-15 11:03

多模态大语言模型（MLLM）行业技术演进 - 多模态大型语言模型（MLLM）已成为新兴研究热点，其通过将大型语言模型（LLM）作为大脑来执行多模态任务，展现出如基于图像撰写故事和无OCR数学推理等新能力，这指示了通向通用人工智能的潜在路径 [2] - 行业通常在大规模配对数据上进行预训练，以促进不同模态间的对齐，对齐数据集通常为图像文本对或自动语音识别数据集，常见方法是冻结预训练模块并训练一个可学习的接口 [2] - 行业内已涌现大量代表性模型，包括Flamingo、BLIP-2、InstructBLIP、LLaVA系列、Qwen-VL、NExT-GPT、CogVLM等，覆盖了从少样本学习到任意模态输入输出的广泛能力 [3][4] 视觉-语言对齐核心技术 - Flamingo模型采用Perceiver Resampler模块，将视觉编码器输出的可变大小时空特征映射为固定数量的视觉标记（例如64个），从而降低后续交叉注意力的计算复杂度 [6][8] - 模型通过GATED XATTN-DENSE层将视觉信息整合到冻结的语言模型中，训练过程中所有语言模型层均利用了视觉信息，门控值的绝对值随网络深度增加而增长 [9][12] - 模型通过特定的掩码方法处理交错的视觉数据与文本序列，限制文本标记仅能关注其前导图像/视频对应的视觉标记，实现了多视觉输入的支持 [11][14] 高效训练策略与数据工程 - 训练数据的构成对模型性能至关重要，例如在Flamingo中，去除交错的图像文本数据集M3W会导致性能下降超过17%，而去除传统配对图像文本对也会导致性能下降9.8% [15] - BLIP-2采用两阶段策略，第一阶段冻结图像编码器和LLM，训练轻量级Q-Former进行视觉-语言表示学习；第二阶段引导视觉到语言的生成学习，实现零样本图像到文本生成 [16][17][22] - 为提高数据效率并防止过拟合，行业采用数据集加权采样策略，采样概率与数据集大小的平方根成正比，例如InstructBLIP中M3W、ALIGN等数据集的权重分别为1.0、0.2等 [28][31][32] 指令微调与性能优化 - 指令微调对模型性能影响巨大，例如在LLaVA中，未进行指令微调的模型性能相对下降高达61.1%，而采用清晰的响应格式提示能有效引导模型输出长短形式的答案 [34][35] - 通过增加高质量、多样化的指令跟随数据，例如结合GPT-4生成的数据，能显著提升模型的视觉推理、OCR和世界知识能力，LLaVA-NeXT在多个基准上甚至超越了Gemini Pro [40][44][46] - 模型扩展不仅限于参数量，还包括输入图像分辨率的提升，例如Monkey模型将输入分辨率有效提升至896x1344像素，无需从零预训练即可显著提高在文档理解等任务上的性能 [94][96][100] 架构创新与效率提升 - 为降低处理高分辨率图像的计算负担，行业提出多种创新架构，如LLaVA-UHD采用模块化视觉编码策略，将图像分割为可变大小切片，并通过压缩层减少视觉标记数量，在仅使用94%推理计算量的情况下提升性能 [110][113][115] - 稀疏化技术如MoE-LLaVA被引入，通过混合专家（MoE）层，在推理时仅激活排名靠前的专家，使模型在保持约3B稀疏激活参数的情况下，性能达到甚至超过参数更多的密集型模型 [104][106][108] - 深度融合方法受到重视，例如CogVLM在语言模型的每一层引入可训练的视觉专家模块，实现视觉与语言特征的深层对齐，相比浅层对齐方法能有效减少幻觉并提升理解能力 [84][86][91] 多模态理解与应用扩展 - 行业致力于提升模型对文本丰富图像的理解能力，例如LLaVAR通过增强视觉指令调优流程，在基于文本的VQA数据集上准确率提升最高达20% [57] - 模型能力向任意模态输入输出扩展，NExT-GPT系统利用LLM作为核心，通过产生独特的模态信号标记来指示解码层输出图像、视频、音频等内容，构建端到端的任意模态MM-LLM [68][70][71] - 针对长视频理解等复杂任务，LLaMA-VID提出用两个标记（上下文标记和内容标记）表示每一帧，显著减少计算负担，支持长达一小时的视频输入 [102][103]

「一只手有几根手指」，你的GPT-5答对了吗？

机器之心· 2025-08-11 18:40

多模态大模型视觉理解能力缺陷 - 顶尖大模型如GPT-5、GPT-5-Thinking、Gemini 2.5 Pro和Grok 4在基础视觉常识问题（如"一只手有几根手指"）上频繁出错，答案受语言歧义（英文finger可指4或5指）和图像语境影响[1][6][9][10][11][17][24] - 模型错误率高达100%（如六指图中文语境），反事实图像（如5条腿的狗）识别准确率仅约17%，显示对视觉内容的基础理解能力不足[17][33] 视觉语言模型的技术局限性 - 当前多模态大语言模型（MLLM）过度依赖语言先验和记忆知识，而非真实视觉分析，导致视觉模块仅通过语言模式猜测而非真正"看懂"图像[26][34] - 以语言模型初始化视觉-语言-动作模型（VLA）存在陷阱，虽在基准测试中表现进步，但未解决核心感知问题（如物体计数、空间关系）[36] 评估体系与解决方案 - 需建立以视觉为中心的严谨评估标准（如CV-Bench基准测试集），系统性检验2D/3D视觉能力（计数、深度感知等），并评估超过20种视觉编码器[31][32] - 应开发更强视觉基础模型（如从世界模型入手再叠加语言模块），避免将视觉作为语言附属输入，需重新探索3D基础模型和视频扩散模型[36][38] 行业影响与研究方向 - 公司可能依赖语言先验捷径宣称"多模态推理"成功，但实际应用于机器人等现实场景时将暴露缺陷并付出代价[31] - 需暂停仅叠加CLIP/DINO的符号化方案，转向从零构建4D先验（如4D-LRM），彻底脱离语言先验干扰[38]

格隆汇· 2025-08-01 13:44

美股科技股年内最大IPO之一：Figma - Figma成立于2012年，以22亿美元的前端设计软件市场为起点，目标锚定330亿美元的全流程产品开发生态 [2] - Figma平台凭借轻量化、社区繁殖和协同办公三大优势在全球设计工具市场占据重要地位 [2] - 借助AI编程能力，Figma切入程序员协同平台办公中的代码开发场景，未来有望向"无人开发"延拓 [4] 全球AI应用发展的奇点将至 - 多模态大型语言模型（MLLM）的诞生解决了大语言模型（LLM）在文本领域外的局限性 [5] - 多模态应用的变现能力显著优于纯文本产品，OpenAI和Anthropic分别创下100亿和40亿美元的ARR [7] - Midjourney年入5亿美元，Runway视频编辑工具付费用户超百万，付费转化率比纯文本Chatbot高2-3倍 [7] 中国视频生成：全球化商业化的突围样本 - 国内厂商在视频生成领域实现全球化突破，美图、快手、睿琪软件年化收入超1亿美元 [8] - 美图AI设计工具在东南亚电商渗透率达25%，快手可灵视频生成工具上线10个月ARR破1亿美元 [8] - 多模态能力在短视频、电商、内容创作等高频场景中成为打开付费意愿的关键 [8] 投资逻辑：中美共振下的价值重构 - 海外用户AI付费意愿显著高于国内，可灵海外订阅转化率达8.7%，是国内的3倍 [9] - 美图AI设计工具在东南亚电商渗透率超25%，海外ARPU较国内高40% [9] - Figma通过覆盖全流程构建生态优势，国内企业需在垂直领域建立"AI+行业know-how"双重壁垒 [10] - 美图在电商设计场景的"AI服装换色""AI试鞋"功能将商拍成本降低60% [10] 结语：从工具革命到产业重构 - Figma的崛起与多模态大模型的爆发标志着生产力工具的范式迁移 [11] - 中美AI商业化共振下，技术优势转化为全球市场份额的公司将书写新的商业传奇 [11]

多模态大模型崛起：华泰证券预测应用奇点即将到来

搜狐财经· 2025-07-14 07:44

多模态大模型发展趋势 - 多模态大模型正迅速接近关键转折点，是大语言模型（LLM）演进的必然趋势 [1][5][6] - 原生多模态架构（MLLM）因全模态同步训练在性能、延时、部署上优势显著，但算力要求严苛，OpenAI和Google处于领先地位 [1][6] - 技术迭代推动图像生成转向易用性，视频生成在时长、清晰度、一致性持续突破，语音、音乐、3D领域同步拓展 [2][4] 商业化进展 - 全球商业化呈现三大趋势：海外快于国内、一级市场公司快于二级市场、多模态产品快于文本产品 [1][7] - 海外Chatbot类产品（如OpenAI、Anthropic）年化收入（ARR）超10亿美元，国内Chatbot商业化仍较初期 [1][7] - 国内年收入超1亿美元的AI公司（美图、快手、睿琪软件）均聚焦多模态产品 [1][7] 视频生成赛道表现 - 国内厂商在视频生成赛道全球化与商业化最成熟，字节Seedance 1.0、快手可灵（Kling）、MiniMax Hailuo 02位列全球榜单前列 [8] - 快手可灵上线10个月ARR突破1亿美元，标志国内视频生成从单点突破进入多点突破阶段 [2][8] 投资机会 - 算力侧：原生多模态模型及视频推理需求激增，视频Agent落地进一步催生算力需求 [9] - 应用侧：广告、零售、创作等领域AI化需求释放，国内视频生成模型领先 [9] - 推荐标的包括国产算力链（沪电股份、生益科技）及应用产业链（微软、奥多比、金山办公等） [9][14] 行业共识与未来方向 - 多模态大模型将成为行业核心发展方向，融合图像、视频、语音数据以拓宽AI应用场景 [4][15] - 原生多模态架构主流化及一级市场公司进展需重点关注，与市场认知存在差异 [5][7]