2025年大模型研究系列:多模态大模型洞察:大模型向多模态发展,深入产业端垂直场景释放技术价值
头豹研究院·2025-04-09 21:52
行业综述 - 多模态模型由模态编码器、输入投影器等组件协同运作处理多模态数据[9] - 多模态大模型分类有基于处理输入方式和功能与技术架构两种[18] - 多模态模型发展历经任务导向型、视觉 - 语言预训练、多模态语言模型三个阶段,模型规模从<0.1B参数发展到1B - 100B参数[23] - 2023年中国多模态大模型市场规模90.9亿元,预计2028年达662.3亿元,年复合增长率48.76%[24] 产业洞察 - 2023年中国头部企业推出有竞争力模型,但在基础架构创新和生态建设上与国际巨头有差距[31] - 多模态大模型应用中数字人占比最大为24%,其次是游戏和广告商拍各占13%[33] - 训练分多模态交错数据预训练和指令微调两个阶段[34] - 生成能力评估包括文本、视觉内容、多模态内容生成,有对应测评方法[40][41][44][45] 技术趋势与挑战 - 技术发展关注多模态幻觉、上下文学习、思维链和LLM辅助视觉推理等方向[46] - 多模态大模型在长上下文处理、复杂指令理解等方面面临挑战,有相应应对策略[52] 未来展望 - 目标是构建具有一般性能力的世界基座模型,涉及构建输入输出空间、设计架构与策略、评测及具身智能应用等方面[56]