多模态大型语言模型(MLLM)

搜索文档
「一只手有几根手指」,你的GPT-5答对了吗?
机器之心· 2025-08-11 18:40
多模态大模型视觉理解能力缺陷 - 顶尖大模型如GPT-5、GPT-5-Thinking、Gemini 2.5 Pro和Grok 4在基础视觉常识问题(如"一只手有几根手指")上频繁出错,答案受语言歧义(英文finger可指4或5指)和图像语境影响[1][6][9][10][11][17][24] - 模型错误率高达100%(如六指图中文语境),反事实图像(如5条腿的狗)识别准确率仅约17%,显示对视觉内容的基础理解能力不足[17][33] 视觉语言模型的技术局限性 - 当前多模态大语言模型(MLLM)过度依赖语言先验和记忆知识,而非真实视觉分析,导致视觉模块仅通过语言模式猜测而非真正"看懂"图像[26][34] - 以语言模型初始化视觉-语言-动作模型(VLA)存在陷阱,虽在基准测试中表现进步,但未解决核心感知问题(如物体计数、空间关系)[36] 评估体系与解决方案 - 需建立以视觉为中心的严谨评估标准(如CV-Bench基准测试集),系统性检验2D/3D视觉能力(计数、深度感知等),并评估超过20种视觉编码器[31][32] - 应开发更强视觉基础模型(如从世界模型入手再叠加语言模块),避免将视觉作为语言附属输入,需重新探索3D基础模型和视频扩散模型[36][38] 行业影响与研究方向 - 公司可能依赖语言先验捷径宣称"多模态推理"成功,但实际应用于机器人等现实场景时将暴露缺陷并付出代价[31] - 需暂停仅叠加CLIP/DINO的符号化方案,转向从零构建4D先验(如4D-LRM),彻底脱离语言先验干扰[38]
从Figma到中国垂类应用全球崛起
格隆汇· 2025-08-01 13:44
美股科技股年内最大IPO之一:Figma - Figma成立于2012年,以22亿美元的前端设计软件市场为起点,目标锚定330亿美元的全流程产品开发生态 [2] - Figma平台凭借轻量化、社区繁殖和协同办公三大优势在全球设计工具市场占据重要地位 [2] - 借助AI编程能力,Figma切入程序员协同平台办公中的代码开发场景,未来有望向"无人开发"延拓 [4] 全球AI应用发展的奇点将至 - 多模态大型语言模型(MLLM)的诞生解决了大语言模型(LLM)在文本领域外的局限性 [5] - 多模态应用的变现能力显著优于纯文本产品,OpenAI和Anthropic分别创下100亿和40亿美元的ARR [7] - Midjourney年入5亿美元,Runway视频编辑工具付费用户超百万,付费转化率比纯文本Chatbot高2-3倍 [7] 中国视频生成:全球化商业化的突围样本 - 国内厂商在视频生成领域实现全球化突破,美图、快手、睿琪软件年化收入超1亿美元 [8] - 美图AI设计工具在东南亚电商渗透率达25%,快手可灵视频生成工具上线10个月ARR破1亿美元 [8] - 多模态能力在短视频、电商、内容创作等高频场景中成为打开付费意愿的关键 [8] 投资逻辑:中美共振下的价值重构 - 海外用户AI付费意愿显著高于国内,可灵海外订阅转化率达8.7%,是国内的3倍 [9] - 美图AI设计工具在东南亚电商渗透率超25%,海外ARPU较国内高40% [9] - Figma通过覆盖全流程构建生态优势,国内企业需在垂直领域建立"AI+行业know-how"双重壁垒 [10] - 美图在电商设计场景的"AI服装换色""AI试鞋"功能将商拍成本降低60% [10] 结语:从工具革命到产业重构 - Figma的崛起与多模态大模型的爆发标志着生产力工具的范式迁移 [11] - 中美AI商业化共振下,技术优势转化为全球市场份额的公司将书写新的商业传奇 [11]
多模态大模型崛起:华泰证券预测应用奇点即将到来
搜狐财经· 2025-07-14 07:44
多模态大模型发展趋势 - 多模态大模型正迅速接近关键转折点,是大语言模型(LLM)演进的必然趋势 [1][5][6] - 原生多模态架构(MLLM)因全模态同步训练在性能、延时、部署上优势显著,但算力要求严苛,OpenAI和Google处于领先地位 [1][6] - 技术迭代推动图像生成转向易用性,视频生成在时长、清晰度、一致性持续突破,语音、音乐、3D领域同步拓展 [2][4] 商业化进展 - 全球商业化呈现三大趋势:海外快于国内、一级市场公司快于二级市场、多模态产品快于文本产品 [1][7] - 海外Chatbot类产品(如OpenAI、Anthropic)年化收入(ARR)超10亿美元,国内Chatbot商业化仍较初期 [1][7] - 国内年收入超1亿美元的AI公司(美图、快手、睿琪软件)均聚焦多模态产品 [1][7] 视频生成赛道表现 - 国内厂商在视频生成赛道全球化与商业化最成熟,字节Seedance 1.0、快手可灵(Kling)、MiniMax Hailuo 02位列全球榜单前列 [8] - 快手可灵上线10个月ARR突破1亿美元,标志国内视频生成从单点突破进入多点突破阶段 [2][8] 投资机会 - 算力侧:原生多模态模型及视频推理需求激增,视频Agent落地进一步催生算力需求 [9] - 应用侧:广告、零售、创作等领域AI化需求释放,国内视频生成模型领先 [9] - 推荐标的包括国产算力链(沪电股份、生益科技)及应用产业链(微软、奥多比、金山办公等) [9][14] 行业共识与未来方向 - 多模态大模型将成为行业核心发展方向,融合图像、视频、语音数据以拓宽AI应用场景 [4][15] - 原生多模态架构主流化及一级市场公司进展需重点关注,与市场认知存在差异 [5][7]