Workflow
多模态大语言模型
icon
搜索文档
李飞飞长文火爆硅谷
投资界· 2025-11-14 16:01
文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 13:38
Modality Conflict 团队 投稿 量子位 | 公众号 QbitAI 多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决 这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为"模态跟随"(modality following) 。 以往的研究大多试图用粗粒度的、数据集层面的统计数据来衡量这种行为 ,但这忽视了一个至关重要的因素:模型在进行单模态推理时,对 每个具体案例的"置信度"(即不确定性)是不同的 。 本文的核心论点是,这种宏观的"模态跟随"统计数据具有误导性,因为它混淆了模型的能力和偏好。我们提出,模态跟随并非一个静态属性, 而是一个动态过程,它由两个更深层次的因素相互作用所支配: 相对推理不确定性(Relative Reasoning Uncertainty):在单个具体案例上,模型对文本推理和视觉推理的置信度差距 。 固有模态偏好(Inherent Modality Preference):当模型感知到两种模态的不确定性(即 ...
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 10:04
Modality Conflict 团队 投稿 量子位 | 公众号 QbitAI 本文的主要作者来自北京大学、华南理工大学、佐治亚大学以及KAUST和MBZUAI。研究团队的核心成员包括担任第一作者的北京大学博士 生张卓然、北京大学博士生史阳、华南理工大学的本科生王腾岳以及来自佐治亚大学的博士生宫熙琳。本文的通讯作者为KAUST王帝老师和 MBZUAI胡丽杰老师。 该篇工作的主要贡献和结论包括: 多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决 这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为"模态跟随"(modality following) 。 以往的研究大多试图用粗粒度的、数据集层面的统计数据来衡量这种行为 ,但这忽视了一个至关重要的因素:模型在进行单模态推理时,对 每个具体案例的"置信度"(即不确定性)是不同的 。 本文的核心论点是,这种宏观的"模态跟随"统计数据具有误导性,因为它混淆了模型的能力和偏好。我们提出,模态跟随并非一个静 ...
李飞飞万字长文爆了!定义AI下一个十年
创业邦· 2025-11-12 11:08
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心是构建能够理解、推理并与复杂物理世界互动的“世界模型” [8][16][26] - 世界模型需具备生成式、多模态和互动性三大核心能力,以解锁超越当前大语言模型的机器空间智能 [27][29][30] - 空间智能的应用将重塑创意产业、机器人技术和科学研究,其发展需要整个AI生态系统的集体努力 [38][44][48] 空间智能的定义与重要性 - 空间智能是人类认知的基石,使我们能够通过感知与行动的循环来理解和互动物理世界 [18][21] - 该能力驱动着从日常活动(如停车)到专业领域(如科学发现)的推理与规划 [18][21] - 当前AI在空间任务上表现不佳,例如估算距离或心理旋转物体,其能力远未达到人类水平 [22] 构建世界模型的技术框架 - 世界模型必须能生成遵循物理定律且在几何和动态上保持一致的世界 [27] - 模型需处理多模态输入,如图像、视频、文本指令和动作,并预测完整的世界状态 [29] - 当给定动作或目标时,模型应能输出与之协调的世界下一个状态 [30] - 技术挑战包括定义新的通用训练任务函数、利用互联网规模的数据以及开发新的模型架构 [32][33][34] 当前进展与案例 - World Labs已开发出名为Marble的平台,能通过多模态提示生成并维持一致的三维环境 [37][40] - 该平台展示了实时生成性帧基模型等创新架构,旨在实现高效生成和空间持久性 [35][37] 应用领域与前景 创意产业 - 空间智能将变革故事叙述和设计,使创作者能快速构建可探索的三维世界,不受预算或地理限制 [40][42] - 应用包括为电影、游戏、建筑和工业设计提供新的叙事维度和沉浸式体验 [42][43] 机器人技术 - 世界模型将通过模拟数据弥合训练差距,规模化机器人学习,以理解、导航和互动物理世界 [44] - 未来机器人可作为人类协作者,在实验室或家庭等场景中扩展劳动力,但需与人类目标对齐 [45] 科学、医疗与教育 - 在科学研究中,空间智能可模拟实验、测试假设并探索人类无法触及的环境 [48] - 医疗健康领域有望通过分子相互作用建模和医学影像分析加速药物发现与诊断 [48] - 教育将受益于沉浸式学习体验,使抽象概念触手可及,并支持安全的技能练习 [49]
年度服务时长首破万亿分钟,声网乘对话式AI东风
搜狐财经· 2025-11-03 21:17
公司战略与产品动态 - 公司年度服务分钟数首次突破1万亿分钟,并发布多款对话式AI新品 [1] - 公司将对话式AI作为长期战略投入,OpenAI推出实时交互API是重要风向标 [3] - 公司推出对话式AI引擎2.0,能分辨讲话时机和讲话人,支持更多ASR和TTS供应商,并允许用户自定义语种和音色 [4] - 公司发布对话式AI Studio编排平台和开发套件,旨在帮助客户和开发者快速集成对话式AI能力 [4] - 2025年第二季度公司营收3430万美元,同比增长0.5%,净利润150万美元,实现同比扭亏 [5] 行业趋势与市场机遇 - 多模态大语言模型使计算机具备类人实时语音对话能力,67%的企业已将语音AI智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入 [1] - 对话式AI的典型技术框架包括声音代理、自动语音识别、大语言模型处理和文本转语音等环节,每个环节都存在技术升级空间 [3] - AI语音助手、AI社交和陪伴、AI潮玩是当前对话式AI应用排名前三的热门场景 [4] - 人类对话中超过90%的信息感知依赖于语调、表情等非语言要素,实现真正的“类人对话”需攻克低延迟、自然打断、情感理解等挑战 [5] - 对话式AI被视为下一代AI基础设施的重要组成部分,以AI陪伴为例,其市场规模预测将从3000万美元增长至700亿-1500亿美元 [5] - 公司对话式AI相关用量在2025年第三季度实现151%的环比增长 [5]
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
量子位· 2025-10-28 13:12
文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型,通过创新的“细粒度+全局上下文”架构设计,在区域级多模态大模型领域实现了突破性进展,为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80] 技术能力与创新 - GAR模型具备三种核心能力:精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理(如非实体判别)[5][7] - 模型采用两大创新组件:简洁高效的提示编码方案,以及RoI-Aligned Feature Replay机制,实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境,避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分,在参数量远小于其他模型的情况下,性能超过了InternVL3-78B等大规模公开模型,凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中,GAR模型在所有细分类别均位列第一,其中GAR-8B在自然图像任务中取得178.6分,大幅领先竞品 [75][76] 应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务,在VideoRefer-Bench测试中,GAR-8B性能超过DAM-8B,甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具,为多模态理解模型提供精细的图像/视频描述用于预训练,提升文生图/视频模型对复杂指令的遵循能力,并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model,在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]
首个地球科学智能体Earth-Agent来了,解锁地球观测数据分析新范式
机器之心· 2025-10-27 16:44
项目核心与创新点 - 由上海人工智能实验室与中山大学联合研发的Earth-Agent,旨在解决多模态大语言模型在地球科学应用中的核心瓶颈,目标是打造能够自主规划并执行复杂地球科学任务的“AI科学家”[3] - 项目创新性地模拟了人类专家“知识工具化”与“流程自动化”的能力构建逻辑,将领域知识封装为可调用的工具,并由大语言模型担任“大脑”进行智能规划与调度[5][6][10] - 核心框架包含两大关键构建:1)领域知识工具封装化,集成了104个专用工具;2)基于LLM的智能规划与调度,采用ReAct机制自主完成从数据预处理到复杂时空分析的全链路工作流[8][10] 基准评估体系 - 为解决评估难题,研究团队构建了Earth-Bench基准,包含248个专家标注的任务,覆盖13,729张图像,平均每个题目需处理55张影像,平均每个问题需要5.4步才能完成[12][13] - 该基准涵盖三大模态数据:RGB图像、原始光谱数据和地球产品数据,核心是评估智能体执行完整地球科学分析工作流的能力,而非简单的单步任务[12][14] - 评估协议采用双层次设计,不仅关注最终结果的端到端评估,还引入了专家推理轨迹进行逐步评估,认为推理过程与结论本身同样重要[17] 性能表现与对比分析 - 在不同LLM骨干网络的测试中,进行过工具调用预训练的模型表现大幅领先,其中DeepSeek-V3.1和Kimik2在推理过程中的工具使用准确率上超越了GPT-5[19] - 与通用Agent架构的对比显示,Earth-Agent在Spectrum、Products、RGB三个模态上的平均效果(GPT-5版为55.83)显著领先于GPT-Agent(40.42)等其他方法[22] - 与多模态大语言模型方法的对比中,Earth-Agent在经典遥感任务上表现优异,例如在AID数据集分类准确率达93.42%,在DOTA数据集检测任务上达60.88%,均领先于对比模型[22] 技术验证与未来展望 - 消融实验证实了工具调用的关键作用:在不使用工具的情况下,不同LLM的准确率均约为37%,而允许调用工具后,GPT-5的准确率提升至65%,其他模型也均有显著提升[25] - 项目提出了一个与MLLM不同的新范式,将能力外化为结构化工具库,而非全部编码到模型参数中,这种范式更接近人类的学习和工作方式[26] - 未来发展路线明确:从基石到生态,工具库可方便扩展;从评估到训练,为解决“工具幻觉”等问题提供指导;从语言到视觉,视觉语义的工具感知可能是下一个突破点[26]
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
36氪· 2025-10-17 10:44
核心技术突破:DeepMMSearch-R1模型 - 公司提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制在多轮交互中自适应地生成和优化文本搜索查询[1] - 为提升图像搜索效果,公司引入中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战,通过生成指代表达动态识别并裁剪图像相关区域,显著提升检索质量和整体性能[3] 方法论与训练流程 - 公司采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL),目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容以及如何基于检索内容进行推理[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和视觉投影层冻结,以保留强大的预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过对同一提示词下生成的候选回复进行比较来提升训练稳定性,优化目标通过带截断的重要性加权代理实现[10] - 奖励机制采用结合事实准确性与结构合规性的复合奖励函数,使用gpt-5-chat-latest作为奖励模型判断预测结果语义一致性,正确性得分为二元变量,格式得分用于衡量输出是否遵循结构化格式[12] 数据集构建 - 公司构建了新的数据集DeepMMSearchVQA,该数据集包含多样化多跳视觉问答样本,以多轮对话形式呈现,并在不同知识类别之间保持平衡分布,涵盖既需要搜索又无需搜索的问题类型[3][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签、推理步骤及网页检索信息的多轮对话数据,经质量过滤后得到约4.7万条精炼对话样本,最终采样1万个视觉问答样本构成训练语料[7] 性能表现与实验结果 - 配备网络搜索功能的多模态大语言模型性能显著优于RAG工作流和基于提示的搜索代理基线模型,DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[13] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到提升[14] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能够保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定,表明模型在学习与网络搜索工具交互的同时有效保留了其通用的视觉理解与推理能力[19][20]
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
机器之心· 2025-10-17 10:11
核心技术方案:DeepMMSearch-R1模型 - 提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制自适应地优化搜索查询[1] - 引入中间图像裁剪工具(Grounding DINO)以应对图像背景噪声和干扰性视觉实体,通过生成指代表达来识别并裁剪相关图像区域,从而提升图像搜索的检索质量和整体性能[3] 模型训练方法 - 采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL)[3] - 训练目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索内容进行推理以决定下一步行动[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和投影层冻结,以保留预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过比较同一提示词下的候选回复提升训练稳定性,并采用结合事实准确性与结构合规性的复合奖励函数[10][14] 数据集构建 - 构建了DeepMMSearchVQA数据集,包含多样化多跳视觉问答样本,并以多轮对话形式呈现,在不同知识类别间保持平衡分布[4][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签的多轮对话数据,经质量筛选后得到约4.7万条精炼对话样本,并进一步采样1万个VQA样本作为有监督微调阶段的训练语料[7] 性能表现 - 配备网络搜索功能的多模态大语言模型在性能上显著优于RAG工作流和基于提示的搜索代理基线模型[16] - DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[16] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,SFT阶段使模型具备工具使用能力,而RL阶段通过减少不必要调用来优化工具选择行为[17][19] - 在DynVQA数据集中,模型在87.7%的样本上调用了工具,而在OKVQA中这一比例为43.5%,工具使用行为与数据集特性保持一致[20] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定[23][24]
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
机器之心· 2025-10-16 08:51
技术瓶颈与创新范式 - 当前多模态大语言模型在需要精细空间感知的任务上存在瓶颈,其根本原因在于依赖将视觉目标输出为文本坐标的方式,导致格式混乱、解析困难、语义丢失和图文脱节等问题[2][8] - 研究团队提出全新统一范式Patch-as-Decodable Token,核心思想是将图像划分为视觉小块,使模型能直接生成对应这些小块的视觉令牌,实现文本令牌与视觉令牌在输入输出端的无缝交替[3][4][5] - 这一设计使模型不再猜测坐标,而能在生成句子中直接指向图像目标,从而在检测、分割等任务上全面刷新SOTA[6][7] 核心技术机制 - PaDT引入视觉参考令牌,这些令牌直接来源于输入图像的视觉块嵌入,在每次前向传播中动态地将当前图像的块特征扩展进文本词表,形成图文一体的动态嵌入表[11][13] - 设计了一个轻量级PaDT解码器,仅由三个双向注意力块组成,接收大语言模型输出的VRT隐藏状态,通过注入任务特定的可学习令牌,统一解码出边界框、分割掩码和置信度分数[16][19] - 提出鲁棒训练策略,在每次训练时随机采样少量前景VRTs作为监督信号,并通过掩码交叉熵损失动态屏蔽未选中的VRT logits,提升模型泛化能力并降低推理时的令牌消耗[16][17] 性能表现与行业影响 - PaDT Pro以仅3B参数在RefCOCO/+/g的指代表达理解任务上取得93.6的平均准确率,超越了参数量高达78B的InternVL3[21][22] - 在COCO开放词汇检测任务上,PaDT Pro将mAP推高至38.2,几乎是传统方法的两倍,7B版本更达到39.0 mAP,展现出极强的可扩展性[21][24] - 在新构建的Referring Image Captioning数据集上,PaDT的CIDEr-D分数从基线0.386提升至1.450,GreedyPrecision达82.3%,证明其生成的描述具备极强的视觉 grounding 能力[24][33] 技术优势与行业意义 - PaDT的成功源于对多模态大语言模型视觉能力瓶颈的深刻洞察,将视觉块本身作为可生成的令牌,实现了模态间的原生对齐,避免了在文本空间内拟合视觉信息的缺陷[32] - 动态嵌入机制确保VRTs与当前图像的强绑定,统一的令牌空间让大语言模型能以相同方式处理语言和视觉信息,轻量解码器将复杂预测任务从大语言模型中解耦[32] - PaDT Pro模型通过联合训练多个任务,仅通过切换提示即可无缝切换任务,且性能普遍优于单任务模型,证明了该范式在多任务泛化方面的强大能力[33][35]