多模态大语言模型 - 财报，业绩电话会，研报，新闻

多模态大语言模型

搜索文档

快讯· 2025-06-09 18:40

记者今天(9日)从中国科学院自动化研究所获悉，该研究所神经计算与脑机交互课题组与中国科学院脑科学与智能技术卓越创新中心联合团队结合行为实验与神经影像分析，首次证实多模态大语言模型 (MLLMs)能够自发形成与人类高度相似的物体概念表征系统。这项研究不仅为人工智能认知科学开辟了新路径，更为构建类人认知结构的人工智能系统提供了理论框架。相关研究成果北京时间6月9日在国际学术期刊《自然.机器智能》(Nature Machine Intelligence)发表。(央视新闻) ...

舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA

机器之心· 2025-05-27 11:23

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。此次，团队将 LLaDA 拓展至多模态领域，推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型（MLLM）。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破，展示了扩散模型在多模态理解领域的巨大潜力。近年来，多模态大语言模型（MLLMs）在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而，现有的大多数方法依赖自回归模型。虽然有研究尝试将扩散模型引入 MLLMs，但往往采用混合架构（自回归 + 扩散）或者受限于语言建模能力，导致性能不佳。继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型（如 LLaMA3-8B）竞争后，一个关键问题随之而来：扩散语言模型能否在多模态任务中也达到与自回归模型相当的性能？LLaDA-V 正是对这一问题的有力回答。研究团队将 LLaDA 作为语言基座，通过引入视觉编 ...

多模态大语言模型

扩散模型

自回归模型

Artificial Intelligence

Artificial Intelligence

LLaDA-V

LLaDA

字节跳动&清华大学开源多模态时序大模型ChatTS，可实现时序数据对话与推理

机器之心· 2025-05-22 18:25

该工作由字节跳动 ByteBrain 团队 × 清华大学合作完成。第一作者为清华大学三年级博士生谢哲，主要研究方向为时序多模态 LLM、异常检测和根因定位。第二作者和第三作者分别为李则言和何晓，均来自字节跳动。通讯作者分别为字节跳动研究科学家张铁赢和清华大学计算机系副教授裴丹。近年来，多模态大语言模型（MLLM）发展迅速，并在图像、视频、音频等领域取得了突破性成果。然而，相较于这些研究较为成熟的模态，时间序列这一类型的数据与大模型结合的系统研究却较为匮乏。尽管已经有 TimeLLM 等工作尝试将 LLM 应用于时序任务，但这些研究大多局限于预测类任务，无法满足更复杂的理解与推理需求。随着 LLM 在 AIOps、金融等需要处理时序数据的应用场景中应用愈发广泛，时序问答、推理的能力已成为多模态智能系统的一项基础能力需求。为此，我们提出了 ChatTS，一种原生支持多变量时序问答与推理的多模态 LLM 。ChatTS 引来了 HuggingFace 产品负责人 Victor Mustar，以及 SparkNLP 项目负责人 Maziyar Panahi 等人的转发和点赞： ChatTS 论文已经成功入 ...

ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力

机器之心· 2025-05-20 12:58

EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷，即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务，要求模型必须同时深度依赖视觉和文本信息才能解决问题，突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括：思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%，显著高于所有模型，其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先，开源模型Qwen2-VL-72B-Instruct达37.25%，均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%)，但在化学领域仅33%，显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题，其中1,796个为专家新构建，覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制，排除仅凭文本或简单图文描述可解决的问题，确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等)，支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%，显著高于感知错误(30.19%)和文本推理错误，成为核心瓶颈[21] - 模型依赖结构化文本步骤推理，缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足，且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力，实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式，建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集)，加速技术迭代[4]

Gemini-2.5-pro-exp-03-25

Gemini-2.5-pro-exp-03-25

ICML 2025 Spotlight｜南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架，准确率提高20%

机器之心· 2025-05-17 00:31

该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。近些年，多模态大语言模型（MLLMs）在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而，早期的 MLLMs 通常采用固定的分辨率（例如 LLaVA- v1.5 将输入图像缩放为），对于输入图像为高分辨率图像（例如 8K 分辨率）会导致图像变得模糊，损失大量有效的视觉信息。为了解决上述问题，目前的解决方案分为三类： 1. 基于裁剪的方法：对于高分辨率图像裁剪成多个子图，每个子图分别通过视觉编码器提取视觉特征后再进行拼接。然而对于 8K 的图像，假设采用 ViT-L/14 就需要接近 300K 的 visual token 长度，这对于目前大语言模型（LLM）的长上下文建模能力是一个巨大的挑战。 2. 采用处理高分图像的视觉编码器：使用能处理更高分辨率图像的视觉编码器代替基于 CLIP 训练的 ViT。然而，对于 8K 分辨率的图像，依旧会缩放到对应视觉编码器能接受的输入分辨率 (例如 ConvNeXt-L 的分辨率为 )。 3. 基于搜索的方法：这类方法不需要训练，通过将高分辨率图像构建成树结构，在树结构上进 ...

多模态大语言模型（MLLMs）

检索增强生成技术（RAG）

Retrieval-Augmented Perception (RAP)

多模态大语言模型（MLLMs）

检索增强生成技术（RAG）

Retrieval-Augmented Perception (RAP)

鹅厂放大招，混元图像2.0「边说边画」：描述完，图也生成好了

量子位· 2025-05-16 11:39

腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型（Hunyuan Image 2.0），首次实现毫秒级响应，支持边说边画实时生成，用户描述与绘制过程同步进行，体验流畅[1] - 模型支持实时绘画板功能，用户可手绘元素并辅以文字说明，系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入（中英文）和上传参考图，参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级，更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器，优化信息瓶颈层并强化对抗训练，显著降低生图时耗[38] - 适配多模态大语言模型（MLLM）作为文本编码器，语义遵从能力大幅提升，在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练（包括通用后训练与美学后训练）提升图像生成真实感[41] - 采用自研对抗蒸馏方案，基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练，在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳，保持角色一致性能力优秀，输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等，提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色，上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型，重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露，官网已开放访问[43][47]

混元图像2.0（Hunyuan Image 2.0）

文生图

多模态大语言模型

Software

混元图像2.0（Hunyuan Image 2.0）

GPT-4o不敌Qwen，无一模型及格！UC伯克利/港大等联合团队提出多模态新基准：考察多视图理解能力

量子位· 2025-05-14 14:07

All-Angles Bench 团队投稿至凹非寺量子位 | 公众号 QbitAI 多视图理解推理有新的评判标准了！什么是多视图理解？也就是从不同视角整合视觉信息进而实现理解决策。想象一下，机器人在复杂环境中执行任务，这就需要根据多个摄像头的画面准确判断物体位置、距离和运动方向，这就依赖于强大的多视图理解能力。但过去，由于评估多视图推理能力的基准测试稀缺，这一领域的研究进展相对缓慢。来自UC伯克利、忆生科技、香港大学、纽约大学、加州大学戴维斯分校、牛津大学等多家机构的研究者联合提出了 All-Angles Bench ，旨在全面评估MLLMs的多视图理解能力。它涵盖了90个真实场景下，超过2100组人工标注的多视图问答对。其评测数据集以及评测代码现已全部开源。他们对27个领先的多模态大语言模型进行基准测试，其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。结果显示，多模态大语言模型与人类水平之间存在显著差距，并进一步发现模态大语言模型存在两种主要的缺陷模式：（1）在遮挡情况下跨视图对应能力较弱；（2）对粗略相机位姿的估计能力较差。具体来 ...

多视图理解

多模态大语言模型

Artificial Intelligence

Artificial Intelligence

All - Angles Bench

GPT - 4o

Gemini - 2.0 - Flash

推出金融交易AI Agent，可全天候智能盯盘，这家新加坡金融企业获1000万美元融资｜早起看早期

36氪· 2025-05-13 07:56

以下文章来源于硬氪，作者胡依婷硬氪 . 专注全球化、硬科技报道。36kr旗下官方账号。因此，RockFlow研发团队基于自研架构，结合多模态⼤语⾔模型（LLM）、Fin-Tuning、RAG、MultiAgent和CoT等前沿技术，开发了⼀套适合金融投资场景的AI Agent架构。借助该架构，AI模型的理解和⽣成能⼒都得以提升，其还能实时高效处理多源数据分析，在复杂的⾦融环境中进⾏⾼效的决策和预测，提供更精准的⾦融分析和投资建议，实现成本和风险控制。在投资交易场景中，RockFlow的AI Agent可将传统复杂流程抽象为实时信息获取、分析、交易策略构建、订单执⾏四⼤核⼼环节，解决最核心的"买什么"和"怎么买"两⼤痛点。首先，RockFlow的AI Agent将实时监控市场动态，分析包括财务数据、社交媒体情绪、公司公告等在内的大量数据，为用户展示个性化的实时交易机会。用户可以随时方便浏览，并一键下单。 Bobby将于近期全球上线。文｜胡依婷编辑｜袁斯来来源｜硬氪（ID：south_36kr）封面来源｜企业官方硬氪获悉，近日新加坡人工智能金融科技公司RockFlow宣 ...

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

量子位· 2025-05-03 12:05

多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1（PR1），首次在COCO2017 val set上突破30AP，超越YOLOv3（27.9AP）和Faster-RCNN（35.6AP）等传统模型 [1][19] - 该框架专注于纯视觉任务（目标检测、计数）和视觉语言任务（OCR、grounding），通过基于规则的强化学习（RL）优化感知策略，显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization（GRPO）技术，通过多轮尝试、奖励建模和策略更新机制优化模型输出，例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架，可增强现有MLLM（如Qwen2-VLInstruct-2B）的视觉能力，无需从头训练 [7] - 奖励函数设计包含三部分：视觉细节提取（如OCR任务使用编辑距离）、逻辑操作执行（如点检测计数）、输出格式验证（正确格式+1分，错误-1分） [11][13][17] - 针对多物体检测的匹配难题，采用二分图匹配和匈牙利算法计算最优奖励，确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分（测试集75.6分），远超LLaVA-1.5（33.3分）和Qwen2-VL（60.2分） [19] - OCR任务（PageOCR）编辑距离仅3.5（英文）和9.0（中文），F1-score达98.2（英文）和94.4（中文），优于Nougat（25.5）和DocOw（25.8） [18] - 在MMBench等综合评测中，Perception-R1以71.8平均分展现全面优势，尤其在MMVet（48.9分）和AI2D（58.2分）等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关，为大规模扩展提供验证基础，例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设，为下一代智能感知系统奠定技术路径，例如通过显式思维链（thinking）优化策略 [24][25] - 论文与代码已开源，旨在推动社区建立更强基线，加速多模态感知技术迭代 [2][26]

多模态大语言模型（MLLM）

强化学习（Reinforcement Learning）

Artificial Intelligence

强化学习（Reinforcement Learning）

Artificial Intelligence

Perception - R1

YOLOv3

Faster - RCNN

AR智能革命！Satori系统读懂人类意图，科幻电影场景成现实

机器之心· 2025-04-28 09:26

研究团队与背景 - 团队由IEEE会士Claudio Silva和纽约大学研究助理教授钱靖共同指导 [2] - 论文由Chenyi Li和Guande Wu担任共同第一作者 [2] - 研究由纽约大学数据与可视化实验室(NYU VIDA)联合Adobe共同完成 [5] AR技术现状与挑战 - 当前AR辅助仍依赖人工远程接入，与理想的智能理解型辅助存在差距 [4] - AR在重要产业和生活应用中的普及受限于技术成熟度 [4] - 主要挑战在于如何让AR真正理解用户行为、环境状态并适时提供辅助 [4] Satori系统创新核心技术架构 - 融合多模态大语言模型(MLLM)与认知理论BDI(Belief-desire-intention theory) [5] - 采用模块化组织MLLM，将图像识别、语义理解、交互历史解耦处理 [11] - 视觉感知模块(OWL-ViT与DETR)与语言推理模块分层协作 [11] 四大核心创新 1. 结合BDI模型理解用户行为 - 通过AR眼镜实现"具身感知" [8] - BDI模型分解行为为Belief(环境理解)、Desire(目标判断)、Intention(动作行为)三部分 [8] - AI可实时判断用户行为背后的目的而非单纯行为本身 [10] 2. 大语言模型结构认知 - 模块化架构增强推理透明度与可解释性 [12] - 显著提升系统泛化性与跨任务适配能力 [12] - 展示多模态大模型在具身智能中的潜力 [12] 3. AI自动生成多模态指示 - 使用DALLE-3生成与任务阶段匹配的视觉提示 [13] - 自动生成场景化文字指引(如"把花插入蓝色花瓶") [13] - 提升AR辅助的清晰度与实用性 [13] 4. 双系统动作检测 - 将复杂步骤分解为易判断的小目标(checkpoints) [15] - 采用双系统理论(Dual Process Theory)实现快速反应+理性结构 [17] - 轻量LLM负责快速判断，高容量LLM补充语义分析 [17] 应用前景 - 框架可部署于HoloLens、Vision Pro及Rokid、INMO等智能眼镜平台 [18] - 为跨平台、多领域智能辅助系统奠定方法论基础 [18] - 代表AR技术迈向实用性的重要机遇 [19]