Workflow
多模态大语言模型
icon
搜索文档
科学家证实大模型能像人类一样“理解”事物
科技日报· 2025-06-11 06:45
人工智能理解能力研究 - 科研人员首次证实多模态大语言模型在训练过程中自主学会"理解"事物 且理解方式与人类高度相似 这一发现为探索AI"思考"机制开辟新路径 并为开发类人理解能力的AI系统奠定基础 [1] - 研究借鉴人脑认知原理设计实验 通过470万次判断数据分析 首次绘制出大模型的"概念地图" 揭示其内部表征方式 [2] - 从实验数据总结出66个代表AI理解事物的关键角度 这些角度可解释性强 且与人脑物体加工神经活动模式高度一致 [2] 多模态模型优势 - 能同时处理文字和图片的多模态模型 其决策方式比其他单一模态模型更接近人类思维模式 [2] - 研究发现人类判断依赖视觉特征(形状/颜色)和语义含义 而大模型更侧重文字标签和抽象概念 但仍发展出类人理解机制 [2] 研究突破意义 - 成果发表于《自然·机器智能》杂志 突破传统AI仅关注识别准确率的局限 首次系统揭示模型对物体含义的理解机制 [1][2] - 实验采用1854种常见物品概念 通过"找不同"游戏范式量化比较AI与人类认知差异 方法论具有创新性 [2]
中国科研团队研究发现:人工智能可以自发形成人类级认知
新京报· 2025-06-09 21:01
多模态大语言模型研究突破 - 中国科学院自动化研究所科研人员首次证实多模态大语言模型(MLLMs)能自发形成与人类高度相似的物体概念表征系统 [1] - 研究成果发表于《自然·机器智能》期刊 为构建类人认知结构AI系统提供理论框架 [1] - 研究结合行为实验与神经影像分析 涉及470万次行为判断数据 [2] 人类与AI概念表征对比 - 人类认知具备多维度概念表征能力 包括物理特征 功能 情感价值和文化意义 [1] - AI大模型内部存在类似人类的概念理解 但决策时更依赖语义标签和抽象概念而非视觉特征 [2] - 研究提取出66个"心智维度" 这些维度高度可解释且与大脑神经活动模式相关 [2] 研究方法创新 - 采用融合计算建模 行为实验与脑科学的创新范式 [2] - 首次构建AI大模型的"概念地图" 为心智维度赋予语义标签 [2] - 突破传统AI研究局限 从认知神经科学角度探讨模型对物体含义的"理解" [2]
人工智能可自发形成人类级认知?中国团队最新研究首次证实
环球网资讯· 2025-06-09 20:57
人工智能认知研究 - 中国科学家团队首次证实多模态大语言模型能自发形成与人类高度相似的物体概念表征系统,实现人工智能人类级认知[1] - 研究由中国科学院自动化所神经计算与脑机交互团队联合脑科学与智能技术卓越创新中心完成,成果发表于《自然·机器智能》[1] - 该研究为AI认知科学开辟新路径,并为构建类人认知结构的AI系统提供理论框架[1] 研究实验设计 - 采用认知心理学经典"三选一异类识别任务",测试大模型与人类对1854种日常概念组合的识别差异[3][4] - 通过分析470万次行为判断数据构建AI大模型的"概念地图",并提取出66个可解释的"心智维度"[4] - 研究发现这些维度与大脑类别选择区域(如处理面孔、场景等信息的区域)神经活动模式显著相关[4] 模型与人类认知对比 - 多模态大模型在行为选择模式上与人类一致性更高,但人类决策更依赖视觉特征+语义信息,而大模型倾向语义标签+抽象概念[4] - 研究证实大语言模型内部存在类似人类对现实世界的概念理解,其"心智维度"与人类认知殊途同归[4] - 传统AI研究聚焦识别准确率,而本研究揭示AI"识别"与人类"理解"的本质区别仍需深入探索[3]
研究显示多模态大模型可自发形成类人的物体概念表征
快讯· 2025-06-09 18:40
人工智能研究突破 - 中国科学院自动化研究所神经计算与脑机交互课题组与中国科学院脑科学与智能技术卓越创新中心联合团队首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统 [1] - 该研究为人工智能认知科学开辟了新路径 [1] - 研究成果为构建类人认知结构的人工智能系统提供了理论框架 [1] - 相关研究成果于北京时间6月9日发表在国际学术期刊《自然·机器智能》(Nature Machine Intelligence) [1]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]
字节跳动&清华大学开源多模态时序大模型ChatTS,可实现时序数据对话与推理
机器之心· 2025-05-22 18:25
该工作由字节跳动 ByteBrain 团队 × 清华大学合作完成。第一作者为清华大学三年级博士生谢哲,主要研究方向为时序多模态 LLM、异常检测和根因定 位。第二作者和第三作者分别为李则言和何晓,均来自字节跳动。通讯作者分别为字节跳动研究科学家张铁赢和清华大学计算机系副教授裴丹。 近年来,多模态大语言模型(MLLM)发展迅速,并在图像、视频、音频等领域取得了突破性成果。然而,相较于这些研究较为成熟的模态,时间序列这一 类型的数据与大模型结合的系统研究却较为匮乏。 尽管已经有 TimeLLM 等工作尝试将 LLM 应用于时序任务,但这些研究大多局限于预测类任务,无法满足更复杂的理解与推理需求。随着 LLM 在 AIOps、金融等需要处理时序数据的应用场景中应用愈发广泛,时序问答、推理的能力已成为多模态智能系统的一项基础能力需求。 为此,我们提出了 ChatTS,一种 原生支持多变量时序问答与推理的多模态 LLM 。ChatTS 引来了 HuggingFace 产品负责人 Victor Mustar,以及 SparkNLP 项目负责人 Maziyar Panahi 等人的转发和点赞: ChatTS 论文已经成功入 ...
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 12:58
EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷,即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务,要求模型必须同时深度依赖视觉和文本信息才能解决问题,突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括:思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%,显著高于所有模型,其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先,开源模型Qwen2-VL-72B-Instruct达37.25%,均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%),但在化学领域仅33%,显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题,其中1,796个为专家新构建,覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制,排除仅凭文本或简单图文描述可解决的问题,确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等),支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%,显著高于感知错误(30.19%)和文本推理错误,成为核心瓶颈[21] - 模型依赖结构化文本步骤推理,缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足,且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力,实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式,建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集),加速技术迭代[4]
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 11:39
腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,支持边说边画实时生成,用户描述与绘制过程同步进行,体验流畅[1] - 模型支持实时绘画板功能,用户可手绘元素并辅以文字说明,系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入(中英文)和上传参考图,参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级,更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器,优化信息瓶颈层并强化对抗训练,显著降低生图时耗[38] - 适配多模态大语言模型(MLLM)作为文本编码器,语义遵从能力大幅提升,在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练(包括通用后训练与美学后训练)提升图像生成真实感[41] - 采用自研对抗蒸馏方案,基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练,在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳,保持角色一致性能力优秀,输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等,提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色,上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型,重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露,官网已开放访问[43][47]
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
量子位· 2025-05-14 14:07
多视图理解推理新标准 - 多视图理解指从不同视角整合视觉信息实现理解决策,对机器人在复杂环境中执行任务至关重要[1] - 过去因评估基准稀缺导致研究进展缓慢,UC伯克利等机构联合推出All-Angles Bench填补空白[2] - 该基准包含90个真实场景下2100组人工标注多视图问答对,数据集和评测代码已开源[2][3] 数据集构建 - 数据来源于EGO4D-EXO和EgoHumans数据集,涵盖六大挑战性任务:计数、属性识别、相对距离、相对方向、物体操控和相机位姿估计[8] - 构建过程分三阶段:1) 用GPT设计任务相关问题 2) 人工标注细化问题并交叉检查 3) 生成视角对应的成对问题并进行质量控制[12] 模型性能评估 - 测试27个领先MLLMs(包括GPT-4o、Gemini-2.0-Flash等),发现与人类水平存在显著差距[4][14] - 人类在相机位姿估计任务准确率达88.9%,顶尖模型落后超50%[16] - 开源模型Ovis2-34B和Qwen2.5-VL-72B在方向敏感任务上超越闭源模型[17] 关键发现 - 模型在成对问答中表现不一致:GPT-4o在相对距离任务IC得分达70%,所有模型在方向变化任务表现最差[20][22][23] - 跨视角整合碎片化信息能力弱,如GPT-4o会统计单视角最大数量而非跨视角总和[24][25] - 思维链方法对部分模型提升有限,需专门多视图训练实现根本性改进[31][32] - 相机位姿估计能力薄弱,难以对齐不同视角的变换[34]
推出金融交易AI Agent,可全天候智能盯盘,这家新加坡金融企业获1000万美元融资|早起看早期
36氪· 2025-05-13 07:56
公司融资与产品发布 - 新加坡人工智能金融科技公司RockFlow完成1000万美元A1轮融资 由头部互联网公司创始人领投 老股东持续加注 资金将用于提升AI技术和推出金融AI Agent Bobby [3] - 公司此前获得硅谷顶级美元基金数千万美元投资 目前在全球有5个办公室 业务覆盖30多个国家的9种语言 [4] - 金融AI Agent产品Bobby将于近期全球上线 团队来自人工智能、金融数学和投资交易等多领域 创始人Vakee赖蕴琦曾主导投资20多家中美、以色列高科技公司 [6] 技术架构与产品功能 - RockFlow基于自研架构 结合多模态大语言模型(LLM)、Fin-Tuning、RAG、MultiAgent和CoT等前沿技术 开发了适合金融投资场景的AI Agent架构 提升模型理解生成能力和多源数据分析效率 [4] - AI Agent将投资交易流程抽象为实时信息获取、分析、交易策略构建、订单执行四大核心环节 解决"买什么"和"怎么买"痛点 [5] - 产品功能包括:实时监控市场动态并分析财务数据/社交媒体情绪/公司公告 一键下单 根据用户收益目标和风险偏好生成个性化投资配置和交易策略 通过自然语言生成复杂条件订单并自动执行定投任务 实现止盈止损和仓位管理 [5][6] 行业定位与产品差异化 - 公司认为AI Agent在金融投资领域机会巨大 但该领域Agent数量和管理复杂度远高于其他行业 [4] - 创始人强调金融领域对专业性、容错率和时效性要求极高 产品需做到低成本、高效和结果可控 因此采用独特的multi-Agent技术路线实现全周期交易体验 [6] - 2023年4月推出的TradeGPT是全球首个交易AI产品 利用多模态LLM能力实时分析市场信息和量价数据 结合自研AI量化模型生成高质量交易机会 [4] 产品个性化案例 - AI Agent能识别用户兴趣点并推荐投资机会 例如用户提及使用多邻国学习新语言并表达投资意愿时 会分析标的优势及风险 生成符合期望的策略 [6]