多模态推理

搜索文档
紫东太初4.0发布 国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-20 00:08
9月19日,首款全栈国产化深度推理大模型"紫东太初"4.0在武汉发布,具备"边看、边识、边思"的类人多模态推理认知能力,特别是在带图思考多模态复杂 推理和工具调用的能力上,全面超过了GPT5。 2024年图灵奖得主理查德·萨顿表示,人类数据正在迅速接近极限,智能体将越来越多通过与世界交互而获得持续学习的能力,潜力远超以往。 中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥在接受第一财经记者采访时介绍,从3.0原生的多模态统一框架到4.0多模态细腻度的 复杂思考,紫东太初完成了国产大模型从"纯文本思考""简单操作带图思考"到"细粒度多模态语义思考"的三重跃迁。 以推理"赢得一场斯诺克需要几步"为例,"紫东太初"4.0通过输入的图片可先定位白球、粉球和红球的位置,再通过台上不同球的得分进行复杂的推理和数 学计算,进一步告诉大家他要做5杆斯洛克才能赢得这场球。 "紫东太初4.0从理解能力、模态推理、动态推理三大能力引入了类人的交叉注意力机制,使大模型能够像人一样,实现对世界的理解从全局到局部再到上下 文交互式的思考过程。"王金桥说,通过视觉注意力关注到某一个区域,然后进行平移、放大、旋转、增强等一系列 ...
紫东太初4.0发布,国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 19:21
为推动紫东太初4.0的技术优势转化为实际产业价值,"紫东太初云"平台同步发布。 9月19日,首款全栈国产化深度推理大模型"紫东太初"4.0在武汉发布,具备"边看、边识、边思"的类人多模态推理认知能力,特别是在带图思考多模态复杂 推理和工具调用的能力上,全面超过了GPT5。 2024年图灵奖得主理查德·萨顿表示,人类数据正在迅速接近极限,智能体将越来越多通过与世界交互而获得持续学习的能力,潜力远超以往。 中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥在接受第一财经记者采访时介绍,从3.0原生的多模态统一框架到4.0多模态细腻度的 复杂思考,紫东太初完成了国产大模型从"纯文本思考""简单操作带图思考"到"细粒度多模态语义思考"的三重跃迁。 以推理"赢得一场斯洛克需要几步"为例,"紫东太初"4.0通过输入的图片可先定位白球、粉球和红球的位置,再通过台上不同球的得分进行复杂的推理和数 学计算,进一步告诉大家他要做5杆斯洛克才能赢得这场球。 在视频多模态2AG应用上,"紫东太初"4.0能够实现180分钟长视频的深度理解,细腻度片段定位和内容自动分析、总结,在视频问答、细腻度检索和文档检 索等6项任务中达 ...
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 14:58
【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MMMU上获得了第一名。 近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使 得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战: 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。 针对于此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重(Instance Weights)作为可学习参数, 动态改变数据样本的在训练中的影响。 论文地址:https://arxiv.org/abs/2509.05542 代码地址:https://github.com/coder-qicao/DreamPRM-1.5 | Reset | | | MMMU-Pro | MMMU(Val) | | --- | --- | --- | --- | --- | | Name | Size | Date | Ov ...
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 21:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 18:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 09:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网· 2025-08-12 16:46
| | Open-source LLMs Benchmarks | GLM-4.5V | Step-3 | Qwen2.5-VL | GLM-4.1V | Kimi-VL-2506 Gemma-3 | | | --- | --- | --- | --- | --- | --- | --- | --- | | Size | | 106B (A12B) | 321B (A38B) | 72B | dB | 16B (A3B) | 27B | | Mode | | w/ thinking | w/ thinking | w/o thinking | w/ thinking | w/ thinking | w/o thinking | | General VQA | MMBench v1.1 | 88.2 | 81.1 * | 88.0 | 85.8 | 84.4 | 80.1 * | | | MMBench v1.1 (CN) | 88.3 | 81.5* | 86.7* | 84.7 | 80.7* | 84.8* | | | MMStar | 75.3 | 69.0* | 70.8 | 72.9 | 70.4 ...
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道· 2025-08-12 09:52
智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]
智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源
凤凰网· 2025-08-11 22:14
公司动态 - 智谱AI推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B [1] - 模型同步在魔搭社区与Hugging Face开源 API调用价格低至输入2元/M tokens 输出6元/M tokens [1] - GLM-4.5V基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线 [1] 技术性能 - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [1] - 涵盖图像 视频 文档理解以及GUI Agent等常见任务 [1] - 能够根据用户提问精准识别 分析 定位目标物体并输出坐标框 [1] 行业意义 - 多模态推理被视为通向通用人工智能AGI的关键能力之一 [1] - 视觉-语言模型VLM是实现多模态推理的核心基础 [1]
gpt5
小熊跑的快· 2025-08-08 06:41
GPT-5核心升级 - 新一代AI系统在智力层面实现重大飞跃,在编码、数学、写作、健康、视觉感知等领域达到最先进性能 [1] - 采用统一系统架构,能动态调整响应速度与思考深度以提供专家级答案 [1] - 模型架构未出现代际突破,验证ASIC硬件路径正确性,利好推理成本下降 [1] 技术架构创新 - 引入三级模型体系:基础智能模型处理常规问题,GPT-5思维模块解决复杂问题,实时路由器动态分配任务 [2] - 路由器通过用户切换行为、响应偏好等真实信号持续优化,未来计划整合为单一模型 [2] - 达到使用限制后自动切换至GPT-5 mini模型维持服务 [2] 核心能力提升 编码性能 - 复杂前端生成与大型代码库调试能力显著提升,单提示即可生成响应式网站/应用/游戏 [3] - 设计审美优化,对排版、间距等视觉元素理解更精准 [3] 健康应用 - HealthBench评估得分显著超越前代,在真实医疗场景中表现更可靠 [4] - 新增主动风险提示功能,能根据用户背景知识提供个性化健康建议 [4] - 强调AI作为医疗辅助工具定位,不替代专业医疗人员 [4] 多模态与事实性 - 视觉/视频/空间推理能力全面提升,图表解析准确率大幅提高 [11] - 启用网络搜索时,事实错误率较GPT-4o降低45%,思考模式下比OpenAI o3降低80% [11] - LongFact和FActScore基准测试显示"GPT-5思维"幻觉率下降6倍 [11] 响应诚实度 - 对无法完成任务的情境识别准确率从o3的86.7%提升至91% [13] - 在真实对话场景中欺骗率从4.8%降至2.1% [13] 商业化部署 - 即时向Plus/Pro/Team/Free用户开放,企业/教育版一周内上线 [14] - Pro用户可无限制访问GPT-5 Pro版本,团队用户可设为默认工作模型 [14] - 免费用户达到限额后自动降级至GPT-5 mini模型 [14]