多模态推理 - 财报，业绩电话会，研报，新闻 - Reportify

多模态推理

搜索文档

2025 全球机器学习技术大会 100% 议程出炉，顶级嘉宾阵容 + 参会指南一键获取

AI科技大本营· 2025-10-14 19:14

大会核心信息 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店召开 [1] - 大会由CSDN与奇点智能研究院联合主办 [1] - 会议日程为每日8:00开始签到，9:00正式开始嘉宾分享 [34][36] 参会嘉宾阵容 - 大会云集了来自OpenAI、Google、英伟达、微软、百度、阿里、腾讯、字节跳动等国内外顶尖机构与企业的技术领军人物 [1] - 核心演讲嘉宾包括OpenAI研究科学家、GPT-5、GPT-4和Transformer共同创始人Lukasz Kaiser [1][5] - 其他重要嘉宾包括奇点智能研究院院长李建忠、ISO人工智能技术委员会专家Michael Wong、前OpenAI研究员吴翼、前DeepMind研究员王佳楠等 [1][4][5][19] 主论坛核心议题 - 首日主论坛将围绕大模型、智能体工程、多模态推理等前沿议题展开 [3] - 奇点智能研究院院长李建忠将发布《奇点智能AI原生软件研发成熟度模型》报告 [4] - ISO专家Michael Wong将解析CUDA、PyTorch、ONNX、Triton等AI生态系统的成败逻辑 [4] - OpenAI科学家Lukasz Kaiser将分享推理模型的历史、现在与未来 [5] 专题分会场技术焦点 - 10月16日下午设有大语言模型技术演进、智能体工程与实践、多模态与世界模型、AI赋能软件开发等多个专题分会场 [12] - 参会企业包括字节跳动、微软、新浪微博、腾讯、小红书、理想汽车、京东、清华大学等 [13] - 10月17日专题涵盖具身智能与智能硬件、AI Infra大模型基础设施、AI赋能软件研发、大模型+行业落地实践等热门技术专题 [18] - 英伟达首席架构师将分享CUDA C++开发者工具箱，百度将介绍文心4.5开源大模型及关键训练技术 [22] 产业应用与实践案例 - 大会将展示AI技术在多个行业的落地实践，包括小红书的多模态搜索应用、理想汽车的座舱语音对话大模型、京东的开源多智能体协作框架等 [13][15][16] - 腾讯混元将分享翻译模型优化经验及3D生成大模型的研发布局与应用 [15][16] - 阿里Qoder技术专家将探讨新一代Agentic Coding平台如何推动AI Agent在软件研发中的真实应用 [16]

智能体工程

多模态推理

智能体工程

多模态推理

永别了，人类冠军，AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍

36氪· 2025-10-13 07:57

AI大模型在天文奥赛中的突破性表现 - 在国际天文与天体物理奥赛（IOAA）中，GPT-5和Gemini 2.5 Pro达到金牌水平，在理论和数据分析测试中完胜人类选手[1][3] - 这是继国际数学奥赛（IMO）和国际信息学奥赛（IOI）之后，AI再次在顶级科学奥赛中夺冠[2] - 此次表现标志着AI已能与物理学和天文学领域最顶尖的年轻头脑抗衡，涉及中子星、吸积流、磁场和轨道力学等尖端推理[13] 主要AI模型竞赛成绩详情 - 在理论考试上，Gemini 2.5 Pro总体得分85.6%，GPT-5总体得分84.2%[4] - 在数据分析考试中，GPT-5总体得分88.5%，Gemini 2.5 Pro总体得分75.7%[5] - 五大LLM参与测试，包括GPT-5、Gemini 2.5 Pro、OpenAI o3、Claude Opus 4.1和Claude Sonnet 4，几乎全线获得金牌[18][36] - 研究由俄亥俄州立大学团队完成，选取了最近四届IOAA理论考试（2022-2025）作为评估基准[20] 模型在不同难度和类别问题上的表现差异 - GPT-5在难题上的表现优于简单与中等难度题，在2024年试卷的几何与空间可视化题目上出现重大失误[24][25] - 模型在物理/数学类问题上的得分（67–91%）明显高于几何/空间类问题（49–78%），两者相差15–26个百分点[44] - 几何/空间类问题涉及天球、球面三角学等需要空间可视化的内容，而物理/数学类主要涉及计算，不要求几何可视化[45] - 在2024年几何问题主导的考试中，只有Gemini 2.5 Pro保持了相对较高的性能（74.7%），其他模型性能下降至35–59%[44] 多模态能力与错误模式分析 - GPT-5在数据分析部分表现出色（88.5%），高于其理论考试成绩（84.2%），这得益于其更强的多模态图表解读能力[31][32] - 在理论考试中，概念性错误和几何/空间可视化错误占主导地位，共同占去60-70%的总失分[51] - 在数据分析考试中，错误分布相对平衡，绘图和图表阅读是主要错误类别，特别是对于能力较弱的模型[52][64] - 所有LLM在空间和时间推理方面都存在困难，例如难以理解球面三角学、混淆时间计量系统[47][49] 与人类选手的比较及行业意义 - AI模型不仅达到金牌水平，其水平高达人类金牌得主的2.7倍，在200-300名人类参赛者中跻身前两名[6][12] - 在2022、2023、2025理论考试中，GPT-5均超过了当年的IOAA最佳学生，Gemini 2.5 Pro在2022和2023年同样力压最佳人类选手[40] - 此次评估揭示了需要更全面地评估天文学领域的LLM，以测试其超越单纯知识回忆的问题解决能力[28] - AI在奥赛中的表现预示着其将推动全部学科的进展，标志着我们已进入AI能进行宇宙级科学推理的时代[7][13]

大语言模型（LLM）

多模态推理

大语言模型（LLM）

多模态推理

Meta刚从OpenAI挖走了清华校友宋飏

36氪· 2025-09-26 21:35

核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合：本科均毕业于清华，博士同在斯坦福同门，曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局：赵晟佳把握整体节奏，宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理，其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型，提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈，旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快，例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快，项目对人的要求也在提高，研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队，专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新，更擅长转化为平台能力，影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路，为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]

Meta Platforms(US:META)

多模态推理

Artificial Intelligence

多模态推理

Artificial Intelligence

突发，Meta刚从OpenAI挖走了清华校友宋飏

36氪· 2025-09-25 19:56

人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs，担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物，也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态，形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发，宋飏则长期关注跨模态模型架构，两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合，使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频，今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快，例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度，正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合，多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型，以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈，与宋飏的研究相结合，正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名，其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景，曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新，也擅长将研究成果转化为平台能力，能直接推动从理论到系统实现的完整链路 [28]

Meta Platforms(US:META)

多模态推理

Artificial Intelligence

多模态推理

Artificial Intelligence

阿里开源Qwen3-VL系列旗舰模型包含两个版本

第一财经· 2025-09-25 14:08

公司产品发布 - 公司推出全新升级的Qwen3-VL系列视觉理解模型，这是Qwen系列中最强大的版本[1] - 此次率先开源的旗舰模型为Qwen3-VL-235B-A22B，同时包含Instruct与Thinking两个版本[1] 产品性能表现 - Instruct版本在多项主流视觉感知评测中，性能达到甚至超过Gemini 2.5 Pro[1] - Thinking版本在众多多模态推理的评测基准下取得了SOTA（State-of-the-Art）的表现[1]

阿里巴巴(US:BABA)

视觉理解模型

多模态推理

Qwen3-VL-235B-A22B

视觉理解模型

多模态推理

Qwen3-VL-235B-A22B

紫东太初4.0发布国产大模型迈向“边看、边识、边思”新阶段

第一财经· 2025-09-20 00:08

模型核心能力与技术创新 - 首款全栈国产化深度推理大模型"紫东太初"4.0发布，具备"边看、边识、边思"的类人多模态推理认知能力 [1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5 [1][4] - 模型完成了从纯文本思考到细粒度多模态语义思考的三重跃迁，引入了类人交叉注意力机制，实现从全局到局部再到上下文交互式的思考过程 [3] - 具备视觉注意力机制，可进行平移、放大、旋转等操作模仿人类探索过程，从被动分析迈入主动思考新阶段 [3] - 在视频多模态应用上能实现180分钟长视频深度理解，在视频问答等6项任务中达到SOTA性能 [4] - 具备三大核心技术创新：低成本高覆盖的真实事件数据合成、批判式多轮反思学习、难度敏感的自适应强化学习 [5][6] - 相较3.0版本，整体推理性能显著提升约15% [4][6] 产业应用与性能提升 - 模型将以更高性能赋能实体经济，包括工业智能、具身智能、医疗智能等领域 [4] - 与华工科技合作的高精度激光焊接技术具备更强空间交互能力，推理速度提升约15%，有望再次提升当前每43秒完成一辆新能源汽车车身焊接的速度 [4] - 多模态推理、逻辑思维和智能体能力全面对标GPT4.1nano和GPT4O等先进模型 [4] 平台建设与产业生态 - 同步发布"紫东太初云"平台，是国内首个多模态大模型原生协同云及全栈国产化万卡智算云 [6] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块，提供全链路能力 [6] - 与四川并济科技等5家企业共同启动"十万卡多模态大模型异构智能训练平台"，为大模型技术加速迭代提供支持 [6] - 中国已进入算力经济时代，算力与数据、算法共同构成数字经济关键资源，经济拉动效应显著 [6]

多模态推理

紫东太初4.0

紫东太初云

多模态推理

紫东太初4.0

紫东太初云

紫东太初4.0发布，国产大模型迈向“边看、边识、边思”新阶段

第一财经· 2025-09-19 19:21

紫东太初4.0技术能力 - 首款全栈国产化深度推理大模型，具备边看、边识、边思的类人多模态推理认知能力[1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5[1][4] - 实现从纯文本思考、简单操作带图思考到细粒度多模态语义思考的三重跃迁[3] - 能够对180分钟长视频进行深度理解、细腻度片段定位和内容自动分析，在视频问答等6项任务中达到SOTA性能[4] - 通过引入类人交叉注意力机制，实现从全局到局部再到上下文交互式的思考过程[3] - 具备低成本高覆盖真实事件数据合成、批判式多轮反思学习、难度敏感自适应强化学习三大核心技术创新[5] 性能提升与应用实例 - 相比3.0版本，紫东太初4.0推理速度约提升15%[4] - 与华工科技合作的高精度激光焊接技术，使新能源汽车车身激光焊接速度有望在43秒基础上再次提升[4] - 三大技术创新保证训练效率和推理性能显著提升，整体较3.0版本提升约15%[5] - 以推理斯洛克比赛为例，模型可通过定位球的位置并进行复杂推理和数学计算，得出需要5杆才能赢得比赛[3] 产业化平台与生态建设 - 同步发布紫东太初云平台，是国内首个多模态大模型原生协同云和首个全栈国产化万卡智算云[5] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块，提供全链路能力[5] - 将赋能工业智能、具身智能、医疗智能等实体经济领域[4] - 与四川并济科技等5家企业共同启动十万卡多模态大模型异构智能训练平台[6] - 中国已进入算力经济时代，算力与数据、算法共同构成数字经济时代的关键资源[6]

多模态推理

紫东太初4.0

紫东太初云

多模态推理

紫东太初4.0

紫东太初云

登顶多模态推理榜MMMU，UCSD新方法超越GPT-5、Gemini

36氪· 2025-09-19 14:58

【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发，在数学推理权威测评榜MMMU上获得了第一名。近年来，大语言模型（LLM）在推理能力上的进展显著，其中过程奖励模型（Process Reward Model, PRM）的提出，使得模型能够在推理链条的中间步骤获得监督，从而更稳健地选择合理的解题路径。这类方法在文本推理任务中已经取得了良好效果，但在扩展至多模态场景时，仍然面临两个突出挑战：因此，如何在多模态推理中有效利用高质量样本，抑制噪声样本的负面影响，成为亟需解决的问题。针对于此，研究人员设计了新的训练框架，通过双层优化框架，将数据样本的权重（Instance Weights）作为可学习参数，动态改变数据样本的在训练中的影响。论文地址：https://arxiv.org/abs/2509.05542 代码地址：https://github.com/coder-qicao/DreamPRM-1.5 | Reset | | | MMMU-Pro | MMMU(Val) | | --- | --- | --- | --- | --- | | Name | Size | Date | Ov ...

多模态推理

实例级重加权

过程奖励模型

多模态推理

实例级重加权

过程奖励模型

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

机器之心· 2025-08-21 21:08

数据集核心创新 - 提出ECD合成图表数据集包含10,000+图表和321.5k问答对规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线涵盖单图生成、多子图组合、视觉多样化等环节确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型覆盖经济学/天文学/医学等25个学科主题为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升：LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出：最低FID得分表明与真实图表分布最接近最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤包含描述类与推理类问题例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制保证语义一致性支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库添加注释/阴影/Zoom-in视窗等元素提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现推动图表自动化生成技术发展[17][25]

思科系统(US:CSCO)

多模态大语言模型（MLLMs）

多模态推理

图表自动化生成

ECD（Effective Chart Dataset）

多模态大语言模型（MLLMs）

多模态推理

图表自动化生成

ECD（Effective Chart Dataset）

当一家成立11年的AI公司投身具身智能战场

36氪· 2025-08-19 18:12

公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代推出空间认知大模型Manas和四足机器狗两款产品并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累拥有软硬件协同开发经验曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型在VSI-Bench和SQA3D数据集上取得SOTA成绩专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构电机和运动控制平台目前已迭代至第三代产品 [4][17] - 技术演进路径包括：自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛存在VLA模型大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验积累丰富渠道供应链和量产能力 [23] - 全栈自研战略确保大脑小脑与本体之间的系统配合提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数绝对/相对距离物理尺寸等空间理解基准测试中表现优异 [17]

多模态推理

视觉语言模型

空间认知大模型Manas

四足机器狗

多模态推理

视觉语言模型

空间认知大模型Manas

四足机器狗