多模态推理
搜索文档
2025 全球机器学习技术大会 100% 议程出炉,顶级嘉宾阵容 + 参会指南一键获取
AI科技大本营· 2025-10-14 19:14
大会核心信息 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店召开 [1] - 大会由CSDN与奇点智能研究院联合主办 [1] - 会议日程为每日8:00开始签到,9:00正式开始嘉宾分享 [34][36] 参会嘉宾阵容 - 大会云集了来自OpenAI、Google、英伟达、微软、百度、阿里、腾讯、字节跳动等国内外顶尖机构与企业的技术领军人物 [1] - 核心演讲嘉宾包括OpenAI研究科学家、GPT-5、GPT-4和Transformer共同创始人Lukasz Kaiser [1][5] - 其他重要嘉宾包括奇点智能研究院院长李建忠、ISO人工智能技术委员会专家Michael Wong、前OpenAI研究员吴翼、前DeepMind研究员王佳楠等 [1][4][5][19] 主论坛核心议题 - 首日主论坛将围绕大模型、智能体工程、多模态推理等前沿议题展开 [3] - 奇点智能研究院院长李建忠将发布《奇点智能AI原生软件研发成熟度模型》报告 [4] - ISO专家Michael Wong将解析CUDA、PyTorch、ONNX、Triton等AI生态系统的成败逻辑 [4] - OpenAI科学家Lukasz Kaiser将分享推理模型的历史、现在与未来 [5] 专题分会场技术焦点 - 10月16日下午设有大语言模型技术演进、智能体工程与实践、多模态与世界模型、AI赋能软件开发等多个专题分会场 [12] - 参会企业包括字节跳动、微软、新浪微博、腾讯、小红书、理想汽车、京东、清华大学等 [13] - 10月17日专题涵盖具身智能与智能硬件、AI Infra大模型基础设施、AI赋能软件研发、大模型+行业落地实践等热门技术专题 [18] - 英伟达首席架构师将分享CUDA C++开发者工具箱,百度将介绍文心4.5开源大模型及关键训练技术 [22] 产业应用与实践案例 - 大会将展示AI技术在多个行业的落地实践,包括小红书的多模态搜索应用、理想汽车的座舱语音对话大模型、京东的开源多智能体协作框架等 [13][15][16] - 腾讯混元将分享翻译模型优化经验及3D生成大模型的研发布局与应用 [15][16] - 阿里Qoder技术专家将探讨新一代Agentic Coding平台如何推动AI Agent在软件研发中的真实应用 [16]
永别了,人类冠军,AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
36氪· 2025-10-13 07:57
AI大模型在天文奥赛中的突破性表现 - 在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro达到金牌水平,在理论和数据分析测试中完胜人类选手[1][3] - 这是继国际数学奥赛(IMO)和国际信息学奥赛(IOI)之后,AI再次在顶级科学奥赛中夺冠[2] - 此次表现标志着AI已能与物理学和天文学领域最顶尖的年轻头脑抗衡,涉及中子星、吸积流、磁场和轨道力学等尖端推理[13] 主要AI模型竞赛成绩详情 - 在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%[4] - 在数据分析考试中,GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%[5] - 五大LLM参与测试,包括GPT-5、Gemini 2.5 Pro、OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,几乎全线获得金牌[18][36] - 研究由俄亥俄州立大学团队完成,选取了最近四届IOAA理论考试(2022-2025)作为评估基准[20] 模型在不同难度和类别问题上的表现差异 - GPT-5在难题上的表现优于简单与中等难度题,在2024年试卷的几何与空间可视化题目上出现重大失误[24][25] - 模型在物理/数学类问题上的得分(67–91%)明显高于几何/空间类问题(49–78%),两者相差15–26个百分点[44] - 几何/空间类问题涉及天球、球面三角学等需要空间可视化的内容,而物理/数学类主要涉及计算,不要求几何可视化[45] - 在2024年几何问题主导的考试中,只有Gemini 2.5 Pro保持了相对较高的性能(74.7%),其他模型性能下降至35–59%[44] 多模态能力与错误模式分析 - GPT-5在数据分析部分表现出色(88.5%),高于其理论考试成绩(84.2%),这得益于其更强的多模态图表解读能力[31][32] - 在理论考试中,概念性错误和几何/空间可视化错误占主导地位,共同占去60-70%的总失分[51] - 在数据分析考试中,错误分布相对平衡,绘图和图表阅读是主要错误类别,特别是对于能力较弱的模型[52][64] - 所有LLM在空间和时间推理方面都存在困难,例如难以理解球面三角学、混淆时间计量系统[47][49] 与人类选手的比较及行业意义 - AI模型不仅达到金牌水平,其水平高达人类金牌得主的2.7倍,在200-300名人类参赛者中跻身前两名[6][12] - 在2022、2023、2025理论考试中,GPT-5均超过了当年的IOAA最佳学生,Gemini 2.5 Pro在2022和2023年同样力压最佳人类选手[40] - 此次评估揭示了需要更全面地评估天文学领域的LLM,以测试其超越单纯知识回忆的问题解决能力[28] - AI在奥赛中的表现预示着其将推动全部学科的进展,标志着我们已进入AI能进行宇宙级科学推理的时代[7][13]
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 21:35
核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合:本科均毕业于清华,博士同在斯坦福同门,曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局:赵晟佳把握整体节奏,宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理,其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型,提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈,旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快,项目对人的要求也在提高,研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队,专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新,更擅长转化为平台能力,影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路,为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 19:56
人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs,担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物,也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态,形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发,宋飏则长期关注跨模态模型架构,两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合,使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频,今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度,正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合,多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型,以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈,与宋飏的研究相结合,正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名,其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景,曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新,也擅长将研究成果转化为平台能力,能直接推动从理论到系统实现的完整链路 [28]
阿里开源Qwen3-VL系列旗舰模型 包含两个版本
第一财经· 2025-09-25 14:08
公司产品发布 - 公司推出全新升级的Qwen3-VL系列视觉理解模型,这是Qwen系列中最强大的版本[1] - 此次率先开源的旗舰模型为Qwen3-VL-235B-A22B,同时包含Instruct与Thinking两个版本[1] 产品性能表现 - Instruct版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro[1] - Thinking版本在众多多模态推理的评测基准下取得了SOTA(State-of-the-Art)的表现[1]
紫东太初4.0发布 国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-20 00:08
模型核心能力与技术创新 - 首款全栈国产化深度推理大模型"紫东太初"4.0发布,具备"边看、边识、边思"的类人多模态推理认知能力 [1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5 [1][4] - 模型完成了从纯文本思考到细粒度多模态语义思考的三重跃迁,引入了类人交叉注意力机制,实现从全局到局部再到上下文交互式的思考过程 [3] - 具备视觉注意力机制,可进行平移、放大、旋转等操作模仿人类探索过程,从被动分析迈入主动思考新阶段 [3] - 在视频多模态应用上能实现180分钟长视频深度理解,在视频问答等6项任务中达到SOTA性能 [4] - 具备三大核心技术创新:低成本高覆盖的真实事件数据合成、批判式多轮反思学习、难度敏感的自适应强化学习 [5][6] - 相较3.0版本,整体推理性能显著提升约15% [4][6] 产业应用与性能提升 - 模型将以更高性能赋能实体经济,包括工业智能、具身智能、医疗智能等领域 [4] - 与华工科技合作的高精度激光焊接技术具备更强空间交互能力,推理速度提升约15%,有望再次提升当前每43秒完成一辆新能源汽车车身焊接的速度 [4] - 多模态推理、逻辑思维和智能体能力全面对标GPT4.1nano和GPT4O等先进模型 [4] 平台建设与产业生态 - 同步发布"紫东太初云"平台,是国内首个多模态大模型原生协同云及全栈国产化万卡智算云 [6] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块,提供全链路能力 [6] - 与四川并济科技等5家企业共同启动"十万卡多模态大模型异构智能训练平台",为大模型技术加速迭代提供支持 [6] - 中国已进入算力经济时代,算力与数据、算法共同构成数字经济关键资源,经济拉动效应显著 [6]
紫东太初4.0发布,国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 19:21
紫东太初4.0技术能力 - 首款全栈国产化深度推理大模型,具备边看、边识、边思的类人多模态推理认知能力[1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5[1][4] - 实现从纯文本思考、简单操作带图思考到细粒度多模态语义思考的三重跃迁[3] - 能够对180分钟长视频进行深度理解、细腻度片段定位和内容自动分析,在视频问答等6项任务中达到SOTA性能[4] - 通过引入类人交叉注意力机制,实现从全局到局部再到上下文交互式的思考过程[3] - 具备低成本高覆盖真实事件数据合成、批判式多轮反思学习、难度敏感自适应强化学习三大核心技术创新[5] 性能提升与应用实例 - 相比3.0版本,紫东太初4.0推理速度约提升15%[4] - 与华工科技合作的高精度激光焊接技术,使新能源汽车车身激光焊接速度有望在43秒基础上再次提升[4] - 三大技术创新保证训练效率和推理性能显著提升,整体较3.0版本提升约15%[5] - 以推理斯洛克比赛为例,模型可通过定位球的位置并进行复杂推理和数学计算,得出需要5杆才能赢得比赛[3] 产业化平台与生态建设 - 同步发布紫东太初云平台,是国内首个多模态大模型原生协同云和首个全栈国产化万卡智算云[5] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块,提供全链路能力[5] - 将赋能工业智能、具身智能、医疗智能等实体经济领域[4] - 与四川并济科技等5家企业共同启动十万卡多模态大模型异构智能训练平台[6] - 中国已进入算力经济时代,算力与数据、算法共同构成数字经济时代的关键资源[6]
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 14:58
【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MMMU上获得了第一名。 近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使 得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战: 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。 针对于此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重(Instance Weights)作为可学习参数, 动态改变数据样本的在训练中的影响。 论文地址:https://arxiv.org/abs/2509.05542 代码地址:https://github.com/coder-qicao/DreamPRM-1.5 | Reset | | | MMMU-Pro | MMMU(Val) | | --- | --- | --- | --- | --- | | Name | Size | Date | Ov ...
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 21:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 18:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]