Workflow
多模态推理
icon
搜索文档
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
36氪· 2025-11-19 08:04
产品发布与市场热度 - 谷歌正式发布其最先进的多模态大模型Gemini 3,该模型被公司定义为“通往AGI的重要一步”[5][6] - 产品发布前在社交媒体平台引发极高关注度,导致平台出现服务中断,反映出市场对该模型发布的巨大期待[1][2] - 模型发布获得行业关键人物如OpenAI的Sam Altman和xAI的Elon Musk的祝贺[5] 核心性能表现 - Gemini 3 Pro在几乎所有主流AI基准测试中显著超越前代Gemini 2.5 Pro,并全面压制Claude Sonnet 4.5和GPT-5.1等主要竞品[7] - 模型以1501 Elo的突破性高分登顶LMArena Leaderboard,在Humanity's Last Exam(无工具条件下达37.5%)和GPQA Diamond(91.9%)上获得最高分,展示博士级推理能力[7] - 在多模态理解方面,模型在MMMU-Pro和Video-MMMU上分别斩获81%和87.6%的高分,在解析复杂科学图表和理解动态视频流上表现优异[7] - 在数学领域为前沿模型树立新标准,在MathArena Apex上达到23.4%的最新SOTA水平[7] - 在事实准确性上取得巨大进步,于SimpleQA Verified上取得72.1%的成绩[7] 新增功能与模式 - 推出全新的Deep Think模式,该模式在推理和多模态理解能力上有重大进步,在Humanity's Last Exam(无工具41.0%)和GPQA Diamond(93.8%)上的表现优于Gemini 3 Pro[10][13] - 引入全新的Google Antigravity智能体开发平台,将AI辅助从工具转变为积极的合作伙伴,提升开发者体验[6][24] - 模型结合先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口,拓展多模态推理边界[14] 开发者与编码能力 - 模型是谷歌迄今为止最佳Vibe编码和Agent编码模型,在WebDev Arena排行榜上以1487 Elo分数名列榜首[16] - 在评估终端操作计算机能力的Terminal-Bench 2.0测试中取得54.2%的成绩,在衡量编码代理性能的SWE-bench Verified测试中大幅超越2.5 Pro版本,得分为76.2%[16] - 开发者现可通过Google AI Studio、Vertex AI、Gemini CLI以及全新的Google Antigravity平台使用Gemini 3进行构建,并适用于Cursor、GitHub等第三方平台[17] 规划与商业应用能力 - 模型的规划能力在Vending-Bench 2测试中得到印证,通过长周期规划管理虚拟商业运营,在模拟售货机经营测试中登顶,实现更高投资回报[18] - 在完整模拟年度运营中,Gemini 3 Pro始终保持稳定的工具调用与决策连贯性,展现出卓越的长周期规划能力[18] 定价与可用性 - Gemini 3.0 Pro引入基于上下文长度的分级定价机制:200k tokens以下任务,输入/输出价格为每百万token $2.00/$12.00;超过200k tokens则分别为$4.00和$18.00[21] - 模型现已全面开放,普通用户和订阅用户可通过Gemini App及搜索AI模式使用,开发者与企业客户可通过AI Studio、Vertex AI等渠道接入[19] - Deep Think模式预计将在未来几周内面向Google AI Ultra订阅用户独家上线[19] 市场影响与用户基础 - 在一项关于“到2026年底哪家公司拥有最好LLM”的投票中,Google Gemini遥遥领先,显示市场信心回升[32] - 根据公司数据,AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,超过70%的云客户以及1300万开发者正在使用其生成式模型[34]
2025 全球机器学习技术大会 100% 议程出炉,顶级嘉宾阵容 + 参会指南一键获取
AI科技大本营· 2025-10-14 19:14
大会核心信息 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店召开 [1] - 大会由CSDN与奇点智能研究院联合主办 [1] - 会议日程为每日8:00开始签到,9:00正式开始嘉宾分享 [34][36] 参会嘉宾阵容 - 大会云集了来自OpenAI、Google、英伟达、微软、百度、阿里、腾讯、字节跳动等国内外顶尖机构与企业的技术领军人物 [1] - 核心演讲嘉宾包括OpenAI研究科学家、GPT-5、GPT-4和Transformer共同创始人Lukasz Kaiser [1][5] - 其他重要嘉宾包括奇点智能研究院院长李建忠、ISO人工智能技术委员会专家Michael Wong、前OpenAI研究员吴翼、前DeepMind研究员王佳楠等 [1][4][5][19] 主论坛核心议题 - 首日主论坛将围绕大模型、智能体工程、多模态推理等前沿议题展开 [3] - 奇点智能研究院院长李建忠将发布《奇点智能AI原生软件研发成熟度模型》报告 [4] - ISO专家Michael Wong将解析CUDA、PyTorch、ONNX、Triton等AI生态系统的成败逻辑 [4] - OpenAI科学家Lukasz Kaiser将分享推理模型的历史、现在与未来 [5] 专题分会场技术焦点 - 10月16日下午设有大语言模型技术演进、智能体工程与实践、多模态与世界模型、AI赋能软件开发等多个专题分会场 [12] - 参会企业包括字节跳动、微软、新浪微博、腾讯、小红书、理想汽车、京东、清华大学等 [13] - 10月17日专题涵盖具身智能与智能硬件、AI Infra大模型基础设施、AI赋能软件研发、大模型+行业落地实践等热门技术专题 [18] - 英伟达首席架构师将分享CUDA C++开发者工具箱,百度将介绍文心4.5开源大模型及关键训练技术 [22] 产业应用与实践案例 - 大会将展示AI技术在多个行业的落地实践,包括小红书的多模态搜索应用、理想汽车的座舱语音对话大模型、京东的开源多智能体协作框架等 [13][15][16] - 腾讯混元将分享翻译模型优化经验及3D生成大模型的研发布局与应用 [15][16] - 阿里Qoder技术专家将探讨新一代Agentic Coding平台如何推动AI Agent在软件研发中的真实应用 [16]
永别了,人类冠军,AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
36氪· 2025-10-13 07:57
AI大模型在天文奥赛中的突破性表现 - 在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro达到金牌水平,在理论和数据分析测试中完胜人类选手[1][3] - 这是继国际数学奥赛(IMO)和国际信息学奥赛(IOI)之后,AI再次在顶级科学奥赛中夺冠[2] - 此次表现标志着AI已能与物理学和天文学领域最顶尖的年轻头脑抗衡,涉及中子星、吸积流、磁场和轨道力学等尖端推理[13] 主要AI模型竞赛成绩详情 - 在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%[4] - 在数据分析考试中,GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%[5] - 五大LLM参与测试,包括GPT-5、Gemini 2.5 Pro、OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,几乎全线获得金牌[18][36] - 研究由俄亥俄州立大学团队完成,选取了最近四届IOAA理论考试(2022-2025)作为评估基准[20] 模型在不同难度和类别问题上的表现差异 - GPT-5在难题上的表现优于简单与中等难度题,在2024年试卷的几何与空间可视化题目上出现重大失误[24][25] - 模型在物理/数学类问题上的得分(67–91%)明显高于几何/空间类问题(49–78%),两者相差15–26个百分点[44] - 几何/空间类问题涉及天球、球面三角学等需要空间可视化的内容,而物理/数学类主要涉及计算,不要求几何可视化[45] - 在2024年几何问题主导的考试中,只有Gemini 2.5 Pro保持了相对较高的性能(74.7%),其他模型性能下降至35–59%[44] 多模态能力与错误模式分析 - GPT-5在数据分析部分表现出色(88.5%),高于其理论考试成绩(84.2%),这得益于其更强的多模态图表解读能力[31][32] - 在理论考试中,概念性错误和几何/空间可视化错误占主导地位,共同占去60-70%的总失分[51] - 在数据分析考试中,错误分布相对平衡,绘图和图表阅读是主要错误类别,特别是对于能力较弱的模型[52][64] - 所有LLM在空间和时间推理方面都存在困难,例如难以理解球面三角学、混淆时间计量系统[47][49] 与人类选手的比较及行业意义 - AI模型不仅达到金牌水平,其水平高达人类金牌得主的2.7倍,在200-300名人类参赛者中跻身前两名[6][12] - 在2022、2023、2025理论考试中,GPT-5均超过了当年的IOAA最佳学生,Gemini 2.5 Pro在2022和2023年同样力压最佳人类选手[40] - 此次评估揭示了需要更全面地评估天文学领域的LLM,以测试其超越单纯知识回忆的问题解决能力[28] - AI在奥赛中的表现预示着其将推动全部学科的进展,标志着我们已进入AI能进行宇宙级科学推理的时代[7][13]
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 21:35
核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合:本科均毕业于清华,博士同在斯坦福同门,曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局:赵晟佳把握整体节奏,宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理,其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型,提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈,旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快,项目对人的要求也在提高,研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队,专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新,更擅长转化为平台能力,影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路,为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 19:56
人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs,担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物,也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态,形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发,宋飏则长期关注跨模态模型架构,两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合,使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频,今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度,正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合,多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型,以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈,与宋飏的研究相结合,正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名,其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景,曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新,也擅长将研究成果转化为平台能力,能直接推动从理论到系统实现的完整链路 [28]
阿里开源Qwen3-VL系列旗舰模型 包含两个版本
第一财经· 2025-09-25 14:08
公司产品发布 - 公司推出全新升级的Qwen3-VL系列视觉理解模型,这是Qwen系列中最强大的版本[1] - 此次率先开源的旗舰模型为Qwen3-VL-235B-A22B,同时包含Instruct与Thinking两个版本[1] 产品性能表现 - Instruct版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro[1] - Thinking版本在众多多模态推理的评测基准下取得了SOTA(State-of-the-Art)的表现[1]
紫东太初4.0发布 国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-20 00:08
模型核心能力与技术创新 - 首款全栈国产化深度推理大模型"紫东太初"4.0发布,具备"边看、边识、边思"的类人多模态推理认知能力 [1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5 [1][4] - 模型完成了从纯文本思考到细粒度多模态语义思考的三重跃迁,引入了类人交叉注意力机制,实现从全局到局部再到上下文交互式的思考过程 [3] - 具备视觉注意力机制,可进行平移、放大、旋转等操作模仿人类探索过程,从被动分析迈入主动思考新阶段 [3] - 在视频多模态应用上能实现180分钟长视频深度理解,在视频问答等6项任务中达到SOTA性能 [4] - 具备三大核心技术创新:低成本高覆盖的真实事件数据合成、批判式多轮反思学习、难度敏感的自适应强化学习 [5][6] - 相较3.0版本,整体推理性能显著提升约15% [4][6] 产业应用与性能提升 - 模型将以更高性能赋能实体经济,包括工业智能、具身智能、医疗智能等领域 [4] - 与华工科技合作的高精度激光焊接技术具备更强空间交互能力,推理速度提升约15%,有望再次提升当前每43秒完成一辆新能源汽车车身焊接的速度 [4] - 多模态推理、逻辑思维和智能体能力全面对标GPT4.1nano和GPT4O等先进模型 [4] 平台建设与产业生态 - 同步发布"紫东太初云"平台,是国内首个多模态大模型原生协同云及全栈国产化万卡智算云 [6] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块,提供全链路能力 [6] - 与四川并济科技等5家企业共同启动"十万卡多模态大模型异构智能训练平台",为大模型技术加速迭代提供支持 [6] - 中国已进入算力经济时代,算力与数据、算法共同构成数字经济关键资源,经济拉动效应显著 [6]
紫东太初4.0发布,国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 19:21
紫东太初4.0技术能力 - 首款全栈国产化深度推理大模型,具备边看、边识、边思的类人多模态推理认知能力[1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5[1][4] - 实现从纯文本思考、简单操作带图思考到细粒度多模态语义思考的三重跃迁[3] - 能够对180分钟长视频进行深度理解、细腻度片段定位和内容自动分析,在视频问答等6项任务中达到SOTA性能[4] - 通过引入类人交叉注意力机制,实现从全局到局部再到上下文交互式的思考过程[3] - 具备低成本高覆盖真实事件数据合成、批判式多轮反思学习、难度敏感自适应强化学习三大核心技术创新[5] 性能提升与应用实例 - 相比3.0版本,紫东太初4.0推理速度约提升15%[4] - 与华工科技合作的高精度激光焊接技术,使新能源汽车车身激光焊接速度有望在43秒基础上再次提升[4] - 三大技术创新保证训练效率和推理性能显著提升,整体较3.0版本提升约15%[5] - 以推理斯洛克比赛为例,模型可通过定位球的位置并进行复杂推理和数学计算,得出需要5杆才能赢得比赛[3] 产业化平台与生态建设 - 同步发布紫东太初云平台,是国内首个多模态大模型原生协同云和首个全栈国产化万卡智算云[5] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块,提供全链路能力[5] - 将赋能工业智能、具身智能、医疗智能等实体经济领域[4] - 与四川并济科技等5家企业共同启动十万卡多模态大模型异构智能训练平台[6] - 中国已进入算力经济时代,算力与数据、算法共同构成数字经济时代的关键资源[6]
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 14:58
技术突破与核心创新 - DreamPRM-1.5在数学推理权威测评MMMU上获得第一名,其核心创新在于将过程奖励模型的监督机制从文本推理扩展至多模态场景 [1] - 该框架通过双层优化设计,将数据样本的权重作为可学习参数,动态调整不同样本在训练中的影响,以抑制噪声样本的负面影响并充分利用高质量样本 [1][7][11] - 研究团队提出了两种互补的实例级重加权实现方案:Instance Table为每个样本设独立权重参数,适合小规模数据;Instance Net使用小型MLP网络预测权重,参数量固定且更适合大规模训练 [8][10] 性能表现与基准测试 - 在MMMU基准测试中,以InternVL3-1B为基础模型的DreamPRM-15(Instance Table版本)取得了84.6%的整体准确率,显著超越基线GPT-5-mini w/ thinking的80.0%,提升幅度达4.6个百分点 [15][16] - DreamPRM-1.5的性能超过了GPT-5 w/ thinking(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等顶级闭源模型,展现出其技术优势 [3][18] - 对比实验显示,不使用重加权的VanillaPRM方法准确率仅为79.1%,而经典的Self-consistency方法为81.4%,均低于DreamPRM-1.5,验证了实例加权策略的有效性 [15][16] 方法细节与实现 - 模型采用生成式奖励机制,对推理过程的每一步输出“+”或“-”标记来评估合理性,并通过softmax计算置信度,最终对整条推理链的步骤分数进行聚合 [12][17] - 训练流程包括冷启动阶段(使用20k样本进行有监督微调)和后续的100k步双层优化迭代,整个训练在单张NVIDIA A100上耗时约72小时完成 [13][14] - 元数据集采用MMMU-Pro的标准分割,使用其测试集数据生成候选推理链作为元数据集,用于指导上层优化中的权重更新 [13]
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 21:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]