多模态推理

搜索文档
量子位智库:2025上半年AI核心成果及趋势报告
搜狐财经· 2025-08-03 07:06
应用趋势 - 通用类Agent深度整合工具使用,可完成多样深度研究任务,视觉操作为核心的CUA推向市场,两者正走向融合 [1][11] - 垂类Agent在旅行、设计等场景涌现,自然语言操控成为工作流一部分,例如飞猪推出"问一问"功能实现多Agent协同 [1][15] - AI编程成核心垂类,头部应用如Cursor年收入突破5亿美元,产品演化经历代码补全、单文件编辑、多文件编辑到端到端交付四阶段 [16][17] - 模型上下文协议MCP受关注但未规模化落地,可为大模型提供标准化接口,目前支持20-30个调用且生态技术侧尚未成熟 [19][21] 模型趋势 - 推理能力显著提升,数理类问题准确率+7%,代码类竞赛排名+23%,GPQA钻石级问题+43% [24] - 大模型走向Agentic,工具使用能力增强,Humanity's Last Exam榜单表现+81% [26] - 多模态推理融合视觉与文本,图像生成能力全面提升,可遵循16个细节指令并实现多轮连续编辑 [27][29] - 小模型加速普及,智能密度提高,模型评估向动态、实用任务方向发展 [1][25] 技术趋势 - 训练资源向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练 [1][10] - 多智能体系统成前沿范式,在线学习成核心突破方向,Transformer架构快速迭代并涌现混合架构 [1][27] - 代码验证成AI编程自动化提升关键方向,系统提示词对用户体验影响显著 [1][18] 行业趋势 - 头部玩家模型层差距缩小,OpenAI领先优势弱化,谷歌和xAI迎头赶上 [2][8] - 中美大模型竞争差距缩小,中国在多模态等领域表现突出 [2][8] - AI编程成必争之地,海内外头部玩家密集布局,国内大模型创业公司路线分化 [2][16]
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
量子位· 2025-07-27 19:57
行业趋势与市场现状 - 推理模型和具身智能成为2024年WAIC最受关注的领域,分别代表当前AI话语权和下一代有形技术[1] - 行业进入推理时代后,多模态模型涌现,推理能力成为焦点,开源成为厂商和用户首选考量[10] - 模型评估标准从单一性能指标转向综合考察效率、成本、部署友好性等维度[11] Step 3核心特性 - 总参数321B的MoE架构,视觉编码器5B参数+语言模型316B参数,激活参数38B[5][17] - 多模态能力突出:在MMMU等榜单取得开源多模态推理模型新SOTA,支持跨领域复杂知识理解与视觉信息交叉分析[6][19] - 成本效率优势:推理解码成本为DeepSeek的1/3,国产芯片推理效率达DeepSeek-R1的300%[8] - 开源策略:7月31日开源,打破"强模型不开源"局面,GitHub未发布已获107星[24][25][26] 技术创新与架构设计 - AFD分布式推理系统:将Attention与FNN拆解至独立子系统,解码效率优于DeepSeek EP方案[32][34] - MFA注意力机制:硬件感知低秩设计,KV缓存小于DeepSeek-V3,算术强度128平衡内存与算力[36][37][39] - 系统协同优化:32张Hopper GPU实现4039 tokens/GPU/s吞吐量,对比DeepSeek-V3(128张GPU)的2324 tokens/GPU/s[41] 商业化落地进展 - 终端智能Agent覆盖汽车、手机、IoT等领域: - 智能座舱实现人机共驾,吉利银河M9首发搭载端到端语音大模型[64][66] - 国内Top10手机厂商过半接入多模态能力,OPPO/荣耀/中兴旗舰机型已部署[69] - 2025年预计收入近10亿人民币,形成清晰商业化路径[74] 产业链协同生态 - 国产芯片适配:完整支持华为昇腾、沐曦、天数智芯等国产芯片运行[51][52] - 发起"模芯生态创新联盟":联合10家芯片及Infra厂商构建技术链路,成员包括华为昇腾、寒武纪等[54][55] - 模型-硬件协同设计:通过架构创新降低API依赖,推动可持续成本优化[50][58] 产品定位与市场策略 - "多开好省"四字诀:多模态、开源、高性能、低成本,重新定义推理模型价值标准[13][45] - 差异化竞争:避开参数竞赛,聚焦终端部署与产业落地,形成收入规模[73][76] - 长期主义定位:通过技术工程化能力构建产业线长跑优势,区别于短期SOTA追逐者[77][79]
Zebra-CoT:开创性视觉思维链数据集问世,多模态推理准确率提升13%
具身智能之心· 2025-07-24 17:53
背景 - 人类解决复杂问题时借助图表、草图等视觉辅助工具,训练多模态模型实现类似能力面临两大挑战:现有视觉思维链性能欠佳且缺乏高质量训练数据[3] - 前沿多模态模型在视觉思维链方面主要通过代理管道利用外部工具实现视觉编程,但具备交替生成文本和图像能力的模型存在生成无效推理辅助工具或缺乏多模态生成训练的问题[3] - 专门模型在特定场景展示视觉思维链能力,但通用高质量视觉思维链基础模型缺失,主因缺乏大规模多样化交替文本-图像推理训练数据集[3] 核心创新点 - 提出Zebra-CoT数据集,包含182,384个逻辑连贯的交替文本-图像推理轨迹样本,覆盖科学问题、2D/3D视觉推理、视觉逻辑与策略游戏四大类别[6] - 突破现有数据集单一任务限制和语义对齐弱的问题,按高质量文本推理数据集标准构建[6] 数据集构建 覆盖范围 - 科学推理:几何、物理、化学、算法问题等[9] - 2D视觉推理:视觉搜索、视觉拼图等[9] - 3D视觉推理:3D多跳目标计数、具身思维链、机器人规划[9] - 视觉逻辑与策略游戏:国际象棋、迷宫、俄罗斯方块等[9] 数据来源与处理 - 真实世界数据:从数学、物理、编程等领域在线资源获取并清洗含多模态的原始推理轨迹[10] - 合成数据:通过生成图像结合推理模板创建示例,利用视觉语言模型填充模板占位符增强推理轨迹多样性[10] 规模与分布 - 总量182,384样本,视觉逻辑与策略游戏占比最高达36.7%,2D视觉推理占28.5%,3D视觉推理占21.7%,科学推理占13.2%[12] - 子类别中国际象棋样本量最大(20,483,占11.2%),迷宫(20,000,11.0%)和俄罗斯方块(10,000,5.5%)次之[13] 模型微调与性能 - Anole-Zebra-CoT模型在分布内测试集准确率从4.2%提升至16.9%,相对提升4倍[14] - 在7个视觉推理基准测试中平均提升4.9%,视觉逻辑基准最高提升13.1%[14] - Bagel-Zebra-CoT模型微调后实现原生无法生成的交替文本-图像输出能力[15] 局限 - 合成数据依赖模板生成,文本推理多样性和表达性可能受限[18] - 部分子任务样本量小(几何0.6%、竞争编程0.7%),影响模型专项能力[18] - 模型在部分子任务上性能提升不显著甚至下降(如EMMA物理子任务)[18]
美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
量子位· 2025-07-21 12:23
多模态推理框架Metis-RISE - 美团研究者提出Metis-RISE混合训练框架,通过非传统顺序结合强化学习(RL)和监督微调(SFT)提升多模态大语言模型(MLLMs)推理能力 [1][2] - 框架核心策略:先通过RL激励模型探索潜在推理路径,再通过SFT针对性补足能力短板,最终生成7B和72B参数模型 [3] - 72B参数模型在OpenCompass多模态推理榜单平均得分56.6,整体排名第四,验证框架可扩展性和有效性 [3][13] 技术突破与创新 - 突破传统训练范式:省略冷启动SFT阶段,直接采用改进版GRPO算法进行RL训练,通过非对称裁剪和动态数据过滤避免无效探索 [4][6][7] - 两阶段训练机制: 1) RL阶段取消KL散度约束,采用token级策略损失和软过长惩罚,增强训练稳定性 [6] 2) SFT阶段通过自我蒸馏推理轨迹和专家增强知识注入,强化模型薄弱环节 [8] 模型性能表现 - 7B模型在≤10B参数类别中平均得分46.4,超越同类最优VLAA-Thinker-7B(42.5)和InternVL3-8B(41.4) [12] - 72B模型平均得分56.6,优于>10B参数类别的InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3),并超越部分专有模型如ChatGPT-4o(54.8) [13] - 消融实验显示RL阶段使7B模型平均分提升4.8(39.2→44.0),混合SFT进一步带来2.4分增益 [15][16] 技术细节与优化 - RL阶段准确率奖励与响应长度呈正相关,表明模型思维链逐渐清晰 [17] - SFT数据策略: - 对推理不一致的prompt采用自我蒸馏轨迹(正确性得分0-1) [8] - 对完全失败的prompt(得分0)引入外部专家生成解决方案 [8] - 基于Qwen2.5-VL系列开发,采用VLMEvalKit和OpenCompass进行基准测试 [9][10]
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 12:00
多模态推理算法PAPO的核心创新 - 提出专注于多模态推理的强化学习算法PAPO,通过隐式感知损失设计解决感知与推理脱节问题 [1][3] - 系统错误分析显示67%多模态推理错误源于视觉感知问题,而非逻辑推理能力 [6][7][9] - 在几何推理任务中,PAPO准确识别关键视觉特征(如30度角对应边),传统GRPO则关联错误 [14][15] 技术实现细节 - 创新隐式感知损失函数:要求模型在原始/损坏图像上输出显著差异分布 [18] - 采用KL散度最大化和感知信息增益比设计,目标函数J_PAPO=J_GRPO+γ·KL_prcp [19][20][21] - 随机遮盖补丁策略优于语义感知遮盖,遮盖比例0.6-0.8时效果最佳 [24][38] 性能提升表现 - 8个基准测试显示整体平均提升4.4%,高视觉依赖任务提升8.0%,感知错误减少30.5% [26] - 3B模型在LogicVista任务从38.14%提升至39.84%,7B模型在Counting任务从73.94%跃升至82.38% [26] - 训练动态更优:25步即显现提升,避免奖励不稳定问题,改进效果持续增强 [28][29] 技术优化与挑战 - 双重熵损失设计有效防止KL_prcp Hacking现象(γ>0.02时易发生崩溃) [45][46][47] - 与移除ReferenceKL约束的组合实现协同效应,7B模型在高视觉任务再提升7.96% [33][34] - 视觉依赖性分级验证:高依赖任务改进最显著(近8%),低依赖任务仍保持稳定提升 [53][54] 实际应用案例 - 几何计算:PAPO准确识别三角形短边关系(GRPO错误关联60度角边) [14][57] - 物体计数:PAPO正确区分并统计多类物体(GRPO感知错误) [8][64] - 多图推理:PAPO精准识别子图特征并完成逻辑推导(GRPO视觉推理错误) [63] 资源开放 - 模型、数据及代码已在GitHub、HuggingFace等平台开源 [5][65]
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发,在MathVista数学推理测评中排名第一,核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重,抑制低质量数据影响,强化高信息密度数据域贡献,实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题,通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题,下层在15个训练域上进行PRM参数训练,上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环:高质量推理数据域权重提升(如M3CoT达1.49),简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计,使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%,显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先:MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型,小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成,在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升,从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法,验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》,已在arXiv发布[7] - 代码开源在GitHub平台,项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%,在高难度数学推理任务表现尤为突出[22]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
机器之心· 2025-06-18 14:09
当前AI机器人技术瓶颈 - 现有机器人无法实现人类直觉式工具使用,每次交互都需重新认知工具[2] - 主流多模态模块融合范式存在表征瓶颈,跨模态信息传递导致关键细节丢失[6][7] - 模块化设计阻碍物理世界因果规律学习,无法实现整体性具身理解[8] 统一架构革命性方案 - 主张端到端统一架构,消解视觉/语言/行动边界为单一信息流[4][10] - 核心是将所有模态转换为共享高维token序列,实现跨模态无损交互[11][12] - 采用多任务多模态生成监督机制,强制建立深层跨模态对应关系[12] 涌现的具身多模态能力 - 符号-空间推理:二维图形解构→字母组合理解→三维物理操作同步完成[17][18] - 物理空间推理:在潜在空间直接推演重力约束/结构稳定性/操作因果链[19][20] - 自主探索能力:整合视觉/记忆/常识构建连贯推理链条实现环境交互[22][23] - 视频学习能力:从人类操作视频推断深层意图并自主执行协作任务[26][27] 范式转换的本质特征 - 实现感知/推理/行动并行融合处理,替代传统串行模块化流程[30][31] - 统一表征空间使机器人能同时处理物理属性/任务作用/空间约束/动作规划[31] - 架构突破使跨模态因果推理和通用操作能力自然涌现[32][34]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 13:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-09 12:23
多模态大模型技术发展 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V,基于DreamLLM框架实现图文生成理解一体化 [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱、图文对齐不精确、数据质量有限、生成模块无法反向影响理解模块 [3] 模型规模与能力关系 - 模型参数扩展到万亿级别时出现能力分化:文本生成和知识问答增强,但数学推理能力随规模增长反而下降 [3] - 大模型推理能力下降的核心原因是next token prediction框架更关注压缩率而非推理精度,导致思维跳步现象 [4][37] - Rule-based RL可通过直接优化任务目标来抑制跳步、强化稳定思维路径,显著提升大模型推理能力 [4] 计算机视觉领域挑战 - CV领域难以仅靠视觉数据实现GPT时刻,因静态图像数据中生成、理解与人类对齐三者割裂 [23] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性,因依赖人工设计的不变性而非数据驱动 [15][16] - 视频数据可能成为突破口,因其蕴含更丰富的时空信息和自然对齐关系 [24] 生成理解一体化难题 - 语言模型通过next token prediction天然实现生成理解一体化,但该范式在多模态领域效果有限 [17] - 实验显示外挂生成模块对理解性能无影响,生成模块可控性差,常产生违反物理常识的输出 [29][31] - 复杂度问题是核心障碍:视觉生成需要考虑的因素远超单步推理能力上限 [52] o1范式突破 - o1范式通过引入Meta CoT实现思维链网状结构,允许模型在关键节点反悔重试 [5] - 该范式成功关键在于预训练语料中已存在多样化思维pattern,RL仅需强化而非创造 [51] - 相比传统RL,语言模型预训练大幅压缩action space,使复杂问题可解 [45] 多模态发展路径 - 短期解决方案是利用图文对齐数据,通过语言模态带动视觉智能 [24] - 长期需突破视频数据利用难题,教学视频中的教学行为可提供丰富action space [63] - 高可控生成技术突破将解开生成与推理的相互依赖死锁,目前OpenAI 4o已展现显著进展 [63][64] 模型架构演进 - 当前transformer架构处理long context存在根本缺陷,需建立分层记忆系统 [67] - multi-agent协作架构可有效解决上下文干扰问题,实现情景隔离式推理 [70] - 架构设计应服务于算法需求,如FFA算法可能彻底改变现有训练范式 [74] 自主学习方向 - 当前rule-based RL面临environment scaling瓶颈,需建立内生学习机制 [76] - 从自然语言反馈中提取多维评价信息是实现自主学习的关键技术难点 [78] - 无限长上下文建模和动态环境交互能力是自主智能体的基础要求 [79]