Workflow
多模态推理
icon
搜索文档
中金 | AI智道(9):多模态推理技术突破,向车端场景延伸
中金点睛· 2025-06-03 07:45
多模态推理技术进展 - 2025年3月Google发布Gemini 2.5模型,原生支持文本、图像、音频、视频、代码库等多模态输入,并在LMArena排行榜超越GPT-4.5和Claude 3.7 [1][2] - 2025年4月阶跃星辰发布多模态推理模型Step-R1-V-Mini,商汤发布SenseNova V6模型,后者实现10分钟长视频理解能力 [2] - 2025年5月MiniMax开源视觉RL统一框架V-Triune,使VLM掌握视觉推理和感知的统一能力 [2] 技术架构创新 - MiniMax V-Triune框架采用三层组件架构:多模态样本数据格式化、异步客户端-服务器架构的验证器奖励计算、数据源级指标监控 [3] - 通过动态IoU奖励机制和冻结ViT参数等优化,Orsta 32B模型在MEGA-Bench Core基准测试性能提升14.1% [3][6] - 商汤SenseNova V6采用多模态长思维链构建、多模态强化学习和多模态全局记忆技术创新 [2] 智能驾驶应用 - 蔚来NVM世界模型具备全量理解、想象重构和推理能力,在ETC车道通行和停车场寻路等场景性能显著提升 [3][7] - 理想自研VLA大模型通过多模态推理模拟人类驾驶员思维运作方式 [3] - 多模态推理技术可增强道路交通标志识别判断能力,提升复杂场景泛化性 [3] 性能对比 - Orsta 7B模型在MEGA-Bench Core测试中相比骨干模型提升3.2个百分点 [6] - Orsta 32B模型在知识、数学、感知等多项指标上实现5.9-20.2个百分点的提升 [6] - 在32B+模型对比中,Orsta 32B-0326版本相比骨干模型在核心指标提升2.1个百分点 [6]
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 11:30
核心观点 - 研究发现监督微调(SFT)在多模态推理中可能阻碍学习,导致伪推理路径,而强化学习(RL)则促进真正的多模态推理 [3][9] - 传统两阶段训练范式(SFT+RL)在视觉语言模型(LVLM)中可能导致性能下降,7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势,VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一,以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking,包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条,SFT分支包含多模态思维链样本,RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段:元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能,但在增强复杂推理方面能力欠缺,可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降,且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令,但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色,GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架,包含五种可验证的奖励类型,涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容,在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差,平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大,Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性,SFT模型虽能获得更高初始奖励和更长响应,但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限",但可能会降低"上限",限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳,说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 12:58
EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷,即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务,要求模型必须同时深度依赖视觉和文本信息才能解决问题,突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括:思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%,显著高于所有模型,其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先,开源模型Qwen2-VL-72B-Instruct达37.25%,均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%),但在化学领域仅33%,显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题,其中1,796个为专家新构建,覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制,排除仅凭文本或简单图文描述可解决的问题,确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等),支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%,显著高于感知错误(30.19%)和文本推理错误,成为核心瓶颈[21] - 模型依赖结构化文本步骤推理,缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足,且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力,实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式,建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集),加速技术迭代[4]
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
量子位· 2025-05-14 14:07
模型性能表现 - 在60个主流基准测试中拿下38项第一,包括19项视频基准测试中的14项和7项GUI智能体任务中的3项 [1][32] - 在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色 [3] - 在GUI界面操作和游戏场景中显著优于OpenAI的CUA和Claude 3.7等模型 [10][34] - 在内部测试中尤其在视觉推理、文档理解、3D空间理解等方面表现出色 [36] 模型架构 - 由532M视觉编码器+200亿活跃参数组成 [1][12] - 核心组件包括SeedViT(图像视频编码)、MLP适配器(视觉特征投射)和大语言模型(多模态输入推理) [13] - 支持多种分辨率图像输入并通过原生分辨率变换保留细节 [14] - 视频处理采用动态帧分辨率采样策略 [14] - 引入时间戳标记增强时间信息感知能力 [15] 训练方法 - 使用3万亿个多样化高质量多模态标注数据 [18] - 预训练分为三个阶段:MLP适配器对齐、视觉定位OCR能力掌握、视频理解和复杂推理任务适应 [19] - 后训练采用监督微调和强化学习技术,包括高质量指令数据微调和PPO算法训练 [24][25] - 开发混合并行化、工作负载平衡等优化技术提高训练吞吐量并降低成本 [30][35] 实测表现 - 能准确识别图像中物体数量,如区分黑猫和影子 [4] - 能处理长度惊人、中英混杂的消费小票并转换为表格 [8] - 在"看图找地理位置"测试中表现接近行业领先水平,误差在160-440公里 [39][40][41] 行业影响 - 该轻量级模型以较小参数量达到行业顶尖水平 [1] - 在多项任务上超越OpenAI、Claude等主流模型 [32][34][36] - 技术报告和模型已公开,可在Hugging Face在线体验 [2][42]
昆仑万维:一季度营收大幅增长46% AI算力芯片取得突破性进展
证券时报网· 2025-04-29 10:00
财务表现 - 2025年一季度公司实现营业收入17.6亿元,同比增长46% [1] - 研发费用4.3亿元,同比增长23% [1] - AI音乐年化流水收入ARR达1200万美金(月流水100万美金),短剧平台Dramawave年化流水ARR达1.2亿美金(月流水1000万美金) [1] - 海外业务收入16.7亿元,同比增长56%,占营收比重提升至94% [1] - Opera收入同比增长41% [4] AI技术突破 - 多模态推理模型Skywork R1V达到开源SOTA水平 [2] - 视频生成领域SkyReels-V1模型与SkyReels-A1算法位居全球领先,后者实现技术突破性SOTA [2] - AI音乐领域Mureka V6与全球首款融合CoT技术的Mureka O1形成组合优势,Mureka O1登顶行业SOTA [2] AI算力芯片进展 - 控股AI算力芯片企业北京艾捷科芯,完成"算力基础设施—大模型算法—AI应用"全产业链布局 [3] - 攻克多项核心技术难关,整体研发进度过半,向量产迈进 [3] - 艾捷科芯员工数量接近200名,覆盖芯片设计、算法研发、系统集成等专业领域 [3] AI产品规划 - 计划2025年5月中旬在海外发布全球首款生产力场景通用Agent平台Skywork.ai [3] - Skywork.ai包含五大专家级AI Agent,覆盖专业文档、数据表格、演示文稿、播客及网页内容优化 [3] - 支持跨模态内容创作,可高效生成MV、宣传片、有声读物、互动绘本等多媒体内容 [3] 业务战略 - 全球化战略成效显著,国际化布局持续深化 [1] - 未来将持续推进AI算力芯片研发及AI应用矩阵落地 [4]
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
平安证券· 2025-04-17 21:10
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力,全球大模型领域竞争激烈,看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前,AI应用关注OA/ERP/编程/办公等领域,Agent拉动推理端及整体算力需求,看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力,Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini,是其迄今最智能模型,核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型,在多方面推动前沿发展,在多个基准设新SOTA,困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化,在数学、编码和视觉任务表现好,非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面,o3和o4 - mini首次在思维链中用图像思考,实现高级推理与多工具无缝结合,o3提供多模态代理体验 [9] - Agent方面,o3和o4 - mini可访问ChatGPT工具及自定义工具,能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身,预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI,支持零配置启动,运行安全,可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品,推理模型性能达或接近全球第一梯队,增加视觉理解能力,APP可“边想边搜” [3][17] - 多模态方面,豆包·文生图模型3.0在权威榜单排全球第一梯队,新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面,发布OS Agent、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍、发布时的106倍,2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数20B,有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”,如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力,可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用,复杂应用可调用豆包1.5·UI - TARS模型,该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测,能提高KV cache命中率和TPS吞吐量,降低GPU消耗 [33] 投资建议 - AI应用方面,AI + 企服建议关注泛微网络、致远互联等;AI + 办公推荐金山办公、福昕软件等,建议关注合合信息 [3][34] - AI算力方面,推荐海光信息、龙芯中科等,建议关注寒武纪、景嘉微等 [3][34]
阶跃星辰发布多模态推理模型Step-R1-V-Mini
快讯· 2025-04-08 20:30
公司产品发布 - 阶跃星辰正式发布多模态推理模型Step-R1-V-Mini [1] - 模型支持图文输入和文字输出 [1] - 具备良好的指令遵循和通用能力 [1] - 能够高精度感知图像并完成复杂推理任务 [1]