多模态推理模型 - 财报，业绩电话会，研报，新闻

多模态推理模型

搜索文档

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

量子位· 2025-09-05 18:56

模型性能表现 - 在Video-MME短视频基准测试中获得73.0分 [6] - 在OpenCompass综合基准测试中获得79.5分，超越Qwen2.5-VL 7B模型的70.9分 [19][20] - 在MMBench基准测试中获得92.0分，显著高于Qwen2.5-VL 7B的82.2分和GPT-40的86.0分 [19][20] - 在AI2D图像推理数据集获得89.5分，领先同级模型 [20] - 在OCRBench测试中获得86.6分，表现优异 [20] - 在Video-MME视频理解测试中获得73.0分，领先Qwen2.5-VL 7B的65.1分 [21][23] - 在MathVistaMINI数学视觉测试中获得81.2分，显著超越GPT-40的63.8分 [23] - 内部评测中在五项人类标注指标上获得3.53分综合成绩，较预览版本提升0.51分 [24][25] 技术创新特点 - 采用Slow-Fast双路编码机制，实现128k超长上下文窗口 [5][8] - 具备0.1秒级时序定位能力，能精确识别视频中特定物品出现时间点 [8][10] - 支持跨模态推理，能根据视频内容推断事件发生原因 [4][15] - 采用ViT+MLP投影器+语言解码器三段式架构 [27] - 视觉编码器继承SigLIP-400M参数，具备语义对齐能力 [29] - 引入2DRoPE和3DRoPE位置编码技术，支持高分辨率外推和时序排序 [29][31] - 通过四阶段渐进式预训练流程，使用超过1万亿token训练语料 [37][39][41] 应用场景与业务价值 - 为短视频内容审核、智能剪辑、搜索与互动推荐等业务场景提供底层AI能力 [69] - 在26秒带货视频分析中准确识别产品出现时间点（22.3-23.8秒） [11][12] - 能够详细描述视频画面场景和细节，具备强大的视频理解能力 [14][15] - 多模态技术已应用于千万级日常场景，验证了复杂视频理解的工程化可行性 [69] 研究成果与行业影响 - 团队在ICML 2025提出多模态RLHF框架MM-RLHF，通过120k人类偏好数据提升模型安全性 [51] - 在KDD 2025获得最佳论文提名的VLM as Policy框架，显著提高短视频审核效率与准确率 [54][55] - CVPR 2025发布交错图文多模态数据集CoMM和视觉token压缩加速算法LibraMerging [57][58][60] - ICLR 2025展示MoE模型优化算法STGC、视频对话理解基准SVBench和视觉任务指令数据集TaskGalaxy [61][62][65][67]

中国基金报· 2025-07-26 16:44

新一代基础大模型Step3 - 公司正式推出新一代基础大模型Step3，将于7月31日面向全球企业和开发者开源 [2][3] - Step3定位为多模态推理模型，兼顾智能与效率，目标成为开源领域最强的多模态推理模型 [3] - 在国产芯片上推理效率最高可达DeepSeek-R1的300%，且对所有芯片架构友好 [3] - 基于NVIDIA Hopper架构芯片实测显示，Step3推理吞吐量较DeepSeek-R1提升超70% [4] - 华为昇腾芯片已率先实现Step3搭载运行，沐曦/天数智芯/燧原科技等厂商初步完成适配 [13] 上海国资战略合作 - 公司与上海国投达成深度战略合作，涉及资本链接、生态建设、业务协同等方向 [6] - 上海国投注册资本100亿元，为上海市国资委直接监管的大型国有资本投资平台 [9] - 上海国投旗下生态公司将参与公司最新一轮融资 [9] - 上海市政府表态支持AI初创企业技术升级，将强化算力/语料/场景/资金等要素保障 [2] 商业化进展与目标 - 超50%国产手机厂商已与公司达成合作 [9] - 与吉利汽车合作实现行业首个端到端语音大模型智能座舱落地 [9] - 与千里科技合作开发新一代智能座舱解决方案 [9] - 基于2025年上半年高速增长，公司目标2025年全年营收达10亿元 [9] 模芯生态创新联盟 - 联合华为昇腾/沐曦/壁仞科技/燧原科技等近10家芯片厂商成立联盟 [11] - 联盟旨在通过芯片-模型-平台全链路协同创新，提升大模型适配性和算力效率 [11][13] - 目标为企业和开发者提供高效易用的大模型解决方案，加速应用场景落地 [13]

中国基金报· 2025-07-26 16:31

新一代基础大模型Step 3 - 公司正式推出新一代基础大模型Step 3，将在7月31日面向全球企业和开发者开源 [1] - Step 3兼顾智能与效率，旨在面向推理时代打造最适合应用的模型，为开源世界贡献最强的多模态推理模型 [1] - Step 3在国产芯片上的推理效率最高可达DeepSeek-R1的300%，且对所有芯片友好 [2] - 在基于NVIDIA Hopper架构的芯片进行分布式推理时，Step 3相较DeepSeek-R1的吞吐量提升超70% [4] 上海国资深度合作 - 公司与上海国投达成深度战略合作，围绕资本链接、生态建设、业务协同、应用赋能等方面加强合作 [7] - 上海国投是上海市国资委出资并直接监管的大型国有资本投资平台公司，注册资本达100亿元 [8] - 上海国投旗下生态体系公司将参与公司最新一轮融资 [9] 商业化进展与目标 - 超过一半的国产手机厂商与公司达成合作 [10] - 公司与吉利汽车合作智能座舱，实现行业首个端到端的语音大模型上车 [10] - 公司与千里科技合作打造新一代智能座舱 [10] - 公司基于2025年上半年的高速增长，将冲刺2025年全年营业收入10亿元的目标 [10] 模芯生态创新联盟 - 公司联合近10家芯片及基础设施厂商发起成立模芯生态创新联盟，首批成员包括华为昇腾、沐曦、壁仞科技等 [14] - 华为昇腾的芯片首先实现Step 3的搭载和运行，沐曦、天数智芯和燧原科技等芯片厂商初步实现Step 3的运行 [15] - 联盟的成立将为企业和开发者提供高效、易用的大模型解决方案，加速应用落地 [15] 行业趋势与挑战 - 基础大模型的研发步入深水区，模型厂商和芯片厂商通过联合技术创新，让大模型和算力实现双向价值最大化 [2] - 面向推理时代降低推理成本是提升大模型应用渗透率的关键问题，核心是提升算力的应用效率 [15] - API价格战带来的普及只能形成短期效应，要彻底推动AI技术惠民需要发展可持续模式 [16]

阶跃星辰发布新一代基模 Step 3，原生多模态推理模型，性能达到开源 SOTA

Founder Park· 2025-07-26 12:53

新一代基模Step 3发布 - 阶跃星辰在WAIC 2025期间发布新一代基础大模型Step 3，该模型兼顾智能与效率，旨在面向推理时代打造最适合应用的模型 [3] - Step 3将于7月31日面向全球企业和开发者开源，为开源世界贡献最强多模态推理模型 [3][20] - Step 3是阶跃星辰首个全尺寸、原生多模态推理模型，采用MoE架构，总参数量321B，激活参数量38B [9] Step 3技术特性 - Step 3具备强智能、低成本、可开源和多模态四个特征，专为追求性能与成本极致均衡的企业和开发者设计 [8] - 模型拥有强大的视觉感知和复杂推理能力，可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析 [9] - 在MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench等榜单上取得开源多模态推理模型的SOTA成绩 [16] 推理效率与成本优化 - Step 3通过系统架构创新实现行业领先的推理解码效率，在国产芯片上的推理效率最高可达DeepSeek-R1的300% [18] - 在NVIDIA Hopper架构芯片上进行分布式推理时，实测Step 3相较于DeepSeek-R1的吞吐量提升超70% [18] - 模型已授权国内多家芯片公司并完成适配，同时将通过开源技术报告分享降低推理成本的系统架构创新 [20] 模芯生态创新联盟 - 阶跃星辰联合近10家芯片及基础设施厂商发起"模芯生态创新联盟"，首批成员包括华为昇腾、沐曦、壁仞科技等 [22] - 联盟致力于打通芯片、模型和平台全链路技术，提升大模型适配性和算力效率 [22] - 华为昇腾芯片已实现Step 3的搭载和运行，沐曦、天数智芯和燧原等也已初步实现运行Step 3 [22] 战略合作与应用落地 - 阶跃星辰与上海国有资本投资有限公司达成深度战略合作，将围绕资本链接、生态建设等方面进行全面合作 [6][22] - 公司战略性聚焦智能终端Agent方向，已覆盖国内超过一半头部国产手机厂商，并与吉利联合推出AI智能座舱 [23] - 积极拓展金融财经、内容创作、零售等垂直行业应用，与行业头部公司深度合作打造面向C端的场景化应用体验 [23] 1+N模型矩阵 - 阶跃星辰构建"1+N"的Step系列大模型矩阵，"1"指Step 3基础大模型，"N"为多模态大模型矩阵 [20] - 在WAIC期间升级多模态模型，包括多模理解生成一体化模型Step 3o Vision和第二代端到端语音大模型Step-Audio 2 [21] - 所有模型可在"阶跃AI"官网和App进行体验 [21]

大模型

多模态推理模型

Artificial Intelligence

Artificial Intelligence

Step 3

Step 3o Vision

Step - Audio 2

斯坦福最新！大模型的幻觉分析：沉迷思考=真相消失？

自动驾驶之心· 2025-06-19 18:47

多模态推理模型的核心问题 - 推理能力增强会导致视觉注意力下降，产生更多幻觉，表现为过度依赖语言常识而忽略视觉证据 [3][5][14] - 推理链长度与幻觉率呈正相关，模型在长推理时对图像token关注度暴跌，转向指令词 [19][21][23] - 70亿参数模型比30亿参数模型表现更好，RH-AUC分数更高（0.63 vs 0.53），显示规模效应缓解幻觉 [34][39] 训练方法对比 - 纯强化学习（RL-only）模型比监督微调+强化学习（SFT+RL）模型RH-AUC更高（如Ocean-R1-7B 0.63 vs OpenVLThinker 0.54），因后者易陷入机械模仿 [34][35][40] - SFT+RL训练导致僵化推理路径，例如将"系鞋带动作"误判为"已完成"，而RL-only模型更关注实时视觉细节 [11][35] - 数据质量优于数量，分阶段投喂专精数据（如Ocean-R1）比混合数据（R1-OneVision）效果更佳 [40][42] 评估体系创新 - RH-Bench基准包含1000道题（500推理+500感知），涵盖数学、视觉判断等任务，经人工审核确保严谨性 [30][32] - RH-AUC指标动态评估推理长度与准确率关系，通过曲线下面积量化平衡能力，解决传统静态指标局限 [24][31][33] - 任务类型决定最佳推理长度：数学题需400-600Token，视觉题需100-300Token，显示灵活策略必要性 [28][31] 注意力机制缺陷 - 推理模型视觉注意力热力图显示"散光"现象，关注区域分散且偏向指令词，而非推理模型则聚焦关键物体 [18][21] - 过度推理时图像token关注度下降50%以上，语言先验依赖度显著上升，导致视觉误判 [21][22][23] - 两种典型幻觉模式：视觉误识别型（漏看细节）和推理偏倚型（语言常识覆盖视觉证据） [13][14] 未来技术方向 - 需验证结论在LLaVA、Flamingo等架构的泛化性，当前实验仅基于Qwen2.5-VL backbone [43] - 潜在状态控制等动态长度调节技术可优化推理-感知平衡，但需结合任务类型定制策略 [24][27] - 训练数据因果性实验待开展，现有结论为观察性分析，未控制变量 [43][44]