多模态大模型 - 财报，业绩电话会，研报，新闻

多模态大模型

搜索文档

Z Tech｜全球领先的多模态大模型VAST顶薪招募，定义未来十年的技术范式

Z Potentials· 2025-07-08 10:50

招聘信息 - 公司正在招募新一期的实习生 [2] - 公司正在寻找有创造力的00后创业者 [4] 公司介绍 - 公司名称为Z Potentials [5]

多模态大模型

Artificial Intelligence

多模态大模型VAST

多模态大模型

Artificial Intelligence

多模态大模型VAST

复杂空间指令也能秒懂？RoboRefer 让机器人理解推理空间，开放世界也能精准行动！

机器之心· 2025-07-06 14:06

机器人空间指代技术突破 - 现实环境复杂多变，机器人需应对杂乱无序、物体种类繁多的场景，远超实验室可控环境[2] - 空间指代任务要求机器人理解"最远""第二列""等间距"等空间关系，动态定位交互目标[3][5] - 当前多模态大模型难以准确理解三维场景并动态推理交互位置，存在单步空间理解和多步空间推理两大挑战[6] RoboRefer模型核心能力 - 采用全参数微调(SFT)实现89.6%空间理解成功率，强化学习微调(RFT)在RefSpatial-Bench基准上超越Gemini-2.5-Pro达17.4%[8][22] - 集成独立图像编码器和深度图编码器，支持定量(物体距离)和定性(方位判断)空间问答[12] - 突破性实现多空间关系组合推理，如准确定位"笔筒与键盘中间且水瓶logo正对"的位置[13] 技术创新路径 - SFT阶段引入深度编码器增强三维感知，RFT阶段采用GRPO强化学习结合过程奖励函数提升泛化能力[15][17] - 创新设计过程奖励函数监控中间推理质量，显著提升多步指代任务精度[17] - 模型可集成至UR5机械臂、G1仿人机器人等平台，实现真实场景精准执行[9] RefSpatial数据集特性 - 包含250万样本、2000万问答对，规模达同类数据集两倍[20] - 标注31种空间关系(行业最高15种)，支持5步复杂推理链[20] - 覆盖室内外多场景，通过层级描述确保复杂环境下的表述清晰度[20] 性能基准对比 - RoboRefer-8B-SFT在CV-Bench达到98.33%准确率，显著领先GPT-4o(86.50%)和Gemini-2.5-Pro(91.00%)[21] - RGB-D输入模式下，2B-SFT版本在RoboSpatial任务取得82%成功率，超越专用模型SpatialBot-3B(63.33%)[21] - 在Where2Place基准上，RFT版本以71%准确率大幅领先Gemini-2.5-Pro(11.8%)[23]

以玩促学？游戏代码驱动数据合成，提升多模态大模型通用推理

机器之心· 2025-07-04 16:59

核心观点 - 游戏代码可自动合成视觉推理数据，提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势：规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对，覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建：LLM自动生成完整游戏逻辑（如推箱子） [13] - QA模板设计：从代码提取推理模式并设计任务模板 [14] - 数据引擎构建：自动化生成问答实例且保证正确性 [15] - 数据集特点：细粒度难度控制（Easy/Medium/Hard三级） [20] - 对比实验：5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%，Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%，仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%，超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板，易混淆物体高度关系 [42] - 非网格化场景（如祖玛）中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足，缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%，文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-03 21:36

职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究：设计实现领先的具身多模态大模型突破现有VLA框架构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关：主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划：构建可泛化高效率的具身智能基座模型支撑未来1-3年技术演进探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设：与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景：需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验：需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力：需掌握3D计算机视觉/几何学/空间推理熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力：需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文或相关竞赛获奖具备跨学科整合能力 [7] 加分项 - 技术基础：精通Python/PyTorch框架具备大规模数据处理与高效模型训练能力 [10] - 专项经验：有World Model理论研究亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献：在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主少量上海职位 [9]

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025

量子位· 2025-07-03 17:00

多模态大模型在移动端的部署挑战与解决方案 - 当前端侧多模态大模型(MLLM)面临纯语言任务性能下降超10%的问题，尤其在MATH、AlignBench和MT-Bench测试中表现明显 [4] - 手机NPU平台尚不支持MoE架构部署，包括联发科天玑9400和高通骁龙8 Elite在内的旗舰SoC均存在此限制 [7] - vivo AI研究院联合学术团队提出GenieBlue方案，通过冻结原始LLM参数并引入复制Transformer层+LoRA模块解决上述问题 [2] GenieBlue核心技术突破 - 采用不共享基座的推理策略，在骁龙8 Elite芯片上实现流畅运行，完全保留原始纯语言性能 [3] - 通过1/4层复制Transformer+LoRA模块设计，多模态性能达到全量微调的96%以上 [18] - 相比CogVLM-Skip方法，GenieBlue-Skip在多模态任务平均表现提升1-2个百分点 [23] 训练数据与模型结构优化 - 实验显示增加200万纯文本数据对多模态能力无显著影响，但能部分恢复客观NLP任务性能 [11][12] - 全量微调导致纯文本任务性能下降22-36%，而LoRA和CogVLM方法可保持90%以上原始能力 [17] - 在BlueLM-3B模型上，GenieBlue-Skip结构实现98.99%多模态性能保留率 [23] 部署效果验证 - 在MMBench等9项多模态测试中，GenieBlue(3.2B)表现优于InternVL2-8B(8B) [32] - 采用不共基座部署策略实现100%原始语言能力保留，显著优于Qwen2.5VL-3B的92.98% [34] - 在骁龙8 Elite平台实现30token/s推理速度，模型加载时间仅增加15% [35]

ICML 2025 Oral工作再升级！上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

机器之心· 2025-07-03 11:26

背景介绍 - 旋转位置编码（RoPE）及其变体在长上下文处理中广泛应用，但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性，这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER，其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系，包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V，仅在低频时间轴插值并保持空间维度稳定性，实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配（LTA）减少振荡确保鲁棒性，对角布局（DL）保持空间对称性，可调时间间隔（ATS）控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模，M-RoPE采用3D结构但引入不同帧间视觉标记索引差异，VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中，空间信息具有局部性和周期性，时间信息跨越更长范围，YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比，VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体，Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上，VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上，YaRN-V以81.33分显著领先，较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐，避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准：2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]

谷歌推出Gemini Robotics On-Device 大模型，快手开源 keye-VL 多模态模型：AI 动态汇总

中邮证券· 2025-07-02 21:08

根据提供的研报内容，以下是量化模型与因子的详细总结：量化模型与构建方式 1. **模型名称**：Gemini Robotics On-Device - **模型构建思路**：基于Gemini 2.0架构开发，实现多模态大模型在机器人设备上的完全本地化运行，无需依赖云端计算[12] - **模型具体构建过程**： - 深度融合视觉感知、自然语言理解和动作规划三大模块 - 通过端到端的多模态神经网络训练，将文本、图像输入映射为机械控制信号 - 采用三级安全机制（实时碰撞检测、伦理约束层和硬件级动作限制）保障人机协作安全[13] - 提供Gemini Robotics SDK和MuJoCo物理模拟器工具链，支持开发者通过少量样本微调适配新任务[16] 2. **模型名称**：Kwai Keye-VL - **模型构建思路**：基于Qwen3-8B语言模型架构，融合SigLIP初始化的视觉编码器，实现文本、图像和视频信息的统一处理[17] - **模型具体构建过程**： - 采用3D RoPE（旋转位置编码）技术捕捉视频时序变化与动态分辨率输入 - 预训练阶段使用600B规模的多模态数据集，通过四阶段优化策略构建基座能力[18] - 后训练阶段通过两阶段微调实现推理能力跃升，采用GRPO算法进行混合强化学习[18] 3. **模型名称**：Gemini CLI - **模型构建思路**：将Gemini 2.5 Pro模型的百亿级参数能力嵌入终端环境，通过自然语言交互重构开发者工作流[25] - **模型具体构建过程**： - 基于ReAct（Reason and Act）工作循环设计，实现多模态推理与工具调用的动态协同 - 支持MCP（Model Context Protocol）扩展层，允许接入第三方服务如Imagen图像生成或Veo视频合成[27] - 采用沙盒执行与影子提交双重安全机制，所有文件修改前自动创建Git检查点[29] 4. **模型名称**：Mu - **模型构建思路**：专为Windows 11系统设计的小型语言模型，实现与参数量十倍的Phi-3.5-mini相当的性能表现[44] - **模型具体构建过程**： - 采用编码器-解码器架构与NPU深度协同设计 - 通过双重层归一化（Pre- and Post-LN）、旋转位置嵌入（RoPE）和分组查询注意力（GQA）优化性能[47] - 训练阶段先在数千亿高质量教育token上预训练，再通过知识蒸馏从Phi模型中提取核心能力[47] 5. **模型名称**：子曰3（Confucius3-Math） - **模型构建思路**：专注于K12数学教育的开源推理模型，通过轻量化架构与增强学习优化实现低成本高性能[53] - **模型具体构建过程**： - 采用符号运算加速器设计，解几何题时辅助线生成速度提升3倍 - 通过Policy-Specific Hardness Weighting技术动态调整训练样本权重[54] - 训练数据整合100万+师生互动记录，使解题逻辑更贴合教学大纲[54] 模型的回测效果 1. **Gemini Robotics On-Device** - 在未训练情境下的任务完成率达81%[13] - 器械识别准确率超过95%[16] 2. **Kwai Keye-VL** - 在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B[21] - 内部短视频场景测试中综合得分领先业界10%以上[21] 3. **Gemini CLI** - GitHub上线48小时内斩获3万星标[28] - 每分钟60次请求、每日1000次调用的免费额度[28] 4. **Mu** - 在Windows设置代理任务中达到500毫秒内的响应延迟，准确率接近Phi-3.5-mini的81%[47] - 解码速度提升4.7倍，首token延迟降低47%[47] 5. **子曰3** - 在GAOKAO-Bench（Math）成绩达到98.5分[53] - 推理成本压缩至每百万token仅0.15美元[53] 量化因子与构建方式（注：研报中未明确提及量化因子的构建，此部分暂缺）因子的回测效果（注：研报中未明确提及量化因子的测试结果，此部分暂缺）

机器之心· 2025-07-02 08:54

通用视觉模型（VGM）研究背景 - 通用视觉模型（VGM）曾是计算机视觉领域的研究热点，旨在构建统一架构处理图像、点云、视频等多种模态输入及分类、检测、分割等多样化任务，目标是实现「视觉模型大一统」[1] - 随着大语言模型（LLM）的兴起，多模态大模型成为新趋势，视觉被视作语言模型的输入模态之一，其独立性被重新定义，传统VGM研究面临边缘化风险[1] - 视觉数据具有结构化强、空间信息丰富等优势，但存在模态间差异大、难替代的挑战，如2D图像、3D点云和视频流的统一处理问题在当前多模态范式中未充分解决[1] VGM的核心能力与价值 - VGM通过广泛预训练和共享表示实现跨任务零样本迁移，无需为单一任务专门调整，解决了传统视觉模型任务专用化的局限性[7] - VGM具备多模态输入统一处理能力，能将图像、点云、视频等映射到共享特征空间，同时支持多任务并行处理（如图像识别与视频分析）[7][8] - 清华大学团队在IJCV发表的综述系统梳理了VGM研究进展，涵盖输入统一方法、任务通用策略等，为未来视觉模型发展提供参考[2] VGM的技术实现框架 - 编码式框架通过共享特征空间统一输入模态，使用Transformer编码不同数据（如图像、文本），最终生成统一输出[12] - 序列到序列框架借鉴NLP方法，将可变长度输入（如视频）转换为固定表示，适用于图像生成等任务[13] - 多任务学习、视觉-语言学习等技术被用于扩充VGM知识边界，相关领域研究为模型设计提供技术补充[13] VGM的数据与评测体系 - 训练采用大规模多模态数据集（图像/视频/点云），任务分为图像、几何、时间序列等四类，评测注重跨任务泛化能力[9] - 研究对比了主流VGM在22个基准数据集的表现，但未披露具体数据指标[14] VGM的挑战与未来方向 - 当前面临统一框架设计优化、训练效率提升和大规模数据处理等挑战，数据标注仍是发展瓶颈[16] - 自动化标注技术和大规模无监督学习将成为研究重点，需解决模型偏见、公平性等伦理问题[16] - 应用潜力覆盖智能监控、自动驾驶等领域，可扩展至视觉问答、图像-文本检索等复杂任务[16]

通用视觉模型

多模态大模型

大语言模型（LLM）

Artificial Intelligence

通用视觉模型（Vision Generalist Model

Artificial Intelligence

通用视觉模型（Vision Generalist Model

VGM）

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-01 20:07

职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队，致力于构建下一代自动驾驶与机器人的"大脑"，重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建：设计和实现领先的具身多模态大模型，探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关：主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图：构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支撑，并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作：与全球顶尖高校及研究机构合作，探索表征学习、因果推理、世界模型等长期议题，在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景：计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位，或具备同等深度的研究经验 [4] - 核心研究经验：在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能：具备扎实的3D计算机视觉、几何学和空间推理能力，熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力：在顶级会议上发表过高质量论文，具备跨学科视野，能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础，精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主，少量上海职位 [9] - 简历投递至指定邮箱，需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]

充分激发模态协作，MokA量身打造MLLM微调新范式

机器之心· 2025-06-29 10:21

多模态大模型微调方法研究核心观点 - 当前多模态大模型微调方法直接沿用单模态策略（如LoRA），忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法，首次同时兼顾单模态独立建模（Unimodal Adaptation）和跨模态交互建模（Cross-modal Adaptation）[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - **模态特异A矩阵**：为每种模态设置独立参数空间，避免信息压缩干扰 [15] - **跨模态注意力机制**：在低秩空间显式强化文本与非文本模态的任务关联 [16] - **共享B矩阵**：将独立模态投影至共享空间实现隐式对齐 [17] 实验结果音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71（LoRA基线73.41）[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37（Qwen2基座），较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵，保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式，突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景，具备商业化落地潜力 [5][19]

多模态大模型

多模态微调

Artificial Intelligence

Artificial Intelligence

MokA

LoRA

Previous Next