多模态大模型
搜索文档
Z Tech|全球领先的多模态大模型VAST顶薪招募,定义未来十年的技术范式
Z Potentials· 2025-07-08 10:50
招聘信息 - 公司正在招募新一期的实习生 [2] - 公司正在寻找有创造力的00后创业者 [4] 公司介绍 - 公司名称为Z Potentials [5]
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
机器之心· 2025-07-06 14:06
机器人空间指代技术突破 - 现实环境复杂多变,机器人需应对杂乱无序、物体种类繁多的场景,远超实验室可控环境[2] - 空间指代任务要求机器人理解"最远""第二列""等间距"等空间关系,动态定位交互目标[3][5] - 当前多模态大模型难以准确理解三维场景并动态推理交互位置,存在单步空间理解和多步空间推理两大挑战[6] RoboRefer模型核心能力 - 采用全参数微调(SFT)实现89.6%空间理解成功率,强化学习微调(RFT)在RefSpatial-Bench基准上超越Gemini-2.5-Pro达17.4%[8][22] - 集成独立图像编码器和深度图编码器,支持定量(物体距离)和定性(方位判断)空间问答[12] - 突破性实现多空间关系组合推理,如准确定位"笔筒与键盘中间且水瓶logo正对"的位置[13] 技术创新路径 - SFT阶段引入深度编码器增强三维感知,RFT阶段采用GRPO强化学习结合过程奖励函数提升泛化能力[15][17] - 创新设计过程奖励函数监控中间推理质量,显著提升多步指代任务精度[17] - 模型可集成至UR5机械臂、G1仿人机器人等平台,实现真实场景精准执行[9] RefSpatial数据集特性 - 包含250万样本、2000万问答对,规模达同类数据集两倍[20] - 标注31种空间关系(行业最高15种),支持5步复杂推理链[20] - 覆盖室内外多场景,通过层级描述确保复杂环境下的表述清晰度[20] 性能基准对比 - RoboRefer-8B-SFT在CV-Bench达到98.33%准确率,显著领先GPT-4o(86.50%)和Gemini-2.5-Pro(91.00%)[21] - RGB-D输入模式下,2B-SFT版本在RoboSpatial任务取得82%成功率,超越专用模型SpatialBot-3B(63.33%)[21] - 在Where2Place基准上,RFT版本以71%准确率大幅领先Gemini-2.5-Pro(11.8%)[23]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 21:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
量子位· 2025-07-03 17:00
多模态大模型在移动端的部署挑战与解决方案 - 当前端侧多模态大模型(MLLM)面临纯语言任务性能下降超10%的问题,尤其在MATH、AlignBench和MT-Bench测试中表现明显 [4] - 手机NPU平台尚不支持MoE架构部署,包括联发科天玑9400和高通骁龙8 Elite在内的旗舰SoC均存在此限制 [7] - vivo AI研究院联合学术团队提出GenieBlue方案,通过冻结原始LLM参数并引入复制Transformer层+LoRA模块解决上述问题 [2] GenieBlue核心技术突破 - 采用不共享基座的推理策略,在骁龙8 Elite芯片上实现流畅运行,完全保留原始纯语言性能 [3] - 通过1/4层复制Transformer+LoRA模块设计,多模态性能达到全量微调的96%以上 [18] - 相比CogVLM-Skip方法,GenieBlue-Skip在多模态任务平均表现提升1-2个百分点 [23] 训练数据与模型结构优化 - 实验显示增加200万纯文本数据对多模态能力无显著影响,但能部分恢复客观NLP任务性能 [11][12] - 全量微调导致纯文本任务性能下降22-36%,而LoRA和CogVLM方法可保持90%以上原始能力 [17] - 在BlueLM-3B模型上,GenieBlue-Skip结构实现98.99%多模态性能保留率 [23] 部署效果验证 - 在MMBench等9项多模态测试中,GenieBlue(3.2B)表现优于InternVL2-8B(8B) [32] - 采用不共基座部署策略实现100%原始语言能力保留,显著优于Qwen2.5VL-3B的92.98% [34] - 在骁龙8 Elite平台实现30token/s推理速度,模型加载时间仅增加15% [35]
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 11:26
背景介绍 - 旋转位置编码(RoPE)及其变体在长上下文处理中广泛应用,但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性,这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER,其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系,包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V,仅在低频时间轴插值并保持空间维度稳定性,实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配(LTA)减少振荡确保鲁棒性,对角布局(DL)保持空间对称性,可调时间间隔(ATS)控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模,M-RoPE采用3D结构但引入不同帧间视觉标记索引差异,VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中,空间信息具有局部性和周期性,时间信息跨越更长范围,YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比,VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果 长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体,Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上,VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上,YaRN-V以81.33分显著领先,较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐,避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]
谷歌推出Gemini Robotics On-Device 大模型,快手开源 keye-VL 多模态模型:AI 动态汇总
中邮证券· 2025-07-02 21:08
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称**:Gemini Robotics On-Device - **模型构建思路**:基于Gemini 2.0架构开发,实现多模态大模型在机器人设备上的完全本地化运行,无需依赖云端计算[12] - **模型具体构建过程**: - 深度融合视觉感知、自然语言理解和动作规划三大模块 - 通过端到端的多模态神经网络训练,将文本、图像输入映射为机械控制信号 - 采用三级安全机制(实时碰撞检测、伦理约束层和硬件级动作限制)保障人机协作安全[13] - 提供Gemini Robotics SDK和MuJoCo物理模拟器工具链,支持开发者通过少量样本微调适配新任务[16] 2. **模型名称**:Kwai Keye-VL - **模型构建思路**:基于Qwen3-8B语言模型架构,融合SigLIP初始化的视觉编码器,实现文本、图像和视频信息的统一处理[17] - **模型具体构建过程**: - 采用3D RoPE(旋转位置编码)技术捕捉视频时序变化与动态分辨率输入 - 预训练阶段使用600B规模的多模态数据集,通过四阶段优化策略构建基座能力[18] - 后训练阶段通过两阶段微调实现推理能力跃升,采用GRPO算法进行混合强化学习[18] 3. **模型名称**:Gemini CLI - **模型构建思路**:将Gemini 2.5 Pro模型的百亿级参数能力嵌入终端环境,通过自然语言交互重构开发者工作流[25] - **模型具体构建过程**: - 基于ReAct(Reason and Act)工作循环设计,实现多模态推理与工具调用的动态协同 - 支持MCP(Model Context Protocol)扩展层,允许接入第三方服务如Imagen图像生成或Veo视频合成[27] - 采用沙盒执行与影子提交双重安全机制,所有文件修改前自动创建Git检查点[29] 4. **模型名称**:Mu - **模型构建思路**:专为Windows 11系统设计的小型语言模型,实现与参数量十倍的Phi-3.5-mini相当的性能表现[44] - **模型具体构建过程**: - 采用编码器-解码器架构与NPU深度协同设计 - 通过双重层归一化(Pre- and Post-LN)、旋转位置嵌入(RoPE)和分组查询注意力(GQA)优化性能[47] - 训练阶段先在数千亿高质量教育token上预训练,再通过知识蒸馏从Phi模型中提取核心能力[47] 5. **模型名称**:子曰3(Confucius3-Math) - **模型构建思路**:专注于K12数学教育的开源推理模型,通过轻量化架构与增强学习优化实现低成本高性能[53] - **模型具体构建过程**: - 采用符号运算加速器设计,解几何题时辅助线生成速度提升3倍 - 通过Policy-Specific Hardness Weighting技术动态调整训练样本权重[54] - 训练数据整合100万+师生互动记录,使解题逻辑更贴合教学大纲[54] 模型的回测效果 1. **Gemini Robotics On-Device** - 在未训练情境下的任务完成率达81%[13] - 器械识别准确率超过95%[16] 2. **Kwai Keye-VL** - 在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B[21] - 内部短视频场景测试中综合得分领先业界10%以上[21] 3. **Gemini CLI** - GitHub上线48小时内斩获3万星标[28] - 每分钟60次请求、每日1000次调用的免费额度[28] 4. **Mu** - 在Windows设置代理任务中达到500毫秒内的响应延迟,准确率接近Phi-3.5-mini的81%[47] - 解码速度提升4.7倍,首token延迟降低47%[47] 5. **子曰3** - 在GAOKAO-Bench(Math)成绩达到98.5分[53] - 推理成本压缩至每百万token仅0.15美元[53] 量化因子与构建方式 (注:研报中未明确提及量化因子的构建,此部分暂缺) 因子的回测效果 (注:研报中未明确提及量化因子的测试结果,此部分暂缺)
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 08:54
通用视觉模型(VGM)研究背景 - 通用视觉模型(VGM)曾是计算机视觉领域的研究热点,旨在构建统一架构处理图像、点云、视频等多种模态输入及分类、检测、分割等多样化任务,目标是实现「视觉模型大一统」[1] - 随着大语言模型(LLM)的兴起,多模态大模型成为新趋势,视觉被视作语言模型的输入模态之一,其独立性被重新定义,传统VGM研究面临边缘化风险[1] - 视觉数据具有结构化强、空间信息丰富等优势,但存在模态间差异大、难替代的挑战,如2D图像、3D点云和视频流的统一处理问题在当前多模态范式中未充分解决[1] VGM的核心能力与价值 - VGM通过广泛预训练和共享表示实现跨任务零样本迁移,无需为单一任务专门调整,解决了传统视觉模型任务专用化的局限性[7] - VGM具备多模态输入统一处理能力,能将图像、点云、视频等映射到共享特征空间,同时支持多任务并行处理(如图像识别与视频分析)[7][8] - 清华大学团队在IJCV发表的综述系统梳理了VGM研究进展,涵盖输入统一方法、任务通用策略等,为未来视觉模型发展提供参考[2] VGM的技术实现框架 - 编码式框架通过共享特征空间统一输入模态,使用Transformer编码不同数据(如图像、文本),最终生成统一输出[12] - 序列到序列框架借鉴NLP方法,将可变长度输入(如视频)转换为固定表示,适用于图像生成等任务[13] - 多任务学习、视觉-语言学习等技术被用于扩充VGM知识边界,相关领域研究为模型设计提供技术补充[13] VGM的数据与评测体系 - 训练采用大规模多模态数据集(图像/视频/点云),任务分为图像、几何、时间序列等四类,评测注重跨任务泛化能力[9] - 研究对比了主流VGM在22个基准数据集的表现,但未披露具体数据指标[14] VGM的挑战与未来方向 - 当前面临统一框架设计优化、训练效率提升和大规模数据处理等挑战,数据标注仍是发展瓶颈[16] - 自动化标注技术和大规模无监督学习将成为研究重点,需解决模型偏见、公平性等伦理问题[16] - 应用潜力覆盖智能监控、自动驾驶等领域,可扩展至视觉问答、图像-文本检索等复杂任务[16]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 20:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
充分激发模态协作,MokA量身打造MLLM微调新范式
机器之心· 2025-06-29 10:21
多模态大模型微调方法研究 核心观点 - 当前多模态大模型微调方法直接沿用单模态策略(如LoRA),忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法,首次同时兼顾单模态独立建模(Unimodal Adaptation)和跨模态交互建模(Cross-modal Adaptation)[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - **模态特异A矩阵**:为每种模态设置独立参数空间,避免信息压缩干扰 [15] - **跨模态注意力机制**:在低秩空间显式强化文本与非文本模态的任务关联 [16] - **共享B矩阵**:将独立模态投影至共享空间实现隐式对齐 [17] 实验结果 音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71(LoRA基线73.41)[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37(Qwen2基座),较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵,保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式,突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景,具备商业化落地潜力 [5][19]