多模态大模型

搜索文档
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
量子位· 2025-07-03 17:00
多模态大模型在移动端的部署挑战与解决方案 - 当前端侧多模态大模型(MLLM)面临纯语言任务性能下降超10%的问题,尤其在MATH、AlignBench和MT-Bench测试中表现明显 [4] - 手机NPU平台尚不支持MoE架构部署,包括联发科天玑9400和高通骁龙8 Elite在内的旗舰SoC均存在此限制 [7] - vivo AI研究院联合学术团队提出GenieBlue方案,通过冻结原始LLM参数并引入复制Transformer层+LoRA模块解决上述问题 [2] GenieBlue核心技术突破 - 采用不共享基座的推理策略,在骁龙8 Elite芯片上实现流畅运行,完全保留原始纯语言性能 [3] - 通过1/4层复制Transformer+LoRA模块设计,多模态性能达到全量微调的96%以上 [18] - 相比CogVLM-Skip方法,GenieBlue-Skip在多模态任务平均表现提升1-2个百分点 [23] 训练数据与模型结构优化 - 实验显示增加200万纯文本数据对多模态能力无显著影响,但能部分恢复客观NLP任务性能 [11][12] - 全量微调导致纯文本任务性能下降22-36%,而LoRA和CogVLM方法可保持90%以上原始能力 [17] - 在BlueLM-3B模型上,GenieBlue-Skip结构实现98.99%多模态性能保留率 [23] 部署效果验证 - 在MMBench等9项多模态测试中,GenieBlue(3.2B)表现优于InternVL2-8B(8B) [32] - 采用不共基座部署策略实现100%原始语言能力保留,显著优于Qwen2.5VL-3B的92.98% [34] - 在骁龙8 Elite平台实现30token/s推理速度,模型加载时间仅增加15% [35]
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 11:26
背景介绍 - 旋转位置编码(RoPE)及其变体在长上下文处理中广泛应用,但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性,这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER,其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系,包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V,仅在低频时间轴插值并保持空间维度稳定性,实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配(LTA)减少振荡确保鲁棒性,对角布局(DL)保持空间对称性,可调时间间隔(ATS)控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模,M-RoPE采用3D结构但引入不同帧间视觉标记索引差异,VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中,空间信息具有局部性和周期性,时间信息跨越更长范围,YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比,VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果 长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体,Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上,VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上,YaRN-V以81.33分显著领先,较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐,避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]
谷歌推出Gemini Robotics On-Device 大模型,快手开源 keye-VL 多模态模型:AI 动态汇总
中邮证券· 2025-07-02 21:08
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称**:Gemini Robotics On-Device - **模型构建思路**:基于Gemini 2.0架构开发,实现多模态大模型在机器人设备上的完全本地化运行,无需依赖云端计算[12] - **模型具体构建过程**: - 深度融合视觉感知、自然语言理解和动作规划三大模块 - 通过端到端的多模态神经网络训练,将文本、图像输入映射为机械控制信号 - 采用三级安全机制(实时碰撞检测、伦理约束层和硬件级动作限制)保障人机协作安全[13] - 提供Gemini Robotics SDK和MuJoCo物理模拟器工具链,支持开发者通过少量样本微调适配新任务[16] 2. **模型名称**:Kwai Keye-VL - **模型构建思路**:基于Qwen3-8B语言模型架构,融合SigLIP初始化的视觉编码器,实现文本、图像和视频信息的统一处理[17] - **模型具体构建过程**: - 采用3D RoPE(旋转位置编码)技术捕捉视频时序变化与动态分辨率输入 - 预训练阶段使用600B规模的多模态数据集,通过四阶段优化策略构建基座能力[18] - 后训练阶段通过两阶段微调实现推理能力跃升,采用GRPO算法进行混合强化学习[18] 3. **模型名称**:Gemini CLI - **模型构建思路**:将Gemini 2.5 Pro模型的百亿级参数能力嵌入终端环境,通过自然语言交互重构开发者工作流[25] - **模型具体构建过程**: - 基于ReAct(Reason and Act)工作循环设计,实现多模态推理与工具调用的动态协同 - 支持MCP(Model Context Protocol)扩展层,允许接入第三方服务如Imagen图像生成或Veo视频合成[27] - 采用沙盒执行与影子提交双重安全机制,所有文件修改前自动创建Git检查点[29] 4. **模型名称**:Mu - **模型构建思路**:专为Windows 11系统设计的小型语言模型,实现与参数量十倍的Phi-3.5-mini相当的性能表现[44] - **模型具体构建过程**: - 采用编码器-解码器架构与NPU深度协同设计 - 通过双重层归一化(Pre- and Post-LN)、旋转位置嵌入(RoPE)和分组查询注意力(GQA)优化性能[47] - 训练阶段先在数千亿高质量教育token上预训练,再通过知识蒸馏从Phi模型中提取核心能力[47] 5. **模型名称**:子曰3(Confucius3-Math) - **模型构建思路**:专注于K12数学教育的开源推理模型,通过轻量化架构与增强学习优化实现低成本高性能[53] - **模型具体构建过程**: - 采用符号运算加速器设计,解几何题时辅助线生成速度提升3倍 - 通过Policy-Specific Hardness Weighting技术动态调整训练样本权重[54] - 训练数据整合100万+师生互动记录,使解题逻辑更贴合教学大纲[54] 模型的回测效果 1. **Gemini Robotics On-Device** - 在未训练情境下的任务完成率达81%[13] - 器械识别准确率超过95%[16] 2. **Kwai Keye-VL** - 在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B[21] - 内部短视频场景测试中综合得分领先业界10%以上[21] 3. **Gemini CLI** - GitHub上线48小时内斩获3万星标[28] - 每分钟60次请求、每日1000次调用的免费额度[28] 4. **Mu** - 在Windows设置代理任务中达到500毫秒内的响应延迟,准确率接近Phi-3.5-mini的81%[47] - 解码速度提升4.7倍,首token延迟降低47%[47] 5. **子曰3** - 在GAOKAO-Bench(Math)成绩达到98.5分[53] - 推理成本压缩至每百万token仅0.15美元[53] 量化因子与构建方式 (注:研报中未明确提及量化因子的构建,此部分暂缺) 因子的回测效果 (注:研报中未明确提及量化因子的测试结果,此部分暂缺)
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 08:54
通用视觉模型(VGM)研究背景 - 通用视觉模型(VGM)曾是计算机视觉领域的研究热点,旨在构建统一架构处理图像、点云、视频等多种模态输入及分类、检测、分割等多样化任务,目标是实现「视觉模型大一统」[1] - 随着大语言模型(LLM)的兴起,多模态大模型成为新趋势,视觉被视作语言模型的输入模态之一,其独立性被重新定义,传统VGM研究面临边缘化风险[1] - 视觉数据具有结构化强、空间信息丰富等优势,但存在模态间差异大、难替代的挑战,如2D图像、3D点云和视频流的统一处理问题在当前多模态范式中未充分解决[1] VGM的核心能力与价值 - VGM通过广泛预训练和共享表示实现跨任务零样本迁移,无需为单一任务专门调整,解决了传统视觉模型任务专用化的局限性[7] - VGM具备多模态输入统一处理能力,能将图像、点云、视频等映射到共享特征空间,同时支持多任务并行处理(如图像识别与视频分析)[7][8] - 清华大学团队在IJCV发表的综述系统梳理了VGM研究进展,涵盖输入统一方法、任务通用策略等,为未来视觉模型发展提供参考[2] VGM的技术实现框架 - 编码式框架通过共享特征空间统一输入模态,使用Transformer编码不同数据(如图像、文本),最终生成统一输出[12] - 序列到序列框架借鉴NLP方法,将可变长度输入(如视频)转换为固定表示,适用于图像生成等任务[13] - 多任务学习、视觉-语言学习等技术被用于扩充VGM知识边界,相关领域研究为模型设计提供技术补充[13] VGM的数据与评测体系 - 训练采用大规模多模态数据集(图像/视频/点云),任务分为图像、几何、时间序列等四类,评测注重跨任务泛化能力[9] - 研究对比了主流VGM在22个基准数据集的表现,但未披露具体数据指标[14] VGM的挑战与未来方向 - 当前面临统一框架设计优化、训练效率提升和大规模数据处理等挑战,数据标注仍是发展瓶颈[16] - 自动化标注技术和大规模无监督学习将成为研究重点,需解决模型偏见、公平性等伦理问题[16] - 应用潜力覆盖智能监控、自动驾驶等领域,可扩展至视觉问答、图像-文本检索等复杂任务[16]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 20:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
充分激发模态协作,MokA量身打造MLLM微调新范式
机器之心· 2025-06-29 10:21
多模态大模型微调方法研究 核心观点 - 当前多模态大模型微调方法直接沿用单模态策略(如LoRA),忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法,首次同时兼顾单模态独立建模(Unimodal Adaptation)和跨模态交互建模(Cross-modal Adaptation)[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - **模态特异A矩阵**:为每种模态设置独立参数空间,避免信息压缩干扰 [15] - **跨模态注意力机制**:在低秩空间显式强化文本与非文本模态的任务关联 [16] - **共享B矩阵**:将独立模态投影至共享空间实现隐式对齐 [17] 实验结果 音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71(LoRA基线73.41)[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37(Qwen2基座),较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵,保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式,突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景,具备商业化落地潜力 [5][19]
福布斯中国“人工智能科技企业TOP 50”发布,创新集群阶梯崛起
证券时报网· 2025-06-27 22:39
行业格局与区域分布 - 上海以21家入选企业领跑全国,企业呈现"硬科技+国际化"特质,主要覆盖新能源汽车、生物医药、机器人、半导体集成电路等制造业场景 [2] - 北京14家获奖企业延续中关村"技术原创性"基因,代表企业包括寒武纪的AI芯片与智谱清言的通用大模型 [2] - 武汉人工智能产业近五年复合增长率超40%,核心产业规模突破700亿元,拥有28家省级以上科研平台,年均培养专业人才超3000人 [3] - 中部地区创新活力显现,武汉9家入选企业中,兰丁股份的宫颈癌AI筛查系统已服务超2000家医疗机构,紫东太初多模态大模型拿下多个标杆案例 [2][3] 企业生态与创新特征 - 行业形成金字塔结构:顶端为百度云、阿里云等标准巨头,中部为宇树科技等"隐形冠军",基底为鲸海拾贝等新锐企业 [4] - TOP 50企业共拥有专利破26万项,头部5家企业占据90%专利总量,但AIGC领域软件著作权年增速达45%且主要来自中小企业 [4] - 上市企业占比25%,非上市企业占比75%,显示初创团队可通过算法突破和垂直场景深耕构建竞争力 [5] - 未上市独角兽企业投资逻辑转向商业化验证,例如具身智能领域企业原力无限充电机器人提升运营效率40%,蔚蓝科技四足机器人全球销量第一 [5] 技术趋势与投资方向 - 多模态大模型向轻量化、行业化演进,量子计算与AI芯片加速融合突破算力瓶颈 [7] - AI+医疗将向药物研发、健康管理等全链条延伸,工业机器人已在生产环节实现成本优势 [7] - 中部地区产业崛起改写传统格局,中国AI产业进入自主生态构建阶段,体现在技术突破、产业链协同和区域布局优化 [7]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 17:41
论文辅导服务 - 提供前沿论文辅导服务 覆盖多模态大模型 视觉语言动作 视觉语言导航 机器人抓取与导航 具身智能体泛化 3D高斯泼溅 端到端具身智能体 具身合成数据生成等领域 [2][3] - 服务范围包括CCF-A到CCF-C SCI一区到四区 EI 中文核心 毕业论文 申博等 [2] - 提供1V1定制化辅导 从选题创新点挖掘 实验设计 代码调试 论文写作到投稿策略全流程闭环辅导 [4] 导师团队 - 导师团队来自CMU Stanford MIT等名校的PhD及大厂研究员 具有ICRA NeurIPS CVPR等顶级会议审稿经验 [4] - 提供工业界和学术界双视角辅导 不仅关注论文发表 更关注落地价值 如机器人抓取鲁棒性 导航实时性优化等 [4] 优惠活动 - 前50名咨询的同学可免费匹配专属导师 进行深度Meeting 根据研究方向 学术基础 提供会议 期刊选投建议 [5]
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 17:34
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点关注大模型/多模态大模型、扩散模型、VLA等技术方向[3] - 涉及端到端、具身交互、联合预测等前沿领域[3] - 需要SLAM、3D目标检测、世界模型等专业人才[3] - 包含闭环仿真3DGS、大模型部署与量化感知推理等技术岗位[3] 岗位要求 - 要求应聘者来自QS200以内高校[4] - 硕士及以上学历优先[4] - 拥有顶会论文者将获得优先考虑[4] 待遇福利 - 提供自动驾驶行业资源共享[6] - 包含求职、读博、出国留学等推荐机会[6] - 提供丰厚现金激励[6] - 可获得创业项目合作与推荐机会[6] 联系方式 - 咨询需添加微信并备注"机构/公司+自动驾驶合作咨询"[7]
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 17:15
自动驾驶大模型应用 - 核心观点:清华与理想汽车合作开发的DriveVLM系统通过大模型的few-shot能力解决自动驾驶长尾问题,推动L2向L4迭代 [2] - 创新点1:采用Chain-of-Thought(CoT)方法实现场景描述、分析与分层规划 [4] - 创新点2:DriveVLM-Dual快慢双系统集成传统模块,提升实时规划与空间推理能力 [4] - 创新点3:构建SUP-AD数据集聚焦自动驾驶五大维度,优化Corner Case处理 [4] 多模态大模型课程框架 - 第一章:涵盖多模态大模型基础概念、结构训练范式及公开数据集 [21] - 第二章:详解模态编码器、Input/Output Projector及LLM Backbone等核心模块 [23] - 第三章:聚焦图文/视频理解、轻量化模型等5类通用算法 [25] - 第四章:覆盖Adapter、LoRA等6种微调技术及强化学习应用 [28] - 第五章:重点解析DriveVLM等5种自动驾驶端到端大模型算法 [30] - 第六章:提供行业就业方向、面试准备等求职实战指导 [32] 技术实现与课程价值 - 数据构建:DriveVLM通过结构化LLM评估与pipeline流程优化数据集质量 [9][12] - 课程目标:培养通用大模型理论、自动驾驶前沿算法及工程部署能力 [41] - 适用人群:高校研究者、企业技术骨干及转行人员 [40] - 讲师背景:一线大厂算法专家,主导座舱与端到端大模型量产项目 [35]