Workflow
视觉语言模型(VLM)
icon
搜索文档
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 12:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
研究生开学,被大老板问懵了。。。
自动驾驶之心· 2025-09-01 11:17
社区规模与愿景 - 自动驾驶之心知识星球是一个综合类自驾社区 集视频 图文 学习路线 问答 求职交流为一体 目前成员超过4000人 预期未来2年内规模达到近万人[1] - 社区愿景是让AI与自动驾驶走进每个有需要的同学 致力于打造交流与技术分享的聚集地[1] 技术资源覆盖 - 社区梳理近40+自动驾驶技术路线 覆盖端到端 VLA 多模态大模型 数据闭环4D标注等前沿方向[1][3] - 包含近60+自动驾驶数据集 行业主流仿真平台 以及感知 仿真 规划控制等完整学习路线[14] - 汇总国内外知名高校实验室和自动驾驶公司资源 涵盖RoboTaxi 重卡业务 造车新势力等领域[26][29] 专家网络与互动 - 邀请数十位一线产业界和工业界嘉宾 包括顶会常驻专家 提供技术答疑和行业见解[3] - 不定期组织学术界与工业界大佬直播分享 目前已举办超过100场专业技术直播[58] - 建立与近300家机构及自驾公司的内推机制 直接对接企业招聘需求[10][67] 核心内容体系 - 技术方向系统覆盖BEV感知 3D目标检测 多传感器融合 世界模型 扩散模型等40+领域[5][7] - 实战板块包含模型压缩 部署优化 以及TensorRT 毫米波雷达融合等100问系列工程实践[7] - 提供全栈学习课程和入门路线图 针对0基础小白和进阶研究者分别设计学习路径[8][10] 行业趋势洞察 - 跟踪端到端自动驾驶量产应用 区分一段式/二段式技术方案并探讨工程落地难点[32][64] - 聚焦2025年热点VLA技术 系统梳理开源数据集 思维链推理及量产方案快慢双系统[36][37] - 分析世界模型 3DGS与NeRF等技术在自动驾驶仿真和感知领域的融合应用[33][39]
又帮到了一位同学拿到了自动驾驶算法岗......
自动驾驶之心· 2025-08-23 22:44
行业发展趋势 - 自动驾驶行业面临结构性调整 出现裁员现象 从业者转向具身智能和大模型等热门方向[1] - 技术演进聚焦VLA(视觉语言动作模型)和端到端自动驾驶 这些方向被视为具有更高技术壁垒和转型潜力[1] - 行业技术栈快速扩展 涵盖多模态大模型 数据闭环4D标注 世界模型等前沿领域[2] 技术资源体系 - 自动驾驶之心社区建立完整技术体系 包含超过40个技术路线分类[2] - 社区资源覆盖从基础数学[3]到前沿VLA算法[40]的全栈技术内容 - 提供近60个自动驾驶数据集资源 包括NuScenes Waymo KITTI等主流数据集[16][25][33] 人才发展生态 - 社区成员规模超过4000人 目标两年内达到近万人[1] - 汇聚国内外知名高校和头部企业资源 包括上海交大 清华大学 CMU 蔚小理 华为 英伟达等机构[16] - 建立与多家自动驾驶公司的内推机制 提供岗位对接服务[7][30] 技术应用方向 - 端到端自动驾驶成为研究热点 涵盖量产方案 多模态融合 可解释性等细分方向[29][34] - 3DGS与NeRF技术在场景重建和闭环仿真领域获得重要应用[35] - BEV感知技术成熟度较高 已成为量产方案的基石[44] 社区服务内容 - 提供专业技术直播超过100场 涵盖VLA 3D检测 规划控制等前沿话题[58] - 建立完善的问答机制 解答从技术入门到职业发展的各类问题[61][62] - 整合求职资源 包括实习 校招 社招岗位分享和内推服务[30]
理想VLA到底是不是真的VLA?
自动驾驶之心· 2025-08-22 07:34
文章核心观点 - 理想MindVLA是机器人领域基于大语言模型(LLM)作为主干网络的狭义VLA(Vision-Language-Action)模型,通过多模态信息整合编码和决策输出实现更优的自动驾驶能力,其核心优势包括防御性驾驶、场景理解能力和轨迹稳定性 [2][5][7] 技术架构与原理 - VLA基于LLM作为主干网络,串行整合多模态信息(视觉、激光雷达、语言、地图、定位),输出决策并转换为轨迹及控制细节 [2] - 模型通过扩散模型生成轨迹,相比端到端(E2E)模型更收敛,具备稳定的中短时序轨迹生成能力 [10] - 语音功能是LLM的附加能力,具备基础语音和记忆功能 [11] 场景性能对比(VLA vs E2E+VLM) 防御性驾驶 - 在无遮挡十字路口行驶快速稳健,在有遮挡路口基于剩余距离丝滑减速,减速G值根据距离动态调整,无漏检或虚惊情况 [4][5] - E2E模型难以学会丝滑减速,VLM模块在丁字路口需强制减速但体感为急刹 [3] 拥堵场景决策 - VLA在拥堵高架场景中,让行2辆Cut-in车辆后主动向左变道,避免持续加塞,体现深度场景理解能力 [7] - E2E+VLM通常触发绕行逻辑,缺乏真实场景理解能力 [7] 非标准车道行驶 - VLA在1.5-2.5倍宽闸道轻微减速并居中行驶,无画龙现象 [9][11] - E2E+VLM在该场景100%出现轻微画龙轨迹 [10] 复杂路径规划 - VLA在路口右转后需短距离左转时选择直行并触发导航重规划,决策坚决 [11] - E2E+VLM大概率直接变道或小概率直行 [11] 能力边界与局限性 - 当前版本为辅助驾驶而非自动驾驶,需随时接管 [11] - 行车场景(地面/高架/高速)为完整技术栈,但偶发异常如绿灯不走或误判红绿灯 [11] - 部分场景控车细节仍逊于FSD,但选路能力在杭州优于FSD [11] 迭代与工程优化 - VLA因MoE(混合专家模型)和工程巧思,分场景、能力、细节并行优化,迭代速度快于E2E模型 [11] - 关键信息提取COT(Chain-of-Thought)延迟可接受,在路口15-20米触发防御性减速 [11] 硬件与部署 - 模型运行于2022年双OrinX计算芯片平台 [12]
死磕技术的自动驾驶黄埔军校,4000人了!
自动驾驶之心· 2025-08-15 22:23
社区定位与愿景 - 致力于成为连接学术界与工业界的桥梁 推动自动驾驶技术发展 [2] - 构建包含产业研究、学术交流、求职服务、技术问答的闭环生态 [2] - 提供前沿技术内容 包括40+技术路线梳理和工业界专家资源 [3][16] 技术资源体系 - 覆盖40+技术方向 包含感知、规划控制、仿真、VLA等核心领域 [5][16] - 整理60+自动驾驶数据集 包含多模态大模型专用数据集 [34] - 汇总开源项目 涉及3D检测、BEV感知、世界模型等热门方向 [32] - 提供学术与工业级解决方案 包括端到端自动驾驶量产方案 [36] 学习体系 - 设计完整学习路线 包含感知、仿真、规划控制等方向 [16][17] - 提供基础到进阶的课程 涵盖数学、CV、深度学习等基础知识 [5] - 开设专项视频课程 包含数据工程、多传感器标定等实操内容 [6] - 整理经典教材与课程资料 覆盖自动驾驶全技术栈 [30] 行业资源 - 汇总国内外头部自动驾驶企业与高校研究团队 [26][28] - 建立企业内推机制 连接蔚小理、华为等头部公司 [6][16] - 分析行业发展趋势 跟踪RoboTaxi、重卡等细分领域 [28] 专家网络 - 邀请数十位产业界专家 来自头部企业和顶尖高校 [3][16] - 组织超过100场技术直播 分享最新研究成果 [81] - 提供实时答疑服务 解决技术难题和职业发展问题 [22][82] 技术热点覆盖 - 重点布局VLA、世界模型、扩散模型等前沿方向 [44][47] - 深入BEV感知、3D目标检测等量产关键技术 [49][51] - 跟踪Occupancy Network、NeRF等新兴技术 [38][56]
自动驾驶VLA工作汇总(模块化/端到端/推理增强)
自动驾驶之心· 2025-08-12 19:42
文章核心观点 - 文章梳理了近两年VLA(Vision-Language-Action)在自动驾驶领域的发展路线和算法汇总,涵盖前置工作、模块化VLA、端到端VLA和推理增强VLA等多个方向 [1][3][4][6] - 介绍了多个相关论文和开源项目,包括DriveGPT4、TS-VLM、DynRsl-VLM、RAG-Driver、OpenDriveVLA、DriveMoE等 [3][4][6][9] - 提供了自动驾驶之心知识星球的详细信息,包括技术路线、学习资源和行业资源 [7][10][15] VLA前置工作 - DriveGPT4提出通过大型语言模型实现可解释的端到端自动驾驶 [3] - TS-VLM采用文本引导的SoftSort池化方法用于多视角驾驶推理的视觉语言模型 [3] - DynRsl-VLM通过动态分辨率视觉语言模型增强自动驾驶感知能力 [3] 模块化VLA - RAG-Driver在多模态大型语言模型中通过检索增强的上下文学习实现通用驾驶解释 [4] - OpenDriveVLA致力于构建端到端自动驾驶的大型视觉语言动作模型 [4] - DriveMoE采用专家混合方法构建端到端自动驾驶的视觉语言动作模型 [4] - LangCoop探索语言协作驾驶 [4] - SafeAuto利用多模态基础模型实现知识增强的安全自动驾驶 [4] - ReCogDrive提出强化认知框架用于端到端自动驾驶 [4] 端到端VLA - ADriver-I构建自动驾驶通用世界模型 [6] - EMMA是端到端多模态自动驾驶模型 [6] - CoVLA提供全面的视觉语言动作数据集用于自动驾驶 [6] - SimLingo实现仅视觉的闭环自动驾驶与语言动作对齐 [6] - DiffVLA采用视觉语言引导扩散规划用于自动驾驶 [6] - S4-Driver是具备时空视觉表示的可扩展自监督驾驶多模态大型语言模型 [6] - ORION是通过视觉语言指令动作生成的整体端到端自动驾驶框架 [6] - Impromptu VLA提供开放权重和开放数据用于驾驶视觉语言动作模型 [6][9] 推理增强VLA - FutureSightDrive通过时空思维链实现视觉思考的自动驾驶 [9] - AutoVLA是具备自适应推理和强化微调的端到端自动驾驶视觉语言动作模型 [9] - Drive-R1通过强化学习桥接自动驾驶视觉语言模型中的推理和规划 [9] 自动驾驶之心知识星球 - 社区汇总40+技术路线、60+数据集和行业主流仿真平台 [7][15] - 提供自动驾驶感知、仿真、规划控制等多领域学习路线 [15] - 成员来自国内外知名高校和头部自动驾驶公司 [15] - 建立与多家自动驾驶公司的岗位内推机制 [11] - 为入门者提供完备的技术栈和路线图 [12] - 为研究者提供有价值的产业体系和项目方案 [13]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-08-11 20:17
具身智能行业现状 - 具身智能是2025年最热门方向之一 但当前仍处于技术探索阶段 尚未达到生产力转化阶段[1] - 行业经历从沉寂到疯狂再到冷静的周期 初创公司融资活跃但技术成熟度有限[3] - 头部企业对具身智能人才需求集中在端到端、大模型、VLA、强化学习等前沿方向[3] 自动驾驶技术发展趋势 - 主流技术路线正从无图方案向端到端架构迁移 技术栈迭代周期为1-2年[3] - 行业关注重点包括LV融合、BEV感知、3DGS、世界模型等方向[3][20][26] - 传统机器人技术仍是产品主线 但前沿算法研究投入持续加大[3] 自动驾驶人才需求 - 算法岗竞争激烈 学历门槛较高 更倾向招收掌握端到端、大模型等前沿技术的人才[3] - 机器人/具身智能领域存在SLAM、ROS等技术优化与集成类岗位机会[3] - 初创公司提供全面技术培养机会 但工作强度较大[3] 自动驾驶技术社区资源 - 社区覆盖40+技术路线 包含VLA benchmark、综述、学习路线等系统化资源[6][20] - 汇集国内外顶尖高校实验室及头部企业资源 形成产学研闭环[19][20][27][29] - 提供60+数据集、40+开源项目及主流仿真平台资源[20][33][35] 前沿技术研究热点 - 端到端自动驾驶技术涵盖量产方案、VLA算法、世界模型结合等方向[26][37] - 3DGS与NeRF技术在场景重建、闭环仿真领域应用广泛[39] - 视觉语言模型(VLM)在预训练数据集、思维链推理等方向快速发展[43] - BEV感知作为量产基石 覆盖纯视觉与多模态方案[50] - 扩散模型应用于数据生成、场景重建等场景[48] 行业活动与交流 - 社区组织超100场专业技术直播 涵盖VLA、世界模型等前沿主题[82] - 建立头部企业内推机制 实现求职与岗位高效匹配[9][18] - 成员可自由提问工作选择、研究方向等实际问题并获得解答[83]
「一只手有几根手指」,你的GPT-5答对了吗?
机器之心· 2025-08-11 18:40
多模态大模型视觉理解能力缺陷 - 顶尖大模型如GPT-5、GPT-5-Thinking、Gemini 2.5 Pro和Grok 4在基础视觉常识问题(如"一只手有几根手指")上频繁出错,答案受语言歧义(英文finger可指4或5指)和图像语境影响[1][6][9][10][11][17][24] - 模型错误率高达100%(如六指图中文语境),反事实图像(如5条腿的狗)识别准确率仅约17%,显示对视觉内容的基础理解能力不足[17][33] 视觉语言模型的技术局限性 - 当前多模态大语言模型(MLLM)过度依赖语言先验和记忆知识,而非真实视觉分析,导致视觉模块仅通过语言模式猜测而非真正"看懂"图像[26][34] - 以语言模型初始化视觉-语言-动作模型(VLA)存在陷阱,虽在基准测试中表现进步,但未解决核心感知问题(如物体计数、空间关系)[36] 评估体系与解决方案 - 需建立以视觉为中心的严谨评估标准(如CV-Bench基准测试集),系统性检验2D/3D视觉能力(计数、深度感知等),并评估超过20种视觉编码器[31][32] - 应开发更强视觉基础模型(如从世界模型入手再叠加语言模块),避免将视觉作为语言附属输入,需重新探索3D基础模型和视频扩散模型[36][38] 行业影响与研究方向 - 公司可能依赖语言先验捷径宣称"多模态推理"成功,但实际应用于机器人等现实场景时将暴露缺陷并付出代价[31] - 需暂停仅叠加CLIP/DINO的符号化方案,转向从零构建4D先验(如4D-LRM),彻底脱离语言先验干扰[38]
自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
自动驾驶之心· 2025-08-10 00:03
自动驾驶行业发展现状 - 自动驾驶技术自2009年谷歌(Waymo)开启研发热潮以来已发展近二十年,当前处于行业下沉关键期,技术路径从模块化方法演进至端到端/VLA方法 [2] - 行业技术能力持续攀升,但实现真正自动驾驶仍需突破,智能驾驶融入日常出行是长期目标 [2] 技术资源与知识体系 - 社区梳理40+技术路线,覆盖VLA benchmark、综述、学习路线等,缩短行业检索时间 [4] - 汇总60+自动驾驶数据集、40+开源项目及主流仿真平台,包含感知/仿真/规划控制等学习路线 [16] - 技术方向覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等28个细分领域 [23][47][49][51][54] - 前沿技术包括扩散模型、世界模型、视觉语言模型(VLM)、端到端自动驾驶等热点方向 [38][40][42][45] 行业生态与人才网络 - 社区成员来自上海交大、清华、CMU等顶尖高校及蔚小理、华为、大疆等头部企业,形成产学研闭环 [16] - 与多家自动驾驶公司建立内推机制,直接对接企业招聘需求 [7] - 提供职业发展咨询,涵盖岗位选择、技术转型等实际问题 [80][83] 技术交流与内容产出 - 每月举办星友线上讨论会,针对共性问题深度探讨 [2] - 累计举办超100场专业直播,邀请清华、上海AI Lab等机构专家分享最新研究成果 [79] - 内容形式包含开源项目分析、数据集解读、量产方案拆解等实战型主题 [30][32][34] 教育培训体系 - 针对小白提供完备入门技术栈和路线图 [9] - 为从业者设计算法进阶课程,涵盖CUDA编程、模型部署等工程化内容 [5][64][66] - 开发"自动驾驶100问"系列,聚焦TensorRT部署、毫米波雷达融合等实战问题 [5]
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心· 2025-08-07 07:34
视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]