Workflow
视觉语言模型(VLM)
icon
搜索文档
NIPS 2025 MARS 多智能体具身智能挑战赛正式启动!
具身智能之心· 2025-08-18 08:07
具身智能新挑战 - 单一智能体难以胜任复杂多变的任务场景,多具身智能体系统(如人形机器人、四足机器人、机械臂)成为实现通用自主的关键力量[3] - 多具身智能体需要在复杂环境中制定高层任务计划并稳健执行精细操作,但面临异构机器人、不同感知能力与部分可观测性等难题[3] - MARS Challenge通过两条互补赛道推动具身智能研究向真实世界落地,鼓励探索高层规划与低层控制能力[3][4] 赛道1:多智能体具身规划 - 面向异构机器人协同配合环境下的高层任务规划与角色分配,基于ManiSkill平台与RoboCasa数据集[5] - 通过视觉大语言模型完成智能体选择和动作分配,根据自然语言指令挑选最优机器人组合并制定高层动作序列[5][6] - 评估视觉大语言模型在多智能体分配、角色指派与符号规划等方面的推理能力,模拟现实环境中的协作[7][8] 赛道2:多智能体协同控制 - 致力于推动多智能体系统在复杂任务中的协作能力,如机械臂紧密配合堆叠方块等[12] - 基于RoboFactory仿真环境,要求智能体在动态、部分可观测条件下实时交互,设计端到端可部署控制模型[12][13] - 参赛者需通过仿真平台收集数据训练模型,最终提交部署后的模型供测试[12] 比赛安排与参与方式 - 时间安排:热身赛2025年8月18日开启,正式赛9月1日开启,10月31日结束,12月公布结果[25] - 参赛方式:通过比赛主页、微信交流群或Discord群参与,联系邮箱为marschallenge2025@gmail.com[25] - 比赛结果将在NeurIPS 2025的SpaVLE Workshop上公布,参赛者有机会赢得奖金并共同撰写报告[4][25] 行业展望 - 未来不同形态的智能体将协作完成超越单一能力边界的任务,MARS Challenge是推动多具身智能体走向通用自主的重要一步[26] - 该挑战为机器人、计算机视觉、自然语言处理及多模态AI领域的研究者提供了展示创意与技术的全球舞台[26][27]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]
DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)
自动驾驶之心· 2025-08-08 07:32
戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 点击按钮预约直播 视觉语言模型(VLM)的最新进展激发了人们将其应用于自动驾驶的兴趣,尤其是通过自然语言生成可解释的驾驶决策。然而关于VLM是否能为驾驶 提供基于视觉的、可靠的且可解释的解释,这一假设在很大程度上尚未得到验证。为填补这一空白,我们推出了DriveBench,这是一个基准数据集, 旨在评估VLM在17种设置下的可靠性,包含19,200帧、20,498个问答对、三种问题类型、四种主流驾驶任务以及总共12个流行的VLM。 自动驾驶之心很荣幸邀请到加州大学尔湾分校在读博士生 - 谢少远,为大家分享介绍这篇ICCV 2025中稿的DriveBench。 一个专为自动驾驶设计的视 觉语言模型(VLMS)基准测试框架,旨在评估VLMs在不同环境和任务下的可靠性。DriveBench涵盖感知、预测、规划和行为四大核心任务,并引入 15 种OoD类型,以系统性测试VLMs 在复杂驾驶场景中的可靠性。 今天上午十一点,锁定自动驾驶之心直播间,我们不见不散~ 论文标 ...
4000人了,我们搭建了一个非常全栈的自动驾驶社区!
自动驾驶之心· 2025-08-03 08:33
自动驾驶行业现状与趋势 - 自动驾驶技术栈趋同 端到端+大模型成为主流方向 行业从百花齐放进入收敛阶段 [2] - 国内智测量产存在浮躁现象 方案未完全收敛即急于上车 行业需沉淀解决实际问题 [3] - 具身智能领域吸引部分从业者转行 但自动驾驶仍被视为最接近实现的通用具身智能赛道 [3] 技术发展方向 - 未来量产模型将呈现统一、多模态、端到端特征 模块化方法逐渐被淘汰 [3] - 行业对全栈人才需求迫切 需同时掌握感知、规划、预测、大模型及部署优化等技能 [3] - VLA(视觉语言模型)成为2025年热点技术方向 涉及开源数据集、模块化设计及量产方案等研究 [42] 学术与产业资源 - 自动驾驶之心社区整合40+技术路线 覆盖BEV感知、3DGS、世界模型等前沿方向 [5][16] - 汇集60+自动驾驶数据集 包括多模态大模型预训练/微调专用数据集 [32] - 链接国内外顶尖高校实验室(清华、CMU、ETH等)及头部企业(蔚小理、华为、大疆等) [16] 职业发展观察 - 行业薪资仍具竞争力 但面临转型压力 部分从业者权衡高薪与稳定性 [83] - 主机厂与供应商岗位选择成焦点 华为车BU、Momenta等企业技术认可度高 [83] - 应届生职业规划关注技术成长与企业前景 滴滴KargoBot等新兴领域受青睐 [83] 社区生态建设 - 提供学术前沿内容、工业界圆桌会议、开源代码及求职信息 形成产学研闭环 [5][21] - 定期举办超100场专业直播 邀请清华、上海AI Lab等机构专家分享最新成果 [79] - 建立40+开源项目库 涵盖BEV感知、Occupancy Network等关键技术 [30]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 20:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]