Workflow
视觉语言模型(VLM)
icon
搜索文档
RL新思路,复旦用游戏增强VLM通用推理,性能匹敌几何数据
36氪· 2025-10-22 10:17
技术方法与创新 - 复旦大学NLP实验室提出Game-RL方法,利用电子游戏丰富的视觉元素和明确规则来生成多模态可验证推理数据,以强化训练视觉语言模型(VLM)的推理能力[1] - 创新性地提出Code2Logic方法,通过游戏代码系统化合成数据,该方法利用强LLM生成游戏代码、设计任务模板并构建数据引擎代码,最终自动批量生成数据[3][8][11] - 通过Code2Logic构建了GameQA数据集,该数据集包含4大认知能力类别、30个游戏、158个推理任务以及14万个问答对,任务和样本均按难度分级[13][15] 数据集与实验效果 - 在GameQA数据集上使用GRPO进行训练后,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得性能提升,例如Qwen2.5-VL-7B模型平均提升2.33%[17][18] - 与专门用于几何和图表推理的数据集(如MAVIS、MultiMath)进行对比训练,尽管训练数据量更少且领域不匹配,GameQA训练的模型在通用基准上表现极具竞争力,甚至在部分数学推理基准上能匹敌更“对口”的数据集[19][20] - 实验显示出明显的规模效应:随着训练数据量增加至20K,以及训练游戏种类增多,模型在通用推理基准上的表现持续提升,域外泛化效果增强[21][22] 能力提升与行业价值 - 人工定性分析表明,经过Game-RL训练后,模型在视觉感知和文本推理两个核心能力上均有显著提升[25][27] - 该研究将VLM的强化训练领域成功拓展至游戏场景,验证了游戏数据在提供多模态、可控、可验证数据方面的重要价值,为提升模型通用推理能力提供了新路径[28]
车圈一个月48位高管变动,新一轮的变革要开始了......
自动驾驶之心· 2025-09-25 11:45
行业变革与人才流动 - 车企正经历新一轮变革,一个月内出现48位高管变动 [1] - 理想汽车将智驾团队拆分为11个二级部门 [1] - 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 长安汽车高层经历大变动,蔚来高管任少卿同时在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶技术快速迭代:三年前是BEV,两年前是无图方案,一年前是端到端,今年是VLA和世界模型 [2] - 行业在"踩油门"变方向,算法岗位需要持续更新认知并跳出舒适圈 [2] - 学术界和工业界交流频繁,有人才转向具身智能和Agent领域 [2] - 车企正在招聘人才攻坚端到端自动驾驶技术 [2] 社区规模与定位 - 自动驾驶之心知识星球社区目前超过4000人,期望2年内达到近万人规模 [3] - 社区定位为综合类自驾社区,集视频+图文+学习路线+问答+求职交流为一体 [3] - 社区搭建了自动驾驶、具身智能和大模型三个技术平台 [3] - 社区成员来自近300家机构与自动驾驶公司 [96] 技术资源覆盖 - 社区梳理近40+技术路线,覆盖VLA benchmark、综述和学习入门路线 [5] - 包含40+自动驾驶技术方向,涵盖感知、规划、控制、仿真等全栈领域 [8][16] - 汇总近40+开源项目和近60+自动驾驶相关数据集 [16] - 提供端到端自动驾驶、3DGS、世界模型、VLM等前沿技术内容 [36][39][41][43][46] 学习体系构建 - 社区提供全栈方向学习课程,适合0基础入门 [10] - 包含感知融合、多传感器标定、SLAM、决策规划等9大视频教程系列 [11] - 梳理自动驾驶感知学习路线、仿真学习路线、规划控制学习路线 [16] - 提供TensorRT模型部署、毫米波雷达融合、车道线检测等7个100问系列 [9] 产学研资源 - 汇总国内外自动驾驶与机器人高校实验室,包括上海交大、北京大学、CMU、清华大学等知名院校 [16][26] - 覆盖蔚小理、地平线、华为、大疆、百度等头部企业资源 [16][28] - 社区举办超过100场专业技术直播,邀请学术界和工业界大佬分享 [86] - 建立与多家自动驾驶公司的岗位内推机制 [11] 技术细分领域 - 详细梳理3D目标检测方法,包括单目、双目、多模态、Range图等方案 [21][54] - 覆盖2D/3D分割、轨迹预测、规划控制、Occupancy等核心技术 [21][48][59][60] - 包含V2X、SLAM、自动驾驶仿真、鱼眼感知等工程实践领域 [77][79][80][81] - 重点布局扩散模型、BEV感知、多传感器融合等量产关键技术 [50][52][56]
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 08:03
核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差,以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任,仅保留轻量级机器人适配层负责执行,以实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] 架构设计:泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,隐含对物理过程的理解,且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象,与人类思考动作的方式一致,无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练,证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的接地,而非单次规划 [6] - 其具体作用分为四步:接收指令与场景图像后分解高level任务为原子子任务;为每个子任务生成带约束的文本提示;每次执行后对比图像判断子任务完成情况并输出决策;框架不绑定特定视觉语言模型,具有模型无关性 [10] 扩散基世界模型:动作生成的新范式 - 核心创新是将动作生成为条件视频合成,而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [10] - 对比现有方法,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛 [10] - 具有三大优势:降低新机器人部署成本;可快速迭代替换更优模型;生成视频可被人类检查以提升安全性 [10] 机器人适配层:从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令,此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点,形成40维特征向量/帧;再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本,30分钟即可收集完成训练数据 [11] 实验验证:效果与泛化性 - 实验分为两类,分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中,框架的成功率显著优于基线,验证了扩散视频生成思路的有效性;平台对性能无显著影响,说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中,双臂UR3和Unitree G1人形机器人的最终成功率均达到80%,首次尝试成功率分别为30%和20%,成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足,前3次迭代后未完成任务比例骤降,是提升鲁棒性的核心 [16]
想跳槽去具身,还在犹豫...
自动驾驶之心· 2025-09-13 00:03
自动驾驶技术方向与职业发展 - 研一学生在感知背景下面临端到端VLA、具身智能或自动驾驶方向选择 需考虑本科电子通信背景及2-3年后就业前景[1] - 行业关注智驾与具身智能的转换可行性 以及持续学习方向的发展潜力[2] - 技术转型涉及从基于规则到端到端的组织与人员调整过程[2] 行业领先企业与成功要素 - 新势力公司存在裁员情况[1] - 行业关注Momenta等智能驾驶企业的成功关键因素[2] - 传统主机厂如长安、东风、比亚迪、吉利、蔚来在智驾领域的发展受关注[2] 技术发展趋势与就业选择 - 行业讨论L2+L3与L4发展方向的前景比较[2] - 端到端VLA算法主机岗与L4 Robotaxi决策规划岗位的就业选择[2] - 感知迭代快速导致部分从业者考虑转向相对稳定的部署岗位[2] 关键技术应用与仿真 - 3DGS在自动驾驶和具身智能中的应用程度受关注[2] - 各家公司的闭环仿真发展状况被讨论[2] - 感知后处理与多目标融合技术仍具应用价值[2] 社区资源与学习体系 - 自动驾驶之心知识星球拥有超过4000名成员 覆盖近40+技术方向学习路线[5][8] - 社区提供端到端入门、多模态大模型、数据闭环工程实践等实用问题解答[5] - 与近300家机构及自动驾驶公司建立内推机制 提供岗位对接服务[11] 技术领域细分与资源整合 - 汇总国内外自动驾驶高校实验室及企业资源 包括RoboTaxi、重卡、新势力等领域[26] - 整理自动驾驶与CV相关书籍、开源项目及数据集 涵盖3D检测、BEV感知、世界模型等方向[27][28] - 端到端自动驾驶技术梳理兼顾学术界与工业界 包含一段式、二段式及量产方案[29] 前沿技术聚焦 - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[30] - 自动驾驶世界模型作为学术界与工业界热点 涵盖技术前沿与业界应用[31] - 视觉语言模型(VLM)汇总最新综述、开源数据集及量产方案如DriveVLM[32][33] 量产技术与核心模块 - 自动驾驶VLA技术梳理涵盖2025年最新综述、开源数据集及量产讨论[34] - 在线高精地图作为无图NOA量产方案核心 受学术界与工业界重点关注[41] - BEV感知作为量产基石 覆盖纯视觉、多模态融合及工程部署方案[38] 行业活动与专家交流 - 社区举办超过100场专业技术直播 分享VLA、世界模型、3D检测等前沿工作[55] - 邀请学术界与工业界大佬探讨自动驾驶发展趋势及量产痛点[6] - 会员可获取独享福利视频教程 涵盖世界模型、自动驾驶大模型等技术领域[52]
李飞飞的答案:大模型之后,Agent 向何处去?
36氪· 2025-09-04 16:28
Agent AI核心架构 - 提出由环境与感知、认知、行动、学习与记忆五大模块构成的完整认知闭环架构 实现从感知到行动的动态迭代智能体系[5][10] - 感知模块主动从物理或虚拟世界获取多模态信息 并内嵌任务规划与技能观察能力实现有目的的信息理解[7][8] - 认知模块作为处理中枢 由大语言模型(LLM)和视觉语言模型(VLM)驱动 负责解释信息、多步推理和策略制定[8] - 行动模块生成具体操作指令 通过控制器执行物理世界交互或虚拟世界API调用[8] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等多种机制 通过环境反馈实现持续优化[9] - 记忆模块突破传统上下文窗口限制 形成持久化结构系统存储知识、逻辑和推理结果[10] 大模型驱动机制 - LLM和VLM通过海量数据预训练内化世界常识 为Agent提供强大的零样本规划能力 显著降低任务规则编写成本[11][12] - 环境交互成为解决大模型幻觉问题的关键锚点 通过真实或模拟环境的物理反馈倒逼模型实现知识与现实对齐[13] - 需通过多元化数据训练和偏见检测机制解决基础模型继承的社会偏见问题 将包容性作为核心设计原则[13] - 在医疗等敏感领域需建立明确法规框架 通过提示工程和人类监督层确保数据隐私与行为安全[13] 应用场景实践 - 游戏领域彻底改变NPC行为模式 基于LLM的Agent可拥有独立记忆情感 实现动态行为调整和自然语言交互 提升沉浸感与开发效率[14][15] - 机器人领域实现自然语言指令驱动 通过GPT-4V理解人类演示视频并转化为可执行任务 结合多模态感知实现精细物理操作[17] - 医疗健康领域应用包括智能问诊聊天机器人 连接实时医学数据库进行事实核查 以及慢性病监控与预警系统提升诊疗效率[19][21] 行业影响与验证 - 论文框架已获谷歌 OpenAI和微软等主流厂商实际验证 其核心打法均遵循论文提出的能力栈推进[1][4] - 尽管发表仅半年 该综述已成为AI领域纲领性著作 为碎片化的Agent研究提供系统化框架与发展地图[4][22] - 行业面临多模态深度融合、跨领域通用化及标准化评测体系建立等核心挑战 需突破现有技术局限[22]
4000人的自动驾驶社区,开学季招生了!!!
自动驾驶之心· 2025-09-02 11:14
社区定位与规模 - 社区定位为综合类自动驾驶技术交流平台,集视频、图文、学习路线、问答与求职交流于一体,已吸引超过4000名成员,目标在未来2年内达到近万人规模[3] - 社区成员主要来自头部自动驾驶公司、具身智能公司、互联网企业、Top高校实验室及传统机器人公司,形成工业界与学术界互补的生态结构[1] - 社区覆盖近40个前沿技术方向,包括多模态大模型、VLM、VLA、闭环仿真、世界模型、端到端自动驾驶等主流方法论[1][3] 技术资源体系 - 汇总近40+技术路线、近60+自动驾驶数据集、行业主流仿真平台及开源项目,涵盖感知、规划控制、仿真等核心领域[12][23][24][25] - 提供超过100场专业技术直播分享,内容涉及VLA、3D检测、扩散模型等前沿课题,并邀请学术界与工业界专家参与[52] - 整理完备的学习资料库,包括数学基础、计算机视觉、深度学习、编程、经典书籍与课程课件,适配从入门到进阶的学习需求[7][24] 就业与产业链接 - 与近300家机构及自动驾驶公司建立内推合作机制,提供岗位推荐与简历直推服务,覆盖蔚小理、华为、大疆、英伟达等头部企业[8][12][59] - 定期开展行业趋势讨论,聚焦技术走向与量产痛点,并提供企业前景分析、跳槽建议及博士研究方向指导[4][16][57] - 构建求职交流板块,涵盖岗位开放信息、内推渠道及产业机会挖掘,强化社区与产业实践的连接[8][16][59] 内容服务特色 - 提供快速技术答疑服务,针对端到端入门、VLA学习路线、多传感器融合就业前景等实用问题提供解决方案[3][4][16] - 独家梳理自动驾驶100问系列专题,包括TensorRT部署、毫米波雷达融合、车道线检测等工程实践关键问题[7] - 打造多维度学习路径,如感知学习路线、仿真学习路线、规划控制学习路线等,系统性降低学习检索成本[12][13]
NIPS 2025 MARS 多智能体具身智能挑战赛正式启动!
具身智能之心· 2025-08-18 08:07
具身智能新挑战 - 单一智能体难以胜任复杂多变的任务场景,多具身智能体系统(如人形机器人、四足机器人、机械臂)成为实现通用自主的关键力量[3] - 多具身智能体需要在复杂环境中制定高层任务计划并稳健执行精细操作,但面临异构机器人、不同感知能力与部分可观测性等难题[3] - MARS Challenge通过两条互补赛道推动具身智能研究向真实世界落地,鼓励探索高层规划与低层控制能力[3][4] 赛道1:多智能体具身规划 - 面向异构机器人协同配合环境下的高层任务规划与角色分配,基于ManiSkill平台与RoboCasa数据集[5] - 通过视觉大语言模型完成智能体选择和动作分配,根据自然语言指令挑选最优机器人组合并制定高层动作序列[5][6] - 评估视觉大语言模型在多智能体分配、角色指派与符号规划等方面的推理能力,模拟现实环境中的协作[7][8] 赛道2:多智能体协同控制 - 致力于推动多智能体系统在复杂任务中的协作能力,如机械臂紧密配合堆叠方块等[12] - 基于RoboFactory仿真环境,要求智能体在动态、部分可观测条件下实时交互,设计端到端可部署控制模型[12][13] - 参赛者需通过仿真平台收集数据训练模型,最终提交部署后的模型供测试[12] 比赛安排与参与方式 - 时间安排:热身赛2025年8月18日开启,正式赛9月1日开启,10月31日结束,12月公布结果[25] - 参赛方式:通过比赛主页、微信交流群或Discord群参与,联系邮箱为marschallenge2025@gmail.com[25] - 比赛结果将在NeurIPS 2025的SpaVLE Workshop上公布,参赛者有机会赢得奖金并共同撰写报告[4][25] 行业展望 - 未来不同形态的智能体将协作完成超越单一能力边界的任务,MARS Challenge是推动多具身智能体走向通用自主的重要一步[26] - 该挑战为机器人、计算机视觉、自然语言处理及多模态AI领域的研究者提供了展示创意与技术的全球舞台[26][27]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]
DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)
自动驾驶之心· 2025-08-08 07:32
研究背景与动机 - 视觉语言模型(VLM)在自动驾驶领域的应用兴趣激增,但缺乏对其可靠性和可解释性的系统验证 [3] - 当前VLM能否为驾驶决策提供基于视觉的可靠解释仍属未经验证的假设 [3] DriveBench基准数据集 - 推出DriveBench基准数据集,旨在评估VLM在17种设置下的可靠性 [3] - 数据集包含19,200帧图像、20,498个问答对和三种问题类型 [3] - 覆盖四大核心驾驶任务:感知、预测、规划和行为 [3][7] - 引入15种OoD(Out-of-Distribution)类型以系统性测试VLM在复杂场景中的可靠性 [3][7] - 评估涵盖12个主流VLM模型 [3] 研究内容与结构 - 研究从可靠性、数据和指标三个角度对VLM在自动驾驶中的适用性进行实证分析 [5] - 分享内容包含VLM概述、可靠性基准评估、分析方法和未来应用前景 [9] 技术交流活动 - 加州大学尔湾分校博士生谢少远将于8月8日11:00-12:00通过直播分享DriveBench研究成果 [7][9] - 完整技术细节及深度解析内容已发布于自动驾驶之心知识星球平台 [11]
4000人了,我们搭建了一个非常全栈的自动驾驶社区!
自动驾驶之心· 2025-08-03 08:33
自动驾驶行业现状与趋势 - 自动驾驶技术栈趋同 端到端+大模型成为主流方向 行业从百花齐放进入收敛阶段 [2] - 国内智测量产存在浮躁现象 方案未完全收敛即急于上车 行业需沉淀解决实际问题 [3] - 具身智能领域吸引部分从业者转行 但自动驾驶仍被视为最接近实现的通用具身智能赛道 [3] 技术发展方向 - 未来量产模型将呈现统一、多模态、端到端特征 模块化方法逐渐被淘汰 [3] - 行业对全栈人才需求迫切 需同时掌握感知、规划、预测、大模型及部署优化等技能 [3] - VLA(视觉语言模型)成为2025年热点技术方向 涉及开源数据集、模块化设计及量产方案等研究 [42] 学术与产业资源 - 自动驾驶之心社区整合40+技术路线 覆盖BEV感知、3DGS、世界模型等前沿方向 [5][16] - 汇集60+自动驾驶数据集 包括多模态大模型预训练/微调专用数据集 [32] - 链接国内外顶尖高校实验室(清华、CMU、ETH等)及头部企业(蔚小理、华为、大疆等) [16] 职业发展观察 - 行业薪资仍具竞争力 但面临转型压力 部分从业者权衡高薪与稳定性 [83] - 主机厂与供应商岗位选择成焦点 华为车BU、Momenta等企业技术认可度高 [83] - 应届生职业规划关注技术成长与企业前景 滴滴KargoBot等新兴领域受青睐 [83] 社区生态建设 - 提供学术前沿内容、工业界圆桌会议、开源代码及求职信息 形成产学研闭环 [5][21] - 定期举办超100场专业直播 邀请清华、上海AI Lab等机构专家分享最新成果 [79] - 建立40+开源项目库 涵盖BEV感知、Occupancy Network等关键技术 [30]