视觉语言模型(VLM)
搜索文档
4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?
自动驾驶之心· 2025-07-31 14:19
社区定位与愿景 - 打造国内首个自动驾驶全栈技术交流平台,连接产业界与学术界,形成学术、产业、求职的闭环生态 [13] - 愿景是推动AI与自动驾驶技术普及,让相关资源触达每位有需求的学习者 [1] - 社区定位为培养未来行业领袖的孵化器,强调内容质量与实用性,避免形式化运营 [3] 核心资源体系 - **技术路线**:梳理40+技术路线,覆盖感知、仿真、规划控制三大方向,包括BEV感知、3DGS、世界模型等前沿领域 [14][15] - **学习资料**:提供原创视频课程(如数据工程、VLA技术等9大系列)、60+数据集、40+开源项目及行业书籍 [4][25][27][23] - **专家网络**:聚集数十位来自头部企业(蔚小理、华为、英伟达等)和顶尖高校(清华、CMU、ETH等)的一线专家 [14] 行业服务功能 - **求职对接**:与多家自动驾驶公司建立内推机制,实时分享实习/校招/社招岗位信息 [4][11][17] - **技术研讨**:组织超100场专业直播,内容涵盖VLA、3DGS、扩散模型等热点,部分场次由顶会论文作者主讲 [74] - **问题解答**:成员可自由提问技术难题(如3D车道线真值生成、BEV精度优化等),获得产业界实战解决方案 [75][79] 前沿领域覆盖 - **关键技术**:深度聚焦VLA(视觉语言模型)、端到端自动驾驶、世界模型等2025年重点方向,提供数据集、算法及量产方案 [35][37][29][33] - **工具链**:整合标定工具、CUDA加速、模型部署等工程化内容,覆盖从研发到落地的全流程 [55][59][61] - **创新应用**:探索3DGS与闭环仿真结合、扩散模型在场景重建中的应用等交叉领域 [31][40] 成员生态 - **用户构成**:成员来自上海交大、CMU等高校实验室及蔚来、大疆等企业,形成产学研协同网络 [14] - **互动模式**:通过圆桌讨论、开源项目协作、日常技术问答(如激光雷达数据处理)促进深度交流 [2][77][79] - **成长路径**:为小白提供入门路线图,为进阶者设计产业级项目方案,实现技术能力阶梯式提升 [8][10]
中科院自动化所!视觉-触觉-语言-动作模型方案与数据集制作分享
具身智能之心· 2025-07-30 08:02
视觉-触觉-语言-动作模型(VTLA)技术突破 - 提出VTLA框架 通过跨模态语言对齐融合视觉与触觉输入 在接触密集型任务中生成鲁棒策略 [2] - 构建低成本多模态数据集 包含专为指尖插入任务设计的视觉-触觉-动作-指令对 [2] - 引入直接偏好优化(DPO) 为VTLA提供类回归监督 弥合分类预测与连续机器人任务间的差距 [2] VTLA性能表现 - 在未知孔型上成功率超过90% 显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA) [2] - 通过真实世界孔轴装配实验验证卓越的仿真到现实(Sim2Real)迁移能力 [2] 相关技术资源 - 论文标题《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》发布于arXiv [3] - 知识星球「具身智能之心」提供完整技术细节 QA及未公开彩蛋 包含VR-Robo BridgeVLA等机器人领域前沿方案 [4]
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源
量子位· 2025-07-16 09:49
视觉语言模型(VLMs)在电影理解领域的突破 - 当前最强大的VLMs在理解电影方面存在局限性,平均准确率低于60%,尤其在细粒度视觉线索和复杂空间推理方面表现不佳 [1][3][6] - 上海人工智能实验室联合多所高校推出ShotBench基准、ShotVL模型及ShotQA数据集,填补了电影摄影语言理解的评测与训练空白 [1][3] - ShotBench包含3,572个高质量问答对,覆盖8个关键电影摄影维度,数据来自200多部奥斯卡提名电影 [1][8][14] ShotBench基准的特点 - 基准包含超过3.5k个专家标注的图像和视频片段问答对 [1] - 涵盖八个核心电影摄影维度:景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和摄像机运动 [1][11][16] - 采用严格的数据标注流程,结合专业标注员和专家监督确保数据质量 [8][9][10] ShotQA数据集与ShotVL模型 - ShotQA包含约7万个电影问答对,是首个大规模综合摄影语言理解数据集 [1][15] - ShotVL采用两阶段训练流程:大规模监督微调(SFT)和群体相对策略优化(GRPO) [15][19][20] - ShotVL-3B模型在ShotBench上平均准确率达65.1%,超越GPT-4o(59.3%)和Qwen2.5-VL-72B-Instruct(59.1%) [3][24][25] 模型性能比较 - 在24个主流VLM评测中,表现最好的现有模型平均准确率不足60% [3][6] - ShotVL-3B相比基础模型Qwen2.5-VL-3B-Instruct平均提升19.0% [3][24] - 开源模型与专有模型之间的总体性能差异微乎其微 [21] 技术实现细节 - 数据来源于奥斯卡最佳摄影奖提名电影,包含3,049张图片和464个视频片段 [8][14] - 标注流程包括数据策展、标注员培训、QA标注和严格验证 [9][10][14] - 两阶段训练中,GRPO策略显著提升了模型性能,尤其在摄像机运动维度 [26][27][28] 行业影响与开源贡献 - 该研究为AI驱动的电影理解和生成领域提供了专业模型基座 [29] - 团队开源了模型、数据和代码,促进该领域快速发展 [4][30] - 3B参数模型超越GPT-4o,为行业提供了高性能低成本的解决方案 [24][29]
CEED-VLA:实现VLA模型4倍推理加速,革命性一致性蒸馏与早退解码技术!
具身智能之心· 2025-07-10 21:16
视觉语言动作模型(VLA)加速技术 - 提出CEED-VLA框架,通过Jacobi Decoding和Early-exit Decoding策略实现推理速度提升,最高达4.1倍加速比和执行频率4.3倍提升 [2][6][15] - 引入一致性蒸馏机制与混合标签监督方法,确保学生模型从中间状态准确预测动作,保留操作技能 [9][11][13] - 识别Jacobi解码迭代效率瓶颈,通过提前退出策略优化高频任务执行,保持成功率的同时减少冗余计算 [15][20] 模型架构与训练方法 - 框架基于预训练VLA模型(如LLaVA-VLA)生成训练数据,结合一致性损失(KL散度)和自回归损失进行联合优化 [6][12][14] - 混合标签监督动态调整样本标签,对偏差较大样本采用真实标签,提升模型鲁棒性 [13][19] - 消融实验显示混合标签方案速度提升2倍,平均预测长度3.67,优于纯教师模型或真实标签方案 [19][21] 性能评估结果 - 在CALVIN基准测试中,CEED-VLA固定token数达13.5,速度提升2倍,显著优于PD-VLA(8.75 token,1.33倍)和基线模型 [20] - 真实世界任务(如叠毛巾)成功率超70%,机械臂动作连续性优于LLaVA-VLA,后者因低频控制常出现抓取失败 [30][31] - LIBERO LONG基准测试显示,模型在长序列任务中保持高效执行,任务完成率与推理速度同步优化 [22][23] 技术对比与创新 - Jacobi解码并行输出token但收敛条件严格,Early-exit策略通过预设步数提前输出,利用后期token变化微小特性提升效率 [15] - 一致性训练使中间点收敛至固定点,KL散度约束分布差异,自回归损失继承教师模型能力 [9][12][14] - 开源代码与Arxiv论文提供完整实现细节,包括轨迹收集、蒸馏流程和解码优化 [4][6]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 12:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 20:06
核心观点 - JarvisIR是基于视觉语言模型(VLM)的智能图像恢复系统,通过动态调度多个专家模型处理复杂天气下的图像退化问题,实现更鲁棒、更通用的图像恢复能力[5][9] - 系统在CleanBench-Real数据集上平均感知指标提升50%,显著优于现有方法[9][47] - 提出MRRHF对齐算法,结合监督微调与人类反馈,提升模型在真实场景下的泛化能力和决策稳定性[9][27] 方法详解 JarvisIR架构设计 - 核心思想是将VLM作为控制器,协调多个专家模型完成图像恢复任务[7] - 工作流程包括任务解析、任务规划、模型调度和结果整合四个步骤[10] - 首个将VLM作为控制器的图像恢复系统,能够自主规划任务顺序并选择合适的专家模型[9] CleanBench数据集 - 包含150K合成数据和80K真实世界数据,涵盖夜景、雨天、雾天、雪天等多种恶劣天气条件[12][15][18] - 每条训练样本是一个三元组(用户指令、退化图像、响应),支持训练与评估[18][19] - 填补了真实世界图像恢复数据的空白,推动社区发展[52] 两阶段训练框架 - 第一阶段监督微调(SFT)使用合成数据,目标是让VLM初步掌握图像恢复任务[23][25] - 第二阶段MRRHF对齐算法结合离线采样与在线采样策略,引入熵正则化项提升模型稳定性与泛化能力[27][30][33] - 总体损失函数由排名损失、微调损失和熵正则化损失三部分组成,协同优化模型[39][40] 实验与结果分析 决策能力对比 - JarvisIR-MRRHF在工具决策能力上显著优于其他策略,得分6.21,排名4.8%[44] - 优于随机顺序和模型、预定义顺序和模型以及人类专家等策略[44] 图像恢复性能对比 - 在夜景、雨天、雾天、雪天四种场景下均优于现有all-in-one方法[45] - 具体指标如MUSIQ在夜景场景达到67.25,雾天场景达到74.22,显著领先其他方法[45] 技术亮点总结 - 首次将VLM应用于图像恢复系统的控制中枢,具备强大的上下文理解和任务规划能力[52] - 提出MRRHF对齐算法,解决真实数据无标签问题,提升泛化能力[52][53] - 发布高质量数据集CleanBench,推动社区发展[52][53]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 17:27
视觉语言模型(VLM)技术突破 - 视觉语言模型正经历从「感知」到「认知」的关键跃迁,实现多模态交互的全新可能 [1][2] - 传统VLM依赖文本token间接翻译视觉信息,导致在高清图像微小物体、视频动态细节等场景中表现不足 [2] - 研究团队提出「像素空间推理」范式,将推理战场从文本空间拓展到像素空间,实现原生视觉操作 [2][3] 像素空间推理的核心优势 - 模型可自主触发视觉变焦、时空标记等原生操作,在像素矩阵上直接完成闭环推理,避免信息衰减 [6] - 视觉主导推理机制使模型能捕捉传统方法难以处理的空间关系与动态细节,如具身视觉导航、复杂视频理解等场景 [6] - 打破文本对视觉语义的「翻译牢笼」,实现与人类视觉认知同构的推理能力 [7] 学习陷阱与激励机制 - 指令微调模型面临「认知惰性」挑战,表现为负面反馈循环和路径依赖惯性 [8] - 研究团队设计内在好奇心激励配合外在正确性激励的强化学习方案,鼓励模型练习视觉操作 [9][10] - 通过像素推理率约束和操作效率约束,在探索与计算成本间找到平衡 [10][11] 性能表现与行业影响 - 基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大视觉推理基准测试中表现优异:V* Bench 84.3%准确率,超越GPT-4o和Gemini-2.5-Pro [13][15] - 在TallyQA-Complex、InfographicsVQA、MVBench等测试中均实现显著性能提升,展现「小模型大能力」特性 [19][20] - 像素空间推理为VLM开启「第二思维通道」,推动多模态模型真正理解世界复杂性 [21]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 21:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]
华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2· 2025-04-23 21:34
具身智能导航技术现状与分类 - 现有视觉语言导航(VLN)方法分为三类:基于大语言模型(LLM)的导航依赖自然语言描述但缺乏高维语义信息[4][5],基于价值地图的导航解决长时记忆遗忘但易产生次优解[5],基于视觉语言模型(VLM)的导航促进上下文感知但需权衡泛化性与实时性[5] - 主流方法面临四大核心挑战:复杂环境布局导致决策困难[6],未知环境自适应需理解人类指令[6],LLM语言表征丢失几何信息[6],VLM单一视角导致观测不完整[6] MEM2EGO框架创新设计 - 记忆模块采用三层架构:frontier地图标记未知/可通行区域边界[11][15],访问记录避免冗余检索[12],语义地标记忆存储全局坐标和场景描述(如"水槽旁有浴缸")[13] - 导航流程实现八步闭环:360°全景观测突破单一视角限制[14],候选点聚类优化路径规划[14],历史地标检索结合思维链提示实现多模态决策[20][21],动态更新语义记忆[23] 技术实现与微调策略 - 数据采集使用A*算法生成真实轨迹,通过贝塞尔曲线平滑处理[24],从5678个任务生成30352对VQA数据[26] - 模型微调采用Llama3 2-11B-Vision模型,3周期训练batch_size=128,学习率1e-5[26],GPT-4o生成地标描述增强语义理解[24] 实验性能验证 - 在HSSD数据集成功率(SR)达86 85%,超越基线PIVOT(78 4%)和VLFM(76 52%)[30],HSSD-Hard数据集SR提升12 75个百分点至76 47%[30] - 微调后Llama3 2-11B模型SPL达59 95%,优于原始版本(55 82%)和GPT-4o(57 88%)[31],消融实验显示移除语义记忆导致SR下降3 29%[34] 技术局限与发展方向 - 当前框架过度依赖VLM空间推理能力,文本化存储可能导致语义信息丢失[36] - 未来需探索多视角图像并行处理技术[36],突破单一视角的空间推理瓶颈