视觉-语言模型(VLM)

搜索文档
Less is More!Max-V1:面向自动驾驶精巧而强大的视觉-语言模型(复旦&中科院)
自动驾驶之心· 2025-10-08 17:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Sheng Yang等 编辑 | 自动驾驶之心 最近大模型领域开始重新思考对scaling laws的传统认知,前有上交团队针对Agent任务提出的『LIMI: Less is More for Agency』。即数据越多,AI能力未必 越强越强。如今这一思考延伸到自动驾驶领域。自动驾驶VLA/VLM真的需要海量数据吗?或者说应该刨去冗余,提炼真正关键的信息。 自动驾驶之心今天要分享的工作是 复旦和中科院的团队 提出的 Max-V1 —— 全新的一阶段端到端自动驾驶框架。Max-V1将自动驾驶 重新概念化为一种广 义的语言任务 ,并将轨迹规划问题形式化为"下一个waypoint预测"(next waypoint prediction)。 背景回顾与主要贡献 人类驾驶本质上是一个 序列化决策过程 ,其中每一个动作都依赖于对周围场景的实时理解。这种感知与动作之间的动态交互,与自然语言生成具有高度相 似性——后者同样涉及生成高度相关的输出序列。从这一 ...
DeepSeek,重大突发!
券商中国· 2025-09-29 19:16
刚刚,DeepSeek放大招! 今日,DeepSeek宣布,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。DeepSeek介绍,得益于新模 型服务成本的大幅降低,官方API价格也相应下调,新价格即刻生效。在新的价格政策下,开发者调用DeepSeek API的成 本将降低50%以上。 在 DeepSeek-V3.2发布前夕,有消息称,智谱新模型GLM-4.6也将于近日发布,目前已可通过API接口调用。在Z.ai官 网可以看到,GLM-4.5已被标识为上一代旗舰模型。 DeepSeek-V3.2-Exp发布 9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低计算资源 消耗并提升模型推理效率。 目前,华为云已完成对DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 ...
天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心· 2025-08-15 08:05
核心观点 - 提出GeoVLA框架 通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能 包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计 包含点嵌入网络和3D增强动作专家 有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入 缺乏对3D几何信息的利用 限制空间感知能力 [3][7] - 现有3D整合方法存在局限性:LLaVA3D等方案破坏视觉编码器与语言模型对齐 需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构:几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域 提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构 通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征 输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先:空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异:PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点 在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出:点云输入提供精确深度线索 增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强:在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效:点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点 旋转位置编码较1D位置编码提升2.3个百分点 [29][30]