视觉 - 语言 - 动作模型(VLA)

搜索文档
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 10:03
机器之心发布 机器之心编辑部 如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。研究者开始探索如何将这种智能从数字世 界延伸至 物理空间 ,以实现 具身智 能 。这其中最受关注的前沿方向之一,便是 视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA) 。此类模 型借助基础模型的通用能力与大规模学习范式,可以处理通用的视觉(Vision)与语言(Language)输入,并生成实时动作(Action),极大地赋能了机器人系 统。 近两年来,VLA 相关研究爆发式增长,技术路线日新月异 —— 但这也造成了认知碎片化与理解上的困难。现有分类方法如 "大脑 - 小脑"、"快慢系统"、"分层 - 端到端" 等,直觉清晰但本质仍不明确。 领域急需系统化的分析框架,以梳理研究现状,指明未来方向。 为此, 北京大学 - 灵初智能联合实验室首次从动作词元化(action tokenization)视角,提出统一理解 VLA 模型的新框架 。综述系统分析了八种主流 action token,探讨了不同动 ...
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
以下文章来源于深蓝AI ,作者迟浩瀚 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 迟浩瀚 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 推荐语:自动驾驶领域的视觉-语言-动作(VLA)模型虽前景可期,却在非结构化边界场景中表现欠佳,主要归因于针对性基准数据的稀缺。为此,这 篇研究推出Impromptu VLA解决方案。核心贡献在于构建了Impromptu VLA数据集:该数据集包含8万余条精细构建的视频片段,提炼萃取自8个开源 大规模数据集中的200余万条原始素材。 本文由论文一作迟浩瀚 论 文题目: Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models 论文作者: Haohan Chi, Huan-ang Gao, Ziming Liu, Jianing Liu, Chenyu Liu, Jinwei Li ...