Workflow
视觉 - 语言 - 动作模型(VLA)
icon
搜索文档
未来已来!AI飞行器时代,将代替大部分人工
深思SenseAI· 2025-11-06 12:46
传统方案的痛点与无人机架线的优势 高空架线一直以来都是个难题,有着安全隐患,成本效率等问题,而传统无人机又有着负载能力不足的瓶颈。但 Infravision 用创新的技术突破了这些问 题。 在我们了解无人机技术之前,我们先做个简单的科普: 在高压输电线路的架设过程中,除了直升机或人工攀爬施工外,还需要地面绞盘放线和收紧。 我们想象一下这个场景: 清晨的山谷,直升机没有起飞。取而代之的是一台大载重无人机掠过铁塔。不到一上午, 50 公里、 275 千伏 的输电线被一次性连续铺设,安静得像没 人来过。这一刻起,电网施工的默认答案,不再只有直升机与高空攀爬。 Infravision 公司凭借其创新的空中机器人方案,自 2018 年成立以来发展迅速。该公司在 2025 年完成了 9100 万美元的 B 轮融资,业务从澳大利亚起 步,正逐步扩展至北美等全球市场。致力于以更安全、高效和低成本的方式,建设升级全球电网基础设施 。 Infravision 的突破在于,它并未止步于制造一架性能更强的无人机,而是打造了一套集成无人机、地面绞盘和专用牵引器具的完整系统,旨在实现对传统 人工作业和直升机架线模式的全面自动化替代。该系 ...
英伟达一篇长达41页的自驾VLA框架!因果链推理,实车可部署算法Alpamayo-R1
自动驾驶之心· 2025-11-05 08:04
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Yulong Cao等 英伟达许久不见自动驾驶方向的论文工作,昨天直接放了个大招,难得啊。。。 一篇长达41页的自动驾驶VLA框架 — Alpamayo-R1。Alpamayo-R1指出基于模仿学习的端到端架构,在长尾场景中的表现能力很差,这是由于监督信号稀疏并且因 果推理的理解能力不足。另外现有自驾VLA的框架没办法显式约束思维链和决策行为之间的关联,一方面可能出现幻觉的问题,另一方面也没办法保证因果理解的 正确性。举个错误的例子:左转是红灯,但由于直行是绿灯所以允许车辆左转。 为了解决这些问题,Alpamayo-R1将因果链(Chain of Causation)推理与轨迹规划相融合,以提升复杂驾驶场景下的决策能力。本文方法包含三大核心创新: 结果表明,相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%;在闭环仿真中,偏离车道率降低35%,近距离碰撞率降低25%。经强 化学习后训练(RL po ...
Dexmal原力灵机开源Dexbotic,基于PyTorch的一站式VLA代码库
机器之心· 2025-10-22 14:32
机器之心发布 机器之心编辑部 Dexbotic 是一套基于 PyTorch 框架开发的开源视觉-语言-动作模型(VLA)代码库,由 Dexmal 原力灵机重磅推出,主要面向对象为具身智能领域研究者;其整体 架构包含 Data、Experiment、Model 三大核心组件,具备统一模块化 VLA 框架、高性能预训练基础模型、实验导向型开发框架、云端与本地一体化训练、全链路 机器人训练与部署五大特征。 Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库,用户只需配置一次环境,基于所提供的预训练模型,即可在各类仿真环境中复现各类主流 VLA 算 法,通过解决这一行业痛点,为具身智能领域从业者提供一站式 VLA 科研服务。同时,Dexmal 原力灵机还将持续更新和支持更多业界领先的 VLA 模型。 Dexbotic 代码库的整体架构主要包含三大核心层级:数据层(Data Layer)、模型层(Model Layer)和实验层 (Experiment Layer)。数据层定义了 Dexdata 统一格 式以整合多源数据并优化存储空间;基于 Dexdata 格式的数据,系统将自动执行数据处理流程,提取图 ...
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 10:03
核心观点 - 视觉-语言-动作模型(VLA)是将基础模型的智能从数字世界延伸至物理空间的关键技术路径,通过处理视觉与语言输入并生成实时动作,赋能机器人系统[1][9] - 北京大学-灵初智能联合实验室首次提出从动作词元化(action tokenization)视角统一理解VLA模型的新框架,系统分析八种主流action token及其发展趋势[2][8] - VLA模型的快速发展受基础模型与数据资源双重驱动,呈现U形演进结构[15] VLA统一框架与Action Token分类 - VLA模型通用框架:视觉与语言输入经VLA modules逐级处理,生成逐渐具体的action token并转化为动作输出[10][11] - VLA module定义为支持端到端梯度传播的最大可微子网络或不可微功能模块,承担场景感知、动作规划等特定能力[12] - Action token是VLA modules间传递的动作表示,可理解为"动作语言",当前主要分为八类[13][16]: - Language Description(语言描述):分为子任务级language plan和原子动作级language motion[16] - Code(代码):含逻辑控制和机器人API调用的程序代码[22] - Affordance(可操作性):基于空间的交互表示如关键点、边界框等[25][26] - Trajectory(轨迹):时空连续状态序列[29][30] - Goal State(目标状态):任务预期结果的视觉呈现[34] - Latent Representation(隐式表示):预训练得到的动作相关隐向量序列[36] - Raw Action(原始动作):关节角度等底层控制指令[38] - Reasoning(推理):解释动作原因的自然语言思考过程[42] Action Token发展趋势 - 未来VLA模型将采用多种token协同架构:language plan用于高层任务分解,affordance+trajectory+goal state实现精细控制[10][21] - Code需构建更完善机器人API库并引入形式化验证机制以释放潜力[24] - Affordance将向三维表达、时序建模和鲁棒性增强方向发展[33] - Trajectory需突破三维空间表征、轻量化生成和语义融合等挑战[32] - Latent representation需解决粒度、语义覆盖和任务对齐问题[37] - Raw action面临数据规模不足和跨本体泛化等瓶颈[41] - Reasoning需平衡实时性与推理深度[46] 产业化进展 - 灵初智能自研VLA模型Psi R1已在麻将机器人场景验证,将在2025世界人工智能大会展示30分钟连续博弈能力[2][51] - 公司计划在WAIC 2025集中展示外卖机器人、超市打包机器人等应用案例[3] - 技术路线从理论突破走向实际应用,标志具身智能向认知决策和长程操作的关键跃迁[51] 数据支撑体系 - VLA数据金字塔分为三层: - 底层:网络数据与人类视频,建立通用视觉语言理解能力[47] - 中层:合成与仿真数据,提供高性价比动作标签数据[48] - 顶层:真实机器人数据,包含物理世界动态约束[49] - 当前最大规模机器人数据集仅百万级,远低于LLM所需的十亿级语料[41]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]