理想连发两篇VLA机器人论文

核心技术发布 - 公司发布Compressor-VLA与AVA-VLA两项技术，旨在解决机器人操作场景中端到端模型过重、过慢及健忘的核心落地难题[1] 现有问题分析 - 现有具身智能大模型存在严重算力浪费，耗费巨量算力处理无关视觉信息（如背景墙纸、地板纹理），导致推理延迟过高，无法满足机器人实时控制需求[2] - 传统任务无关压缩算法在压缩过程中会误删关键任务线索，例如为降低计算量可能保留清晰的桌布图案却丢弃模糊但至关重要的物体边缘或把手位置[2] - 主流VLA模型采用单帧处理模式，丢弃历史上下文信息，导致在面临遮挡、动态变化或长序列任务时因看不懂因果关系而表现笨拙[8] Compressor-VLA解决方案框架 - 采用双通道互补结构：通道一（指挥官）负责全局宏观语义提取，通道二（工匠）负责局部空间几何细节保留，所有视觉处理需先经过语言指令过滤和调制[3] - 核心驱动力为指令即滤镜，直接复用VLA模型内部语言向量，将自然语言指令转化为信号向量动态调整视觉处理器参数，实现智能像素权重调节[4] - 语义任务压缩器使用交叉注意力机制，根据语言指令生成可学习探针进行全局扫描，仅提取任务相关语义信息（如指令为拿杯子则只提取杯子相关信息）[5] - 空间精炼压缩器使用局部窗口注意力机制，将图片切分小窗口并注入语言指令提示，在保留原始空间结构前提下高亮显示任务相关细节（如物体边缘、抓取点）[6] AVA-VLA解决方案框架 - 设计信念状态生成器，负责压缩并保存上一时刻模型思考状态作为短期记忆向量[9] - 核心主动视觉注意力模块结合记忆和当前指令，指导视觉编码器主动搜索画面关键点（如重点看左下角把手，忽略背景桌子）[9] - 采用交叉检索策略，以当前图像特征为查询方，上一时刻记忆向量为被查询方，计算连续增益系数以放大关键区域信号（如物体边缘）并衰减无关区域信号（如背景墙）[9][10] - 训练时引入注意力平衡惩罚机制，强制所有视觉Token平均权重维持在合理预设值（如0.6）附近，防止模型偷懒，必须有选择性地分配注意力[10] 技术效果与优势 - 数据流转过程为：感知输入（图像+文本指令）→指令调制→双轨并行处理（语义路提取概念Token，空间路提取特征Token）→融合决策→动作输出（机械臂控制信号）[6] - 推理采用循环推流模式：初始化空记忆→感知与加权（读当前帧，调上一帧记忆，AVA计算权重，增强视觉特征）→决策与更新（预测动作，刷新记忆）→循环下一帧[11] - 相比于单帧处理的OpenVLA，AVA-VLA在光照变化、背景干扰和物体布局变动等高噪声环境下成功率显著提升[11] - AVA模块可删除低权重视觉Token，实验表明即使删除90%视觉信息仅保留10%核心内容，机器人操作成功率几乎无下降，推理速度可大幅提升[11]