UniVLA

搜索文档
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 08:03
核心观点 - FlowVLA模型通过视觉思维链(Visual CoT)原则解决传统VLA世界模型的根本缺陷,将动态运动与静态外观解耦,显著提升长时程预测的物理合理性和下游任务样本效率 [1][8][36] - 模型在单自回归Transformer中统一外观与运动推理,采用"帧→光流→帧"的两阶段结构化预测流程,避免像素复制陷阱并增强物理动态理解 [9][12][14] - 实验验证显示,FlowVLA在LIBERO和SimplerEnv基准测试中达到最先进性能,长时程任务成功率提升显著,低数据场景下样本效率优势达55% [20][22][30] 技术架构创新 - 引入视觉思维链(Visual CoT)原则,强制模型先预测中间光流编码运动动态,再基于光流生成未来帧,实现动态与外观学习的解耦 [8][12][14] - 采用共享分词方案,将2通道光流场转换为RGB类图像,通过相同VQ-GAN分词器处理光流与原始帧,保持参数效率和架构简洁性 [9][15] - 两阶段训练范式:预训练阶段从无动作视频学习通用物理规律,微调阶段适配机器人控制任务,损失函数仅针对动作令牌计算 [15][16][19] 性能表现 - LIBERO数据集平均成功率88.1%,超越所有对比模型,其中长时程任务成功率72.6%较基线提升显著 [20][21] - SimplerEnv数据集平均成功率74.0%,在视觉偏移场景(如堆叠积木任务62.5%)表现优异,验证对真实环境变化的强适应性 [22][23] - 低数据场景下峰值成功率比基线高55%,仅用1000训练步数即超越基线峰值性能,样本效率优势显著 [30][32] 关键组件验证 - 消融实验显示:移除Visual CoT结构使成功率下降至64.0%,移除光流监督降至69.5%,证明核心设计必要性 [33][34] - 定性分析表明FlowVLA预测结果符合物理规律(无机械臂消失或物体运动异常),且与语言指令语义对齐 [24][26][29] - 统一分词方案和交错序列格式贡献49.4%基础性能,分组序列结构对整体效果有关键影响 [33][34] 行业价值定位 - 突破传统VLA模型端到端学习局限,提供动态优先的世界模型构建范式,为通用机器人开发奠定物理推理基础 [35][36] - 解决预训练被动观测知识与策略学习主动控制知识的领域差距,显著降低下游任务微调成本和收敛时间 [7][10][30] - 光流预测提供任务无关的低层物理理解,可作为高层控制基础,弥补现有具身推理方法在物理动态建模方面的不足 [35][36]
重磅直播!RoboTwin2.0:强域随机化双臂操作数据生成器与评测基准集
具身智能之心· 2025-07-15 21:49
双臂机器人训练瓶颈 - 真实示教数据规模化获取成本高耗时长 难以覆盖足够多任务物体形态与硬件差异 [2] - 现有仿真缺乏针对新任务的高效可扩展专家数据生成方法 [2] - 域随机化设计过于表层 无法模拟真实环境中的复杂性 [2] - 未考虑不同双臂平台在运动学与抓取策略上的行为差异 导致数据合成方案难以在新环境或新硬件上泛化 [2] 技术资源与竞赛 - RoboTwin平台提供代码库论文及使用文档 涉及双臂机器人仿真与训练 [3] - CVPR RoboTwin竞赛技术报告展示真实场景机器人导航与运动控制方案 [3][4] - BridgeVLA方案实现真机性能提升32% [4] 行业技术进展 - VR-Robo技术通过real2sim2real框架助力真实场景机器人导航与运动控制 [4] - UniVLA方案高效利用多源异构数据构建通用可扩展机器人动作空间 [5] - 行业关注遥操技术流畅度对机器人操作性能的影响 [5] 深度内容获取 - 具身智能之心知识星球提供完整技术细节QA及未公开彩蛋 涵盖双臂机器人训练仿真等专题 [1][4]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]
智元机器人联合香港大学推出的UniVLA入选RSS | 投研报告
中国能源网· 2025-05-16 09:43
市场表现 - 2025年5月14日沪深300指数上涨1.21%,机械板块下跌0.43%,在一级行业中排名第29 [1][2] - 细分行业中半导体设备涨幅最大(+0.79%),工程机械跌幅最大(-1.96%) [1][2] - 个股涨幅前三:恒而达(+20.00%)、中集环科(+19.97%)、大叶股份(+12.98%) [1][2] - 个股跌幅前三:磁谷科技(-8.20%)、信宇人(-7.46%)、德马科技(-6.19%) [1][2] 公司公告 - 新时达股东王春祥减持0.15%股份,减持前持股比例分别为2.12%和1.25% [3] - 光格科技股东北京基石创业投资基金减持0.27%股份,减持前持股5.00% [3] - 凤形股份股东江西泰豪技术减持1.02%股份,减持前持股7.92% [3] - 卓兆点胶股东英豪创业投资减持0.2914%股份,减持前持股1.2230% [3] 高管变动 - 天宜上佳总裁杨铠璘辞职,改聘孟利为新任总裁,杨铠璘保留副董事长职务 [4] - 中国铁物董事袁宏词辞去董事及提名委员会委员职务,监事侯治国辞去监事职务 [5] 行业创新 - 智元机器人与香港大学联合推出通用策略学习系统UniVLA,实现跨本体/场景/任务的机器人控制,预训练GPU耗时仅为竞品1/20,在LIBERO仿真平台四项指标平均成功率提升18.5% [6] - UniVLA仅用10%数据即在LIBERO-Goal达到62.4%成功率,显著优于OpenVLA(11.6%)和OpenVLA-OFT(43.0%) [6] 技术突破 - 郑州信大壹密科技发布国内首款实用化抗量子密码芯片"密芯PQC01",国产化率100%,采用28nm工艺,功耗降低60% [7][8] - 该芯片集成国际格基算法与国产标准化算法,支持动态切换加密模式,达到金融级安全认证标准 [7][8] - 已与苏州国芯科技、郑州大学合作推进政务、金融等场景试点应用 [8]