通用机器人策略的边缘部署 - 财报，业绩电话会，研报，新闻

通用机器人策略的边缘部署

搜索文档

边缘设备上高效运行！NanoVLA ：保留 VLA 模型的精度与泛化能力，推理速度提升 52 倍

具身智能之心· 2025-11-02 00:03

文章核心观点 - NanoVLA模型通过创新的“视觉-语言解耦融合+长短动作分块+动态路由”架构，解决了通用视觉-语言-动作模型在边缘设备上部署时“通用化”与“轻量化”的矛盾 [2] - 该模型在保持甚至超越现有大型VLA模型任务精度与泛化能力的同时，将推理速度提升52倍，参数量压缩98%，首次实现在资源受限的边缘设备上高效运行通用机器人策略的目标 [2][19][32] 技术瓶颈与解决思路 - 传统VLA模型存在三大设计瓶颈：模态融合冗余导致高延迟、动作执行僵硬导致运动失准、模型容量错配导致资源浪费与性能不足并存 [3] - NanoVLA的突破思路并非单纯缩小模型，而是重构推理逻辑，通过解耦静态指令与动态视觉、分阶段规划动作、自适应选择骨干网络，实现计算资源的“按需分配” [3] 核心架构模块 - **视觉-语言解耦融合与缓存**：分离模态编码并延迟融合时机，对静态指令特征进行缓存复用，仅需动态更新视觉嵌入，使计算量减少62% [8][12] - **长短动作分块**：训练时学习长序列依赖以保证动作连贯性，推理时执行短窗口并结合高频环境反馈重新规划，在LIBERO长任务中成功率比固定长序列执行高16%，动作抖动减少30% [9][11][13][14] - **动态路由**：引入轻量级路由器，根据任务复杂度自适应选择轻量或重量级骨干网络，使简单任务中轻量骨干使用占比超80%，平均参数量降至296M，仅为OpenVLA的4% [15][18][21] 性能表现 - **模拟基准测试**：在LIBERO基准上，NanoVLA-R版本取得84.1%的平均成功率，比7.5B参数量的OpenVLA高7.6%，比450M参数量的SmolVLA高5.5% [20] - **真实机器人测试**：在搭载Jetson Orin Nano的LeRobot机器人上，NanoVLA在12类真实任务中的平均成功率达85.6%，超越OpenVLA的80.4% [26] - **边缘设备效率**：在Jetson Orin Nano上，NanoVLA-R的推理速度达到41.6 FPS，是OpenVLA（0.8 FPS）的52倍，同时在LIBERO-Goal任务上成功率提升8个百分点 [22][29] 行业意义与未来方向 - NanoVLA为通用机器人策略的边缘部署提供了不牺牲精度的轻量化路径，其架构范本可直接复用于工业巡检、家庭服务、嵌入式操控等产业化场景 [30][32] - 未来技术演进方向包括融入触觉/力觉等多模态信号以提升操作精度、通过知识蒸馏实现端到端轻量化、以及扩展适配双臂、移动机器人等多机器人形态 [31]