Workflow
SmolVLA
icon
搜索文档
AnywhereVLA:在消费级硬件上实时运行VLA
具身智能之心· 2025-09-29 10:08
核心观点 - AnywhereVLA提出了一种模块化架构,旨在融合经典导航的鲁棒性与视觉语言动作模型的语义理解能力,以解决在未知大型室内环境中执行语言驱动拾取-放置任务的技术瓶颈 [3] - 该方案设计可在消费级硬件上实时运行,针对家庭服务、零售自动化、仓储物流等开放、非结构化场景 [3] 相关工作回顾:现有方案的优势与不足 - 通用视觉语言动作模型缺乏空间感知能力,难以应对大型环境 [4] - 视觉语言导航方案需预先知晓目标物体的环境位置,在动态或未探索场景中不实用 [4] - 经典导航框架缺乏语言理解与语义推理能力,无法执行语言驱动的目标导向任务 [4] - 轻量化视觉语言动作模型泛化能力仅局限于操作领域,缺乏环境探索能力 [5] - 结合视觉语言导航与SLAM的方案在185平方米环境中需10-15分钟完成探索,效率低下 [5] AnywhereVLA架构:四大核心模块与工作流 - 工作流逻辑为语言指令解析,同步指导视觉语言动作操作与主动探索,构建3D语义地图,通过前沿探索定位目标,由趋近模块导航至预抓取位姿,最后视觉语言动作执行操作 [7] - 带置信度的3D语义地图模块核心功能是融合多传感器数据,构建含目标类别、几何信息与置信度的语义点云地图 [7] - 主动环境探索模块基于“前沿探索”策略,结合语言指令中的目标类别定位目标物体 [11] - 趋近模块核心是计算机械臂可操作的安全基座位姿,确保后续视觉语言动作操作能稳定执行 [12] - 视觉语言动作操作模块基于微调后的SmolVLA模型,将视觉上下文与语言子目标转化为机械臂的抓取/放置动作 [12] VLA模型微调与硬件平台 - 模型微调使用NVIDIA RTX 4090,数据集为50个SO-101机械臂的拾取-放置片段 [15] - 训练参数包括批量大小16,余弦衰减学习率调度器,AdamW优化器 [15] - HermesBot移动操作平台专为AnywhereVLA设计,平衡传感与计算能力 [16] - 计算硬件分配中,SLAM模块处理频率10赫兹,处理时间25毫秒;语义地图模块处理频率2赫兹,处理时间45毫秒;视觉语言动作模块处理频率5赫兹,处理时间20毫秒 [16] 实验结果:性能与有效性验证 - 在未知多房间实验室中执行50次拾取-放置任务,整体成功率为46% [17][22] - 微调后的SmolVLA操作模块成功率达85%,未微调时整体成功率仅10% [22] - 各模块单独成功率分别为:SLAM 100%,主动环境探索 75%,目标检测 90%,导航 80%,视觉语言动作操作 85% [22] - 探索半径为5米时,平均任务完成时间小于133秒;探索半径为10米时,完成时间小于10分钟 [23]
VLA-Adapter:以0.5B参数实现机器人智能新高度,还无需预训练
具身智能之心· 2025-09-17 11:14
>> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能之心 "公众号 | | OpenVLA-OFT (soTA) | | VLA-Adapter (Ours) | | --- | --- | --- | --- | | Backbone ↓ | 7B | 0.5в | 1/14× | | Fine-tuning Cost ↓ | 304GPU·h | 8GPU.h | 1/38× | | Training VRAM (8 batch)↓ | 62GB | 24.7GB | 0.4× | | Throughput (8-dim chunk) ↑ | 71.4Hz | 219.2Hz | 3× | | Performance (LIBERO) ↑ | 97.1% | 97.3% | Maintain | | VLM # / 3 | Bridge | Policy | Frozen | | | | | ు Trainable | | / IRGB L Instuction | A ...
GPT重大更新,Hugging Face发布开源机器人AI模型
每日经济新闻· 2025-06-05 08:57
市场表现 - 科创人工智能ETF华夏(589010)上涨0.2%,持仓股中奥普特领涨4.65%,有方科技上涨2.96%,金山办公上涨2.72% [1] - 机器人ETF(562500)上涨0.6%,持仓股中亿嘉和领涨5.65%,奥普特上涨4.65%,绿的谐波上涨4.61% [1] - 当日机器人ETF交易金额达4.41亿元,居同类ETF首位,换手率3.43%,市场成交活跃 [1] OpenAI动态 - OpenAI推出ChatGPT重大更新,包括macOS会议记录模式和MCP协议支持,实现跨平台数据整合与协作功能 [2] - OpenAI付费企业用户突破300万,较2月份200万增长50%,涵盖企业版、团队版和教育版客户 [2] - OpenAI预计2025年营收127亿美元,较去年9月预测的37亿美元大幅上调243% [2] 行业技术进展 - Hugging Face发布开源机器人AI模型SmolVLA,参数规模4.5亿,可在消费级GPU运行,异步推理堆栈提升环境响应速度 [3] 机构观点 - 广发证券指出AI板块调整3个月后具备反攻条件:TMT成交额占比回落至2023年区间下沿,融资余额处于年内底部 [4] - 6月密集的大厂发布会成色可能成为行情关键催化剂 [4] ETF产品特征 - 机器人ETF(562500)规模破百亿,覆盖中国机器人产业链最全,流动性最佳 [5] - 科创人工智能ETF华夏(589010)聚焦AI产业,具备20%涨跌幅和中小盘弹性特征 [5]