SmolVLA
搜索文档
a16z 最新洞察:具身智能从 Demo 到落地,必须跨越的5个鸿沟
36氪· 2026-01-16 22:02
文章核心观点 - 机器人行业的研究进展迅速,已跨越“可行性”门槛,但规模化部署面临严峻挑战,真正的瓶颈在于从研究成果到生产系统的转化过程[2][3] - 制约具身智能落地的关键并非模型能力不足,而是一系列工程、部署和运营层面的系统性挑战,这些挑战构成了研究与生产之间的“部署差距”[2][10] - 填补“部署差距”需要构建机器人领域的基础设施和生态系统,而非仅依赖模型升级,这场竞赛与中美科技竞争路径高度相关[28][32] 机器人技术研究进展 - 视觉-语言-动作模型带来范式变革,将语义理解、视觉感知与动作生成统一建模,代表性工作包括谷歌RT-2、Physical Intelligence的π系列、GEN-0、GR00T N1等[5] - 仿真到现实的迁移持续改善,领域随机化和世界模型正在缓解仿真不真实的问题[6] - 跨平台泛化成为共识,例如Open X-Embodiment项目整合了20多种机器人平台的百万级轨迹数据,提升了模型在陌生硬件上的成功率[7] - 灵巧操作能力扩展至可变形物体、工具使用和高接触复杂任务[8] - 整体上,机器人智能研究已跨过“可行性”门槛[9] 研究与部署的现状对比 - 研究领域由大模型实验室和前沿初创公司主导,而部署领域的主角仍是工业机器人OEM和区域系统集成商,两套体系尚未真正融合[12][13] - 工厂中大多数工业机器人仍执行高度确定性的预编程流程,如重复焊接和固定抓取[10] - 仓库拣选是少数接近研究能力的场景,但部署系统通常只在结构化环境(受控光照、固定布局)中运行,实验室的“杂乱环境任意物品拣选”能力距规模化仍有差距[11] - 人形机器人更多停留在试点和展示阶段,是开发平台而非可直接采购部署的生产工具[11] 制约规模化部署的五大因素 - **分布变化与成功率幻觉**:研究系统在与训练数据分布一致的环境中评估(如95%成功率),但真实世界的光照、视角、物体材质等变化可能导致成功率骤降至60%[14][15] - **可靠性阈值差异**:研究中95%成功率是优秀结果,但生产中95%意味着每天几十次故障,制造系统通常要求99.9%以上的稳定性[16][17] - **算力与延迟悖论**:VLA模型参数规模增大导致推理延迟增加,而机器人控制需要20–100Hz的高频实时响应,即便7B级模型在边缘硬件上也难以满足,云端推理则引入网络延迟[19] - **被低估的系统集成**:部署需嵌入WMS、MES、ERP等既有系统,并面临安全认证挑战,现行标准是为程序化机器人设计,难以证明神经网络模型的安全性[22][23] - **维护体系缺口**:研究系统由研究人员维护,生产系统由技师维护,学习型机器人的异常行为(可能涉及感知、策略、控制、硬件)难以用现有维护体系进行“调试”[24] - 以上问题相互关联形成负反馈链:分布变化导致失败,失败增加人工干预与成本,成本限制规模与数据收集,进而加剧分布问题[26] 填补部署差距的潜在方向 - 需要构建机器人领域的DevOps和基础设施,而非仅依赖如GPT-5的大模型升级[28] - 在数据收集阶段建立远程操作基础设施,使机器人在劳动中创造价值的同时收集数据,形成飞轮效应[28] - 提升AI可靠性,使其学会“优雅地失败”(如无法完成任务时主动响应),并引入传统代码作为安全兜底[28] - 开发为边缘部署设计的高效模型(如Hugging Face的SmolVLA)或专用芯片,而非将通用GPU塞入机器人[28] - 机器人更可能以生态系统方式演进:通用能力打底,针对具体任务微调,逐步扩展应用边界[31] 行业竞争格局与中美路径 - 行业普遍认为美国在“大脑”领先,致力于打造超级智能和顶尖VLA模型;中国在“身体”上占统治地位,拥有最庞大的工业机器人部署量和最复杂的制造业场景[32] - 美国的策略是推高能力上限,中国的策略是拓宽应用广度,解决“部署差距”并将技术优势转化为经济价值的一方将成为下一个时代的赢家[32] - 模型能力领先不自动转化为经济价值,部署能力往往决定最终的产业规模,机器人部署差距与中美AI路径分化高度相关[32]
AnywhereVLA:在消费级硬件上实时运行VLA
具身智能之心· 2025-09-29 10:08
核心观点 - AnywhereVLA提出了一种模块化架构,旨在融合经典导航的鲁棒性与视觉语言动作模型的语义理解能力,以解决在未知大型室内环境中执行语言驱动拾取-放置任务的技术瓶颈 [3] - 该方案设计可在消费级硬件上实时运行,针对家庭服务、零售自动化、仓储物流等开放、非结构化场景 [3] 相关工作回顾:现有方案的优势与不足 - 通用视觉语言动作模型缺乏空间感知能力,难以应对大型环境 [4] - 视觉语言导航方案需预先知晓目标物体的环境位置,在动态或未探索场景中不实用 [4] - 经典导航框架缺乏语言理解与语义推理能力,无法执行语言驱动的目标导向任务 [4] - 轻量化视觉语言动作模型泛化能力仅局限于操作领域,缺乏环境探索能力 [5] - 结合视觉语言导航与SLAM的方案在185平方米环境中需10-15分钟完成探索,效率低下 [5] AnywhereVLA架构:四大核心模块与工作流 - 工作流逻辑为语言指令解析,同步指导视觉语言动作操作与主动探索,构建3D语义地图,通过前沿探索定位目标,由趋近模块导航至预抓取位姿,最后视觉语言动作执行操作 [7] - 带置信度的3D语义地图模块核心功能是融合多传感器数据,构建含目标类别、几何信息与置信度的语义点云地图 [7] - 主动环境探索模块基于“前沿探索”策略,结合语言指令中的目标类别定位目标物体 [11] - 趋近模块核心是计算机械臂可操作的安全基座位姿,确保后续视觉语言动作操作能稳定执行 [12] - 视觉语言动作操作模块基于微调后的SmolVLA模型,将视觉上下文与语言子目标转化为机械臂的抓取/放置动作 [12] VLA模型微调与硬件平台 - 模型微调使用NVIDIA RTX 4090,数据集为50个SO-101机械臂的拾取-放置片段 [15] - 训练参数包括批量大小16,余弦衰减学习率调度器,AdamW优化器 [15] - HermesBot移动操作平台专为AnywhereVLA设计,平衡传感与计算能力 [16] - 计算硬件分配中,SLAM模块处理频率10赫兹,处理时间25毫秒;语义地图模块处理频率2赫兹,处理时间45毫秒;视觉语言动作模块处理频率5赫兹,处理时间20毫秒 [16] 实验结果:性能与有效性验证 - 在未知多房间实验室中执行50次拾取-放置任务,整体成功率为46% [17][22] - 微调后的SmolVLA操作模块成功率达85%,未微调时整体成功率仅10% [22] - 各模块单独成功率分别为:SLAM 100%,主动环境探索 75%,目标检测 90%,导航 80%,视觉语言动作操作 85% [22] - 探索半径为5米时,平均任务完成时间小于133秒;探索半径为10米时,完成时间小于10分钟 [23]
VLA-Adapter:以0.5B参数实现机器人智能新高度,还无需预训练
具身智能之心· 2025-09-17 11:14
文章核心观点 - VLA-Adapter模型在机器人视觉-语言-行动领域实现突破,以仅0.5亿参数的轻量化设计,在性能上媲美甚至超越70亿参数的顶尖模型,同时大幅降低训练和部署成本 [4][11] - 该模型的核心创新在于提出了一种全新的桥接范式,通过高效的桥接注意力机制,解决了传统VLA模型对大规模预训练模型和高计算成本的依赖问题 [11][12] - 在多个基准测试中,VLA-Adapter展现出卓越的性能和强大的泛化能力,为机器人技术的实际应用和普及降低了门槛 [19][21][28] 技术方案与创新 - VLA-Adapter采用基于Qwen2.5-0.5B训练的Prismatic VLM作为骨干网络,参数仅0.5亿,无需机器人数据预训练 [11] - 其创新的桥接注意力机制包含两次交叉注意力和一次自注意力,通过可学习参数动态调节特征注入比例,确保训练稳定性和性能优化 [12][14] - 模型设计关键发现包括:使用VLM的中层特征更优、动作查询的深层特征更具优势、全层特征具有更好普适性,从而避免了选择最优特征层的繁琐过程 [18] 性能与效率优势 - 训练成本极低,仅需8 GPU·小时,是OpenVLA-OFT模型(304 GPU·小时)的1/38,可在单张消费级GPU上完成 [3][11][15] - 训练VRAM占用大幅降低至24.7GB,仅为对比模型的0.4倍;推理吞吐量高达219.2Hz,延迟仅0.0365秒,是对比模型的3倍 [3][15] - 在LIBERO基准测试中平均成功率达到97.3%,超越70亿参数的OpenVLA-OFT(97.1%);在CALVIN ABC→D零样本泛化任务中平均任务完成长度达4.42,表现最佳 [3][19][21][22] 实际应用潜力 - 模型的高推理速度和低延迟使其特别适合需要实时响应的场景,如自动驾驶、物流机器人和交互式服务机器人 [28] - 轻量化设计降低了硬件需求,使中小型研究机构和企业能够更轻松地开发和部署VLA模型,推动了机器人技术的普及 [11][28] - 研究团队提供了开源项目页面,方便开发者获取模型详情和代码,促进了技术的共享与创新 [28]
GPT重大更新,Hugging Face发布开源机器人AI模型
每日经济新闻· 2025-06-05 08:57
市场表现 - 科创人工智能ETF华夏(589010)上涨0.2%,持仓股中奥普特领涨4.65%,有方科技上涨2.96%,金山办公上涨2.72% [1] - 机器人ETF(562500)上涨0.6%,持仓股中亿嘉和领涨5.65%,奥普特上涨4.65%,绿的谐波上涨4.61% [1] - 当日机器人ETF交易金额达4.41亿元,居同类ETF首位,换手率3.43%,市场成交活跃 [1] OpenAI动态 - OpenAI推出ChatGPT重大更新,包括macOS会议记录模式和MCP协议支持,实现跨平台数据整合与协作功能 [2] - OpenAI付费企业用户突破300万,较2月份200万增长50%,涵盖企业版、团队版和教育版客户 [2] - OpenAI预计2025年营收127亿美元,较去年9月预测的37亿美元大幅上调243% [2] 行业技术进展 - Hugging Face发布开源机器人AI模型SmolVLA,参数规模4.5亿,可在消费级GPU运行,异步推理堆栈提升环境响应速度 [3] 机构观点 - 广发证券指出AI板块调整3个月后具备反攻条件:TMT成交额占比回落至2023年区间下沿,融资余额处于年内底部 [4] - 6月密集的大厂发布会成色可能成为行情关键催化剂 [4] ETF产品特征 - 机器人ETF(562500)规模破百亿,覆盖中国机器人产业链最全,流动性最佳 [5] - 科创人工智能ETF华夏(589010)聚焦AI产业,具备20%涨跌幅和中小盘弹性特征 [5]