VLA模型

搜索文档
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 14:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
对话星动纪元陈建宇:世界模型是VLA的一个路径,未来5年家庭机器人会爆发
钛媒体APP· 2025-08-12 10:00
行业技术趋势 - 通用人形机器人被视为未来AI技术趋势 具备强大移动和操作能力 将革新生产力和社会服务能力 [2] - 世界模型是VLA技术路径 通过强化学习等技术改进精细化操作 泛化及认知能力 [2][3] - 端到端VLA模型需融合世界模型实现未来预测和认知 并通过强化学习提升通用泛化能力 [7] 技术发展路径 - 构建通用人形机器人的最短路径是直接向人类学习 因人类是唯一通用具身智能体 [2] - 模型优先级高于数据 需提升数据利用效率而非单纯扩大数据量 [4] - 全球首个融合世界模型与生成式模型的工作已实现 相关算法和模型已开源 [7] 产品与研发进展 - 公司提出VLA模型ERA-42 融合理解与生成 统一视觉 理解 预测 行动功能至端到端模型 [5] - 自研人形机器人星动L7采用模块化设计 适配物流分拣等场景 由VLA模型直接控制操作 [6] - 自研人形机器人星动Q5面向服务业 在零售门店等场景推进落地 具备拟人化交互能力 [6] - 自研灵巧手XHand 1具备12个主动自由度和触觉传感器 可完成上千个灵巧动作 [6] 商业化策略 - 优先聚焦B端场景落地 包括工业制造自动化作业和服务业场景化服务 [7] - 当前工业场景中智能机器人效率达人类70% 预计明年达90% [8] - 人形机器人最终杀手级应用在家庭场景 但前期需通过B端积累数据和打磨技术 [9][10] 公司背景与融资 - 公司成立于2023年8月 为清华大学孵化项目 坚持软硬一体技术路线 [5] - 成立不到两年完成3轮融资 今年7月完成近5亿元A轮融资 由鼎晖VGC和海尔资本联合领投 [5] 行业发展阶段 - 家用机器人爆发时间点预计在未来五年 简单形态机器人将进入家庭 高净值家庭或率先试用通用人形机器人 [4] - 具身智能行业尚未出现泡沫 估值未达智能汽车量级 因周期长且未形成规模化商业闭环 [8]
「宇树科技」王兴兴:推进合规、稳健的上市流程,VLA是一个相对傻瓜式的架构
Robot猎场备忘录· 2025-08-12 08:03
文章核心观点 - 人形机器人行业处于技术不成熟阶段 大规模复杂任务尚不现实 但固定工序自动化已可行[4] - 行业年出货量可保持翻倍增长 技术突破后2-3年内或达数十万至百万台级别[4] - 企业上市竞争激烈 智元机器人通过收购率先登陆科创板成为"A股人形机器人第一股"[5] - 行业存在"硬件派"与"软件派"技术路线分化 分别侧重运动控制与AI能力 导致商业化路径差异[9][12] - 当前商业化存在可持续性挑战 硬件派依赖教育科研场景 软件派多处于POC阶段[10][11] 技术发展现状 - 硬件层面整机及灵巧手已基本可用 但需进一步提升规模成本与可靠性[7] - 软件层面具身智能模型是最大技术挑战 当前架构不够统一导致数据利用效率低[7] - VLA模型存在数据采集不足缺陷 世界模型可能更快落地[7] - 人形机器人ChatGPT时刻最慢需3-5年[7] - 2025年头部企业开始自研基础大模型 双系统架构成为主流技术路径[13] 企业动态与商业化 - 宇树科技年度营收超10亿元 但四足机器人占比近七成 人形业务可持续性存疑[15] - 公司采用低价炫技策略实现爆单 如松延动力N2机器人订单超2500台金额破1亿元[10] - 软件派企业鲜少公布具体订单数据 多通过战略合作宣发 实际处于POC阶段[11] - 行业存在"重运动轻大脑"现象 多数初创公司AI投入不足 依赖科技大厂模型赋能[12] - 批量化生产与场景有效应用是行业共同难点[12] 资本市场进展 - 智元机器人2025年7月通过收购上纬新材登陆科创板 估值超150亿元[5][6] - 宇树科技推进合规上市流程 但面临老股东变现压力 若失败存在股份回购风险[4][15] - 率先上市意味着获得更多资金支持 对企业发展至关重要[6] 行业竞争格局 - 硬件派以宇树科技为代表 聚焦教育科研及表演场景 定位硬件卖铲人[9][10] - 软件派以智元机器人银河通为代表 强调AI能力但商业化进展缓慢[9][11] - 创始人王兴兴认为行业竞争延伸至访谈演讲层面[4] - 行业存在"愿意卖硬件平台人多 做实事人少"现象[8]
一套搞定VLA研发!“腾讯系”人形机器人创企再迎重大技术突破,推开通用机器人大门!
Robot猎场备忘录· 2025-08-08 17:33
核心观点 - 星尘智能发布首个全身移动操作模型DuoCore-WB和机器人学习套件Astribot Suite,推动人形机器人在真实场景的应用落地 [2][3][4] - 公司自研VLA大模型DuoCore系统采用快慢双系统架构,实现本能反应与深度思考的双智能模式,具备强抗干扰能力、高泛化性和自适应性 [3][4] - Astribot S1机器人关键操作参数超越成年男性,单臂自由度7个,末端速度超10m/s,额定负载10公斤,负载自重比1:1,重复定位误差仅30微米 [13] - DuoCore-WB模型在家庭任务测试中平均成功率80%,最高达100%,实现跨区域、跨空间的灵活全身操作 [24] - 公司已完成5轮融资,2025年4月最新A轮及A+轮融资数亿元,由锦秋基金(字节系)、蚂蚁集团领投 [31][32] 技术突破 - DuoCore系统采用高度仿人的知识迁移机制,实现跨场景元技能迁移,减少数据成本 [4] - DuoCore-WB模型基于模仿学习框架,通过RTG轨迹优化、RGB视觉感知和末端执行器空间学习三大设计提升效率与泛化能力 [18] - Astribot Suite包含机器人本体S1、低成本遥操作系统(VR眼镜+手柄)及DuoCore-WB模型,形成三位一体学习套件 [8][14] - 遥操作系统支持第一人称与第三人称视角,覆盖精细操作与大范围动态操作需求 [14] 产品性能 - Astribot S1采用绳驱设计模拟人体肌肉,兼具柔顺运动与精准施力 [11] - 机器人展示三项家庭任务能力:送饮料(含开门交互)、整理玩具(多物体抓取与异常处理)、整理拖鞋(空间迁移与双手协同) [26][27][28] - S1在铰链物体交互、长序列任务规划、多阶段姿态调整等复杂场景中表现优异 [26][27][28] 公司背景 - 创始团队6人来自腾讯RoboticsX实验室,核心成员曾任职腾讯、谷歌、优必选、百度、华为等企业 [25][29] - CEO来杰曾任百度小度机器人团队负责人、腾讯RoboticsX嵌入式组组长 [29] - 公司2022年12月成立,定位"最强AI机器人助理",愿景为"人机共存、共创、共赢" [25] 行业趋势 - 2025年全球头部人形机器人初创(如Figure AI)转向自研基础大模型,VLA双系统架构成为主流技术路径 [3] - 科技大厂通过"自研+投资"入局具身智能赛道,星尘智能获字节系、蚂蚁集团投资印证行业认可度 [32] - 具身智能大模型决定商业化壁垒,自研技术闭环是掌握主动权的关键 [34] - ToC家庭及康养场景被视为万亿市场,但对机器人泛化性要求极高,当前仍处早期阶段 [34]
成功率提高57%,VLA+RL最新!CO-RFT:实现VLA模型的高效微调(北航&清华等)
具身智能之心· 2025-08-07 08:03
核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力 但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法 通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练 先通过模仿学习初始化网络 再用离线RL优化策略 在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力 在未见过的位置上达到44 3%成功率 显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习 采用自注意力和因果掩码设计 仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习 第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法 其保守正则化器可防止Q值高估 并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干 并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率 显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率 展示处理复杂场景能力[29] - 数据多样性对性能影响显著 随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题 提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调 大幅降低数据需求 提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证 展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战 包括样本效率 训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路 结合离线RL和动作分块技术突破性能瓶颈[34]
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
具身智能之心· 2025-08-02 00:02
新加坡国立大学VLA-OS研究 - 首次系统解构机器人VLA模型任务规划与推理机制 提出任务规划表征与模型范式的统一对比框架 [2] - 构建包含10,000条多模态轨迹的标注数据集 覆盖2D/3D视觉、仿真/现实环境、单/双臂操作等多样化场景 [25][29] - 设计三大可组合VLA范式:ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA 实现公平对比 [23] 技术架构创新 - 采用Qwen 2.5 LLM基座构建0.5B-7B参数VLM家族 配合DINO+SigLIP混合视觉编码器 [20] - 开发标准化动作头与规划头模块 支持KV Cache提取技术实现三大范式灵活组合 [22] - 创新性定义语言/视觉/目标图像三种规划表征 建立32x32网格化空间语义标注体系 [26][30] 核心研究发现 - 视觉规划表征相比语言规划成功率提升13.2% 推理速度提高100倍 [43][58] - Hierarchical-VLA范式展现最强泛化能力 任务分解准确率比Integrated-VLA高4.5% [52][55] - 模型规模超过1B参数时性能下降 在5,000条数据场景下0.5B模型最优 [62][64] 行业应用指南 - 推荐视觉表征与目标图像规划为主 语言规划为辅的混合方案 [68] - 资源充足时优先选择Hierarchical-VLA 资源受限采用隐式Integrated-VLA [68] - 确认任务规划预训练有效性 但需注意持续学习中的遗忘问题 [67][73]
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
汽车视点丨32.18万元起!理想首款纯电SUV上市,大模型能否筑起“护城河”?
新华财经· 2025-07-30 15:59
新华财经上海7月30日电(李一帆)7月29日晚,理想汽车首款纯电SUV理想i8正式上市,指导价32.18万元至36.98万元,相比全系预售价格降低4至5万元。 理想i8能否帮助理想汽车正式打开纯电市场,扭转2025年以来销量低迷的态势,成为业内外关注焦点。 配置不及预期,资本市场反应平淡 2025年是理想汽车成立10周年。过去10年里,理想汽车收获了136万车主用户,开辟了增程细分市场,并凭借"冰箱彩电大沙发"的创新配置成为佼佼者,领 跑一众新势力品牌。 然而,进入2025年,随着鸿蒙智行系列车型在增程领域销量节节攀升,理想汽车的增程红利不再明显。 2025年上半年,理想汽车累计交付新车20.39万辆,同比增长7.91%,但增速明显放缓,仅完成全年64万辆销量目标的31.87%。其中,6月交付3.63万辆,同 比下降24.1%,环比下降11.20%。 湘财证券分析师汪炜认为,这反映出理想汽车增程技术优势减弱、产品吸引力下降及销售体系调整带来的短期扰动。 因此,理想i8作为理想汽车首款纯电SUV,被视为理想发力纯电的转型之作,也成为理想众多新技术的"集大成者"。 发布会上,理想汽车创始人、董事长兼CEO李想为i ...
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发,通过视觉问答形式实现机器人控制,将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建,能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据,覆盖22种机器人类型,通用模型性能比专用模型高50%,分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作,第二代升级为连续动作分布,支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发,增加动作专家模块,输入1-3张图像+语言指令,输出50时间步高维动作[22][24] - π0.5新增分层推理能力,可分解长期任务(如打扫卧室)为子步骤执行,移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子(成功率66%)和衣物,具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程,例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习,未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法,结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA,已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]
国产人形机器人硬件+应用加速落地
2025-07-14 08:36
纪要涉及的行业和公司 - **行业**:国产人形机器人行业 - **公司**:智元、宇树、优必选、长江机械、Figer AI、小鹏、小米、广汽集团、华为 纪要提到的核心观点和论据 行业进展 - **投资与订单**:智元和宇树中标中移杭州信息技术有限公司 2025 - 2027 年代工服务采购项目,总金额 1.24 亿元,智元获 7800 万元,宇树获 4605 万元;天宫行者标配版售价约 30 万元,2025 年产量和订单预计超 1000 台[1][2] - **产业链推进**:2025 年长江机械发布 14 篇人形机器人系列深度报告;国内外通用人形机器人商业公司约 150 家,国内超 80 家,半数以上为高校背景创业[1][3][4] - **模型开发应用**:国内企业在 VRA 和 VLA 模型开发及应用取得进展,构建数据通用化层次,搭建素材平台,利用大规模数据复用,资源链和优必选链进展受关注[3][8] - **产业链发展**:国内人形机器人产业链发展迅速,本体进展积极,贴近生产生活场景,数据应用成优势,2025 年政策引导资本开支显性,国产链条表现优于海外企业[9] 公司进展 - **优必选**:2025 年等待 Walker S Two 发布,展示可更换背部电池等功能;向第三方客户小批量出货工业订单;与国创中心合作的天宫行者获科研教育界青睐,交付订单预计超预期[1][5] - **宇树**:运动控制领先,展示四足狗爬山涉水及 H One 舞蹈能力;基旺仿人形机器人减重优化成本,展示跑步、越障和上肢抓取能力[1][6] - **智元**:2025 年初提出五款商业化产品,探索软件平台;积极采集数据迭代技术,计划每周采集 50 万条数据,与其他厂商合作构建 H BOT 数据集[1][7] 应用前景 - **巡检领域**:电力巡检中可替代人工进行高空巡检,提高安全性;通过训练框架能执行简单设备运动状态监测及开关操作任务;降价后性价比高,电力巡检场景复制潜力大,适用于化工园区、矿山巷道等[10][11] - **搬运领域**:具备识别物体位置和执行操作任务能力,可替代人工完成工厂内产品运输、搬运、上下料等任务,与无人物流车协同实现无人化工厂环节[10][12][13] - **纺织领域**:纺织业为劳动密集型行业,机器人可替代部分人工操作;随着技术进步,人形机器人 VR 模型对柔性材料理解深入,未来可替代更多场景[10][16] 其他重要但可能被忽略的内容 - 小鹏、小米、广汽集团等车企和科技集团积极布局国内市场,展示如小鹏 Aero 行走能力等创新成果[8] - 海外企业 Figer AI 在物流产线分拣包裹动作方面有优秀表现[9] - 当前市场本体发展百花齐放,本体加场景应用加速产业化[17]