VLA模型
搜索文档
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 22:38
具身智能与VLA模型发展 - 2025年全球具身智能赛道爆火,视觉语言动作模型(VLA)成为核心驱动力,从美国RT-2到中国FiS-VLA实现技术快速迭代 [4][6][7] - 谷歌DeepMind、Figure AI等硅谷领军企业加速布局VLA,谷歌发布首个离线VLA模型实现机器人精准离线操控 [8][9] - 中国智平方联合高校推出FiS-VLA模型,通过快慢双系统架构解决机器人操控效率与推理能力矛盾问题 [10][12] 技术演进关键节点 - 谷歌RT-1(2022年)开创机器人Transformer模型,首次实现"预训练+微调"范式,完成多步骤任务如"把可乐放入冰箱" [23][25][27] - 微软ChatGPT for Robotics(2023年)实现零样本任务规划,但暴露语言模型在动作控制上的局限 [31][32][34] - 谷歌RT-2(2023年7月)确立VLA范式,将动作离散化为文本token联合训练,在未见任务上成功率超50% [38][39][40][46] 中国技术创新突破 - 智平方推出RoboMamba模型,引入Mamba架构使推理速度达主流模型3倍,仅微调0.1%参数实现SE(3)位姿预测 [45][47][50][52] - HybridVLA模型融合自回归与扩散架构,在仿真任务成功率提升8%,真实环境提升11% [74][77][79] - FiS-VLA实现21.9Hz控制频率,是CogACT的2倍以上,在RLBench任务平均成功率69%领先基线方法 [105][114][115] 国际竞争格局 - 开源模型OpenVLA以7亿参数超越55亿参数的RT-2-X,29种操作任务成功率高出16.5% [54][57][58] - Figure AI发布Helix双系统模型,系统1(80M参数)与系统2(VLM主干)实现7-9Hz工作频率 [88][89][93][96] - 英伟达开源GROOT N1人形机器人基础模型,融合互联网与机器人数据实现广义推理 [97][98][101] 行业应用前景 - VLA技术推动机器人从实验室走向工业落地,已在人形机器人和智能制造领域部署应用 [123][124] - π系列模型实现开放世界泛化,在未见家庭场景零样本完成清洁任务,标志技术具备大规模推广能力 [63][69][70] - 技术演进形成"自回归到扩散到混合"与"非端到端到快慢耦合"双路径,推动机器人向通用能力进化 [122]
智能网联汽车ETF(159872)政策与技术共振,车联网基建+高阶自动驾驶双主线凸显
新浪财经· 2025-06-17 10:25
市场表现 - 智能网联汽车ETF(159872SZ)截至06月17日10:01上涨000% 其关联指数CS车联网(930725CSI)上涨015% [1] - 成分股表现分化:上汽集团上涨063% 万马科技大涨539% 千方科技上涨136% 移远通信上涨073% 大华股份上涨045% [1] 政策动态 - 交易商协会召开银行间市场支持汽车企业高质量发展座谈会 中国一汽 上汽集团等9家车企参与讨论融资需求及转型建议 [1] - 协会表态将强化债券市场制度创新 支持车企向智能化 绿色化转型方向升级 [1] 技术进展 - VLA模型整合视觉 语言和行动模块 使自动驾驶平均无接管里程提升至50-100公里 显著优于传统方案的1-10公里 [2] - 技术升级带来算力需求激增:理想汽车在OrinX芯片部署的VLA模型参数规模达4B级别 [2] - 海格通信基于"北斗+5G+C-V2X"构建车路一体通信网络 已参与国家级车联网试点项目 [2] 产业链关联 - 智能网联汽车ETF关联个股覆盖整车制造(上汽集团 比亚迪) 零部件(华域汽车 德赛西威) 电池(宁德时代) 及智能技术(科大讯飞 大华股份)等领域 [3]
能干活才是未来!五大先锋公司激辩从实验室到产业化的跨越式突破
机器人圈· 2025-06-11 19:43
具身智能技术突破 - 宇树科技G1机器人凭借自主决策算法与高动态运动控制,在机甲格斗中击败多国劲旅夺冠,验证了全身协调性和毫秒级反应能力 [2] - 北京人形机器人创新中心天工2.0完成半程马拉松仅需2小时40分钟,具备多地形适应能力,上肢灵巧手系统自由度更高、负重能力更强 [3] - 银河通用Galbot轮式机器人在商超复杂环境中实现"所见即所得"抓取能力,自研VLA模型在货架密集场景中品识别与抓取成功率超高 [6] - 穹彻智能机器人通过力觉-位置双重反馈完成刮胡子、挖冰淇淋等精细操作,力反馈技术已在食品加工行业规模化落地 [7] - Physical Intelligence的π-0.5模型通过100个家庭场景训练实现第101个陌生家庭任务高效泛化,证明算法架构优化比数据堆砌更重要 [8] 产业落地进展 - 银河通用在北京部署7家24小时无人药店,由人形机器人承担夜间接单配送任务,计划年底前扩展至北上广深并进军工厂料库管理 [9] - 机器人赛事被视为产业化催化剂,既能展示技术能力又能连接产业界与潜在客户,未来需要更多体现生产力和实际应用价值的"技能型"比赛 [8] - 行业共识认为机器人稳定运行2000小时无故障是产业爆发临界点,当前重点是从"炫技"转向"干活"的范式转变 [9] 技术形态争议 - 针对人形机器人是否最优解的争议,有观点认为家庭环境天然适配人形设计,长远看仍是推动具身智能落地的最理想选择之一 [9] - 宇树科技提出"形态解耦"理念,认为机器人下半身可采用轮式或四足,上半身保留类人结构以利用现有动作数据 [10] - 未来进入AGI阶段后机器人外形将极大多样化,根据不同任务出现各种更高效的设计 [10] 模型技术瓶颈 - VLA模型虽在简单任务中表现优异,但在复杂、高不确定性任务空间中仍有明显局限 [11] - 当前模型在长序列任务中的成功率达不到实际应用所需水平,即便有无限数据也难以在精细操作任务上接近100%成功率 [11]
智源大会热议人形机器人:技术趋势与商业现实
中国经营报· 2025-06-08 21:39
具身智能行业发展现状 - 2025年北京智源大会上展示具身智能真实应用场景,包括宇树科技G1机器人格斗、银河通用机器人Galbot零售抓取、天工机器人水果摆盘等[1] - 具身智能领域迎来爆发式增长,成为AI与机器人技术融合核心赛道,智源大会首次将具身智能升级为全天分论坛并加入人形机器人主题[1] - 人形机器人赛事蔚然成风,包括春晚跳舞、马拉松、格斗比赛及8月运动会,企业通过表演和赛事展示技术并产生商业价值[2][3] 企业技术突破与研发进展 - 宇树科技16台H1机器人春晚表演舞蹈,5月举办业内首个人形机器人格斗比赛,G1"AI策算师"夺冠[2] - Physical Intelligence研发通用机器人基础模型π0,通过VLA模型实现陌生环境下80%-90%任务完成率,目标达到100%稳定性[4] - 银河通用采用合成数据为主+真实数据校准的训练范式,通过十亿级仿真数据实现零样本泛化,已在零售、工业场景落地[4] - 千寻智能利用互联网视频数据预训练模型,结合强化学习解决仿真与现实差距,突破数据采集成本高的瓶颈[6] 商业化应用落地案例 - 宇树科技上半年人形机器人租赁市场火爆,已产生产业价值[7] - 银河通用在北京开设7家24小时无人药店,机器人负责拣药对接骑手,计划年内在北上深扩展至100家[7] - 星动纪元提出具身智能需跨越三阶段鸿沟:创新者阶段已开始,未来将进入to B行业和to C消费级市场,终局规模达亿级[7] 技术发展路径与行业趋势 - 智源研究院探索两条发展路径:数字智能物理化(大模型延伸至物理世界)和低成本功能化(垂直场景降本+规模化)[8] - 行业共识认为小型专用机器人可能率先渗透家庭与产业场景,为具身智能长期发展奠定基础[8] - 机器人比赛被视作重要技术训练场和产业化桥梁,中国赛事规模远超海外,获得国际企业关注[3]
大模型热潮第三年,“AI春晚”又换主角 为什么是具身智能?
每日经济新闻· 2025-06-06 21:20
行业趋势演变 - 大模型热潮进入第三年,行业关键词从"大语言模型"跃升为"具身智能"与"机器人2.0",AI正加速迈入"干实事"阶段[1] - 2023年生成式大语言模型是焦点,2024年国产大模型厂商崛起,2025年具身智能成为主论坛重要议题[3] - 技术发展呈现非线性特征,产业关注重心从底层模型向具体应用转移是必然趋势[4] 具身智能发展现状 - 具身智能成为2025年最热关键词,机器人通过格斗、舞蹈等赛事展示AI控制系统水平[7] - 人形机器人租赁市场在上半年表现火爆,显示初步商业价值[7] - 行业正从表演转向实际应用,重点攻关"通用移动抓取"等实用技能,已有机器人值守无人药店案例[8] 技术路径争议 - 人形与非人形机器人形态存在分歧:人形在数据采集和训练上具优势,但未来形态可能多样化[11][12] - VLA(视觉语言动作模型)成为研究热点,但对其能力边界存在不同观点,需融合更多感知模态[15][16] - 物理世界理解能力的增强是突破关键,仿真数据可减少真实训练样本依赖[17] 应用场景拓展 - 世界人形机器人运动会将包含竞技类和真实生活/工业场景,成为技术训练场和客户沟通桥梁[8] - 家庭和商用服务被视为具身智能最大应用场景,工业应用只是"开胃小菜"[12] - 移动、抓取和放置类任务最适合当前VLA模型技术阶段,可能带来具身智能第一次高潮[16]
理想汽车-W(2015.HK):净利率同比提升 关注纯电新车周期
格隆汇· 2025-06-05 09:59
财务表现 - 公司25Q1营收259亿元,同比+1%,环比-41% [2] - 归母净利润6.5亿元,同比+9%,环比-82% [2] - 单车收入约26.6万元,同比-3.6万元,环比-0.3万元 [2] - 单车净利约0.7万元,同比持平,环比-1.5万元 [2] - 25Q1净利率2.5%,同比+0.2pct [2] - 车辆毛利率19.8%,同比+0.4pct [2] 交付与展望 - 25Q1交付新车9.3万辆,同比+16%,环比-41% [2] - 预计25Q2交付量12.3-12.8万辆,同比+13.3%-17.9% [2] - 预计25Q2收入325-338亿元,同比+2.5%-6.7% [2] 费用与效率 - SG&A费用率同比减少1.9pct,主因雇员薪酬减少及运营效率提升 [2] - 研发费用率同比减少2.2pct,与新车型项目节奏调整相关 [2] 产品与技术 - 新一代辅助驾驶技术VLA模型整合空间/语言/行为智能,将首搭于纯电i8 [3] - 理想i8定位中大型SUV,计划25年7月发布 [3] - 配套充电网络建设超2500座超充站 [3] 长期预测 - 预计2025/26/27年营收1685/2234/2671亿元 [1] - 预计同期归母净利润107/144/178亿元 [1]
理想25Q1电话会议问答文字版
理想TOP2· 2025-05-30 00:05
销量与市场份额 - 5月份在20万元以上新能源市场中市占率达到14 7% [1] - 焕新版车型销量已回升至每周1万台 预计很快恢复月销5万台水平 [1] - 2025年目标增速为20万元以上新能源市场整体增速的两倍 [5] - 四线五线城市试点成效显著 如达州和自贡市场份额超28% 延安达25% [6] - 百城繁星计划目标2026年在四线五线城市带来10万辆额外销售 [6] 产品战略 - 当前聚焦增程SUV 纯电SUV及MEGA 目标支撑3000亿年营收规模 [1] - 后续将推出MPV和轿车产品 覆盖中国 亚洲及欧洲市场需求 [1] - i8核心卖点包括创新造型设计 10分钟500公里高压充电技术 2500座超充站 [5] - 增程车型面向燃油车升级群体 纯电车型面向新能源保有群体 [3] - 纯电市场空间更大 20万元以上NEV中纯电占比213万辆 [3] 技术研发 - Halo OS实现硬件 软件 算法垂直整合 提升AI用户体验 [2] - Halo OS相比传统系统在资源效率和端到端确定性方面优势显著 [3] - VLA模型通过三维空间理解能力及精准仿真训练实现差异化 [7] - VLA计划7月随i8推出 8月覆盖所有AD Max用户 [9] 供应链与财务 - 应付账款周期维持在2-4个月 季度波动受销售成本影响 [4] - 第二季度汽车毛利率预计保持19% MEGA订单开始交付 [8] 海外扩张 - 海外拓展需满足硬件 售后服务 智能软件三条件 [8] - 初期聚焦亚洲和欧洲市场 目标长期海外销售占比30% [8] 用户洞察与创新 - MEGA Home销量超预期增长150% 因聚焦家庭用户真实需求 [10] - 未来汽车定位为硬件软件集成的AI体验 对标苹果人机交互标杆 [10]
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 23:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]
顶级专家带队,这家创企宣布万台人形机器人量产计划!
Robot猎场备忘录· 2025-05-15 14:35
核心观点 - 智平方发布全栈自研全域全身具身智能大模型Alpha Brain和新一代仿生机器人AlphaBot 2,具备从桌面到开放环境、从单臂到全身、从简单到长程任务的能力 [1][3] - Alpha Brain采用GOVLA架构,整合空间交互基础模型、慢系统(System2)和快系统(System1),实现复杂逻辑推理与实时动作控制 [5] - 公司首次将DeepSeek技术融入VLA大模型,提升长程复杂任务理解能力,并与优必选科技等企业共同推动双系统架构VLA模型成为行业主流 [5][8] - AlphaBot 2搭载Alpha Brain,具备34+全身自由度、0-240cm垂直工作范围和6h+续航能力,适配汽车制造、半导体等多场景任务 [7][8] 技术架构 - GOVLA大模型由空间交互基础模型、慢系统(System2)和快系统(System1)组成,慢系统负责复杂逻辑与任务拆解,快系统控制实时动作 [5] - 双系统架构技术路径将VLA拆分为VLM和动作执行模型,解决传统VLA数据采集难和长期规划问题,提升复杂场景适应性 [13] - 智平方是国内最早研发端到端VLA模型的企业,其RoboMamba模型在未见任务泛化能力上超越Google RT系列模型 [14] 商业化进展 - 公司已签约多家车企和高端制造企业,2024年实现数千万收入,并提供AI2R Brain MaaS订阅服务,计划按"智能操作工时"收费 [20] - 与吉利科技晶能微电子合作研发半导体制造机器人,与华熙生物开发生物科技领域智能解决方案 [24] - 目标2028年实现万台应用,2030年达成百亿级营收,2033年拓展至百万台规模 [20] 融资与行业动态 - 2025年完成Pre-A+轮数亿元融资,投资方包括敦鸿资产、云启资本等,此前Pre-A轮由达晨财智领投 [25] - 具身智能赛道吸引车企和自动驾驶领域人才创业,它石智航等公司完成亿级融资,行业进入融资热潮 [22][23] - 行业共识认为全栈自研是核心竞争力,智平方等具备AI+本体能力的企业更受资本青睐 [26][27] 创始团队背景 - 创始人郭彦东为国家级创新领军专家,曾任小鹏汽车首席科学家和OPPO首席科学家,具备AI与硬件复合背景 [17] - 副总裁邱巍拥有清华大学和德国高校背景,曾在西门子工作13年,后加入驭势科技任高管 [17] - 核心团队来自微软、小鹏、OPPO及清华、北大等顶尖高校,覆盖AI、机器人、智能终端领域 [18]
进厂“试用期”一年,人形机器人“转正”还要跨过几道坎?
第一财经· 2025-04-29 19:39
具身智能与VLA模型发展 - 灵初智能发布Psi-R1大模型,声称是真正的VLA模型,能在开放场景下解决长程复杂任务[2] - 2025年以来至少有七家企业发布VLA相关模型,包括Physical Intelligence、英伟达、银河通用等[2] - VLA模型成为机器人厂商展示技术先进性的重要手段,但部分展示视频可能掩盖真实技术能力[7] 机器人进厂打工的挑战 - 人形机器人从实验室到实际工厂应用需经历漫长的概念验证阶段,目前大部分仍处于试用期[2][10] - 概念验证需证明技术成功率、可靠性、效率、成本和收益,是商业化落地的关键障碍[3] - Figure机器人被曝在宝马工厂实际仅有一台执行简单搬运任务,与展示视频存在差距[10] VLA模型的技术难点 - 动作信号输入是VLA模型的核心难点,缺乏动作输入会导致泛化性不足和长线推理偏差[5] - 真正的VLA模型需具备长时序动作执行能力、跟随描述性语言指令并由单一模型完成所有任务[8] - 当前部分VLA模型仅通过模仿学习加原子技能调用完成简单操作,缺乏自主推理能力[7] 机器人落地的工程化流程 - 工厂落地需经历三个阶段:3个月实验室环境内测、3个月客户场景验证、6个月有人陪产部署[12] - 实际工厂环境中存在光线干扰、电磁干扰、流程差异等问题,需针对性优化[12] - 部署阶段需应对人为打断等突发情况,要求上层大脑具备实时推理和决策能力[13] 人形机器人的应用场景选择 - 当前进厂机器人多从事搬运、检测等基础工种,如优必选S1进行物料搬运和车灯检测[14] - 未来目标应是替代人力完成自动化设备无法胜任的精细化工作,如3C制造质检[14] - 客户更关注落地可行性而非技术完美性,需平衡长程推理能力与实时控制要求[15]