VLA（视觉 - 语言 - 动作）模型 - 财报，业绩电话会，研报，新闻

VLA（视觉 - 语言 - 动作）模型

搜索文档

晚点Auto· 2026-01-29 22:51

公司概况与融资 - 它石智航由华为车BU前首席科学家陈亦伦与百度前自动驾驶事业部负责人李震宇等联合创立，于2024年底开始筹备 [4] - 公司成立不足半年，先后完成1.2亿美元和1.22亿美元的天使轮与天使+轮融资，创下中国具身智能领域天使轮融资纪录 [4] - 投资方包括蓝驰、美团、启明、线性、高瓴、联想创投等 [4] 核心技术与路线 - 公司不采用当前主流的VLA模型路线，认为具身智能应有自己的独立模型，而非在VLM上长出一个动作“头” [4][39] - 开发了名为AWE的模型，全称为AI World Engine，其核心是追求对物理世界的深度表达，记录时间、空间、力等“世界信息”，而非“视网膜信息” [4][38] - AWE模型强调动态演化，能根据机器人的动作预测世界状态并推荐下一步操作 [38] - 公司认为具身智能的核心卡点是数据，因此自研了用于采集数据的可穿戴设备，而非采用当时Optimus、PI等美国公司选择的遥操作方式 [5][24] 数据采集策略与规模 - 公司通过自研的可穿戴设备采集数据，设备由轻量化手套和第一视角摄像机构成，让劳动者佩戴后在工作场景中自然采集真实任务数据 [24][26] - 该方法旨在低成本、大规模获得高质量数据，其成本比遥操作方式“至少低两个数量级” [32] - 公司从2025年8、9月开始大规模采集，目前已积累约10万小时数据，并预计明年数据量会“再翻数倍” [31] - 公司认为具身智能要达到持续可用，需要“1000万小时或更多”的数据基础规模 [27] 创始人背景与技术认知 - 创始人陈亦伦拥有物理竞赛保送清华、美国机器学习博士的背景，职业生涯早期在机电系统公司学习过电机、伺服控制和液压系统 [7][8] - 在华为期间，其团队最早尝试端到端自动驾驶，用3万行代码的神经网络替代了原有的200万行规控代码，并在极端测试场景中取得成功，这被其称为“GPT Moment” [9][11] - 基于在自动驾驶领域验证端到端方法的成功，创始人看到了机器人加速发展的时机，并因此离开华为投身具身智能创业 [11] 行业机遇与挑战 - 通用机器人发展迎来“三道曙光”：运动控制的解锁、大语言模型提供的任务规划能力、以及端到端方法的验证 [12][13] - AI解决大型复杂问题需跨越“三道墙”：数据墙、算力墙、后训练墙；目前具身智能尚处在第一道“数据墙”阶段 [14][15] - 行业普遍认为具身智能尚未找到自己的“Scaling Law”，但公司认为行业已在scaling状态，预计到2026或2027年会在模型性能上显现效果 [40] - 行业早期信号将从刷视频demo转向解决垂直领域的具体问题，并出现真实客户采购 [40] 产品落地与市场判断 - 公司第一波重点落地场景是工业制造，例如线束装配这类对传统机器人而言难度高、技术门槛高的领域 [41] - 创始人判断，在具身智能时代，凭借中国强大的工业制造能力、AI人才和工程师，中国创业者将更具优势 [37] - 公司明确自身发展路径，将按照既定方式持续推进 [43]

晚点Auto· 2026-01-23 00:15

公司战略与项目重启 - 理想汽车在官网社招页面释放若干人形机器人研发岗位，重启具身机器人研发项目[3] - 公司创始人兼CEO李想曾表态，理想做人形机器人的概率是100%，但合适时机还没到[3] - 此次招聘范围基本覆盖人形机器人从核心部件到系统集成的全流程，包括灵巧手、关节模组、双足、传感器、交互感知、全身运控、本体平台软件及集成部署与测试等[3][7] 研发背景与团队布局 - 2024年1月，廖平平加入理想任机器人算法专家，负责带领团队开发用于工厂“螺钉拧紧”等场景的轮式双臂人形机器人，其拥有约10年机器人研发和管理经验[3] - 2025年6月，公司成立了“空间机器人”和“穿戴机器人”两个新的二级部门，均隶属于产品部，智能眼镜Livis是第一款产品[4] - 在决定重启人形机器人计划前，已有数位智驾技术人员离职创业，如前理想自动驾驶技术研发负责人贾鹏等共同创办了具身智能公司至简动力[6] 技术挑战与行业对比 - 汽车只需控制平面运动的2个自由度，而人形机器人拥有约50个自由度，需协调全身复杂关节的协同运动并主动与外界互动[4] - 机器人对零部件的精度要求更高，软件也更复杂，马斯克曾说Optimus的开发难度远高于Model X[4] - 灵巧手是人形机器人硬件上最难的部分，既是执行部件也是重要传感器，缺乏其触觉反馈会影响VLA模型的智能化水平[5] - 赛力斯的人形机器人研发团队超200人，特斯拉Optimus研发团队超800人，行业观察人士认为理想从零起步至少需要组建一支200人左右的团队并投入两年时间，才可能接近小鹏AI机器人IRON去年11月的展示水平[6] 战略动机与市场反应 - 李想认为电动车参数竞争已卷进死胡同，做智能终端易变成重复建设，因此选择第三条路，将车定义为“具身智能”产品，即拥有感知、大脑、神经、心脏和身体的“机器人”[4] - 有分析认为，重启人形机器人研发不仅是在探索具身智能的另一种产品形态，也是为了与汽车在感知、决策、行动等核心技术上相互打通，实现技术共享和优势互补[8] - 现阶段具身概念对估值有帮助，理想美股开盘一度涨约7%，截至发稿涨幅回落至5.4%左右[8] 资源投入与行业环境 - 除比亚迪外，多数国产车企每年能用来持续投入新兴业务的预算通常在5亿元人民币，这种强度的投入被认为不足以支撑车企在机器人领域保持领先[5] - 近两年具身智能赛道爆火推高了创业公司估值，拥有智能驾驶技术高管背景的创始团队颇受资本关注，估值突破10亿元人民币的初创公司不在少数[6] - 李想将机器人分为两种：一种像人，一种像车，并认为“未来十年，具身智能领域最有价值的产品一定是具备自动和主动能力的汽车”[6]

具身智能之心· 2026-01-19 17:30

行业现状与核心痛点 - 视觉-语言-动作模型是当前具身智能领域的关注焦点，在学术界和工业界均受到高度重视 [1] - VLA模型的性能上限高度依赖于数据采集的质量，高质量遥操作数据是模型有效性的基础 [2] - 行业在复现主流模型时面临数据采集困难的核心挑战，仿真数据与真机存在巨大差距，导致模型在仿真中表现良好但在真机上失效 [3][5] - 专业级遥操作设备成本高昂，动辄数万元人民币，对普通学生和初创团队构成资金门槛 [5] - 技术全链路存在断层，从业者常面临从机械臂控制到数据格式对齐的完整流程挑战 [5] 课程解决方案与核心亮点 - 课程定位为国内首个具身数采与遥操算法全栈课程，注重实战与手感，旨在帮助从业者节省摸索时间 [3] - 采用软硬结合的教学方式，同时覆盖MuJoCo仿真环境与真机实操，基于主流LeRobot框架教授工业标准数据集的采集方法 [7][8] - 引入自研手持夹爪遥操硬件方案Ringo，以解决遥操作中视角与控制不统一的痛点，实现更精准的TCP坐标转换与重定向 [9] - 课程内容设计实现全场景覆盖，从单臂操作延伸至双臂协同、力反馈采集及全身动捕方案 [10][12] - 课程提供完整的项目经验，目标使学员能够独立完成从硬件组装调试到算法部署的全流程 [26] 详细课程大纲与内容 - **第一章**：涵盖遥操作技术概述、基础定义、经典系统架构、核心技术挑战以及主流数据采集方法，并对具身智能前沿VLA模型进行详解 [6] - **第二章**：聚焦于MuJoCo仿真环境，介绍物理引擎基础、仿真要素，并实现基于仿真的遥操作应用与数据采集 [6][11] - **第三章**：以SO-100系统为例进行真机演示，深入讲解关节同构遥操作原理及LeRobot框架的驱动与数据采集代码 [6][14] - **第四章**：作为高阶进阶内容，详细讲解TCP映射遥操作原理，并深入介绍自研Ringo硬件方案的结构、传感器选型、组装调试及与LeRobot框架的集成 [6][16][19] - **第五章**：涉及更复杂的数据采集场景，包括双臂协同遥操作的难点与常用方法，以及力反馈数据采集的意义与实现方案 [6][17][19] - **第六章**：讲解全身动捕方案，包括光学与惯性动捕系统原理、结构设计以及坐标重映射算法 [6][17] 课程安排与面向人群 - 课程计划于2026年1月30日开课，采用离线视频教学与VIP群答疑结合的模式，预计两个半月完成全部内容 [23][24] - 课程内容将按章节逐步解锁，从1月30日的第一章开始，至3月8日解锁第六章 [23] - 目标学员包括具身智能领域的求职者、科研院校师生、计划从其他领域转行的开发者以及对机器人DIY感兴趣的硬件发烧友 [26] - 课程旨在使学员成为能独立完成硬件组装调试、采集工业级VLA训练数据、掌握模型真机部署技巧的复合型人才，并积累完整的实战项目经验以助力求职 [26]

拒绝垃圾数据，如何高效、高质量的采集具身数据？

具身智能之心· 2026-01-10 09:03

行业现状与核心痛点 - 视觉-语言-动作模型是当前具身智能领域的关注焦点，在学术界和工业界均受到高度重视 [1] - VLA模型的性能上限高度依赖于数据采集的质量，高质量遥操作数据是模型有效性的基础 [2] - 行业在复现主流模型时面临数据采集困难的核心挑战，仿真数据与真机存在巨大差距，导致模型在仿真中表现良好但在真机上失效 [3][5] - 专业遥操作设备成本高昂，动辄数万元，对普通学生和初创团队构成门槛 [5] - 从数据采集到模型训练的全链路存在技术断层，例如数据格式与主流框架对齐困难 [5] 课程解决方案与核心亮点 - 课程定位为国内首个具身数采与遥操算法全栈课程，注重实战与手感，旨在帮助学员节省摸索时间 [3] - 课程采用软硬结合方式，同时覆盖MuJoCo仿真环境与真机实操的数据采集 [7][8] - 课程引入自研手持夹爪硬件方案Ringo，以解决遥操作中视角与控制不统一的痛点，实现更精准的TCP坐标转换与重定向 [9][19] - 课程内容设计覆盖从单臂到全身的全场景，包括双臂协同、力反馈采集和全身动捕等复杂任务 [10][12] - 课程基于主流LeRobot框架，教授如何采集符合工业标准的高质量数据集，并涉及源码修改以兼容新硬件 [8][19] 课程详细内容大纲 - **第一章：遥操作概述与基础**：涵盖遥操作技术定义、发展、经典系统架构、核心挑战、数据采集主流方法、开源数据集概览以及VLA模型详解 [6] - **第二章：夹爪遥操算法调试**：基于MuJoCo仿真环境，介绍物理引擎基础、仿真要素，并实现仿真环境下的数据采集 [6][11] - **第三章：关节同构遥操作**：以SO-100硬件系统为例进行真机演示，详解同构映射原理，并深度解析LeRobot框架的驱动与数据采集代码 [6][14] - **第四章：TCP映射遥操作**：作为高阶进阶内容，讲解TCP映射原理，详细介绍自研硬件方案Ringo的结构、传感器选型与组装，并实现基于Ringo的坐标变换、对齐与姿态平滑插值 [6][16][19] - **第五章：复杂遥操作数据采集**：攻克双臂协同中的延迟与视角问题，介绍力反馈数据采集的意义与实现方法 [6][12][19] - **第六章：全身动捕方案**：讲解光学与惯性动捕系统原理、传感器布局设计以及坐标重映射算法 [6][17] 课程安排与面向人群 - 课程采用离线视频教学配合VIP群答疑模式，计划于2026年1月30日开课，预计两个半月结课，课程有效期为1年 [23][24] - 课程章节按计划逐步解锁，从第一章到第六章的解锁时间跨度从1月30日至3月8日 [23] - 目标学员包括具身智能领域求职者、科研院校师生、计划从其他领域转行的开发者以及对机器人DIY感兴趣的硬件发烧友 [26] - 课程旨在使学员成为能完成从硬件组装调试到算法部署全链路的专家，并积累完整的实战项目经验以助力求职 [26]