Workflow
第二代人形机器人——IRON
icon
搜索文档
小鹏刘先明:VLA 2.0的「涌现」过程极其突然......
自动驾驶之心· 2025-11-14 08:04
第二代VLA技术架构与突破 - 技术研发遵循第一性原理,旨在省去从视觉到语言的转译部分,避免云端繁重计算和数据标注,从而极大提高推理速度[9][10] - 核心创新包括输入信号尽量使用真实世界的物理视频流,输出空间采用连续信号而非离散化文字表达,使网络结构极其简单[17] - 通过大量模仿学习和自监督,模型能够学会范本并进行推理,例如测试车在红灯转绿前能像人类一样缓缓起步,甚至通过观察两侧红绿灯变化进行推测[11] - 该架构在训练过程中直接内嵌推理逻辑,量产部署时可去掉云端计算部分,直接在本地芯片上运行,大大提高了测算和推理效率[22] - 为实现量产,公司从头设计了编译器,并结合模型、软件、编译器和硬件进行联合优化,以在图灵芯片上实现实时高帧率运行[24] 技术投入与“涌现”现象 - 从2024年至今,公司投入了3万张卡的算力,训练费用超过20亿元,并在今年二季度出现一次巨大的性能跳跃[7] - 技术“涌现”被描述为并非偶然,而是持续坚持投入和对Know-how累积的结果,例如长期处于痛苦阶段的研发工作突然迸发成效[5][8] - 在机器人领域,当数据和算力达到一定程度后出现阶跃,例如人形机器人IRON的步态在3月的一个晚上突然变得非常拟人[35][36] 传感器策略与视觉算法优势 - Robotaxi将不会装配激光雷达,因为激光雷达扫描频率仅10赫兹,且提高功率不符合车规级标准,在雨雾天气中还会产生噪声点[25][26] - 摄像头提供的信息量远超激光雷达,高像素摄像头每个像素包含三个通道,每通道8比特,一秒钟信息量巨大,但此前系统缺乏足够大的模型来充分利用[27] - 摄像头在图像信号处理算法转换时会损失16比特信息,动态范围值为2的16次方,在强光、逆光等环境下并非无法成像,而是信息被过滤处理[27] 人形机器人技术进展 - 公司人形机器人IRON除螺丝外全部自研,源于机器人产业链尚不成熟,且自研有助于降本和加速迭代[29] - 机器人能力提升被视为螺旋上升过程,从30分实际场景应用中发现新问题,逐步提升至40分,并在此过程中出现涌现时刻[32][33] - 超拟人步态的实现与仿造人类脊柱、肌肉群、腹腔和皮肤的腰部设计直接相关,前脚掌增加自由度并结合自研生成式控制器[39][41][42] - 第三代控制器采用生成式模型,步态与风格嵌入控制模型而非轨迹跟随,第四代“反重力器”控制器能根据连续姿态输入完成相应动作[45][46] - 基于通用生成式控制器,机器人可丝滑执行打太极、叶问蹲等动作,通过录制大师轨迹直接输入控制系统即可[46]