VLA
搜索文档
从技术路线到人员更迭,为什么智能驾驶又开始了“新造词”? | 电厂
新浪财经· 2025-11-19 18:20
技术路线演进 - 智能驾驶技术从基于规则的模块化方案,演进到端到端方案,再到当前的VLA和世界模型 [2][5][8] - 模块化方案易于量产但时延长、信息损耗大,端到端方案通过数据驱动学习驾驶,但存在无法收敛的极端情况难题 [2][5] - VLA模型旨在让系统像人类一样主动理解和推理物理世界,理想汽车和小鹏汽车分别提出了包含语言转译环节和取消语言环节的不同技术路径 [8][9] 主要参与者技术选择 - 理想汽车选择VLA技术路线,其"VLA司机大模型"将视觉成像转译为语言再执行动作 [8] - 小鹏汽车选择更激进的第二代VLA路线,取消语言转译环节,将多模态物理信号直接输出为控制信号,以降低信息损耗并实现自监督学习 [9] - 华为和蔚来选择世界模型路线,华为的WAWE架构同样省略语言环节,蔚来则在其世界模型中力推加入强化学习模型 [9][12] 技术挑战与争议 - VLA路线面临多模态特征对齐困难、训练数据提取难、大语言模型幻觉以及芯片存储带宽不足四大落地难点 [11] - 反对观点认为VLA以语言为中心,语言模型的带宽不足以应对现实世界的复杂性和连续性,信息转换过程存在损失 [11] - 端到端方案被指出对物理世界缺乏真正的理解能力,难以处理从未学习过的特别复杂情况 [5] 公司战略与组织调整 - 小鹏汽车在2025年10月进行自动驾驶部门人事调整,由侧重基础模型研究的刘先明接替侧重产品功能实现的李力耘,标志着技术路线彻底转向基础模型 [13][14] - 理想汽车在2024年9月将自动驾驶研发部门重组为11个二级部门,重点是将研发资源向VLA倾斜,以推动团队向AI组织演进 [14] - 蔚来在相近时间也进行了自动驾驶团队的组织架构调整,多位负责人离职,以利于全力冲刺世界模型2.0版本的开发与交付 [15] 行业竞争格局变化 - 汽车公司自研自动驾驶技术的趋势发生变化,部分公司转向选择外部供应商作为核心解决方案提供方,例如长城汽车与元戎启行合作,奇瑞汽车与卓驭科技、文远知行合作 [18] - 解决方案供应商如文远知行推出的端到端方案获得高度评价,被认为具备可伸缩的算力适配能力和更强的车型兼容性,能消解自研车企的领先优势 [19][21] - 自研面临资金效率挑战,小鹏汽车为建成3万卡规模智算集群,仅训练费用投入就高达20亿元人民币,理想汽车也在云端搭建了13EFLOPS算力以支持研发 [21] 行业发展阶段与未来展望 - 当前所有技术路线的产品落地仍属于L2框架,但VLA和世界模型被认为是通向L4级自动驾驶的积极因素 [22] - 行业认为从2024年第四季度到2025年上半年是辅助驾驶技术落地的关键时期,领先身位的公司可能随时发生变化 [1] - 小鹏汽车认为其第二代VLA技术可以为具身智能的落地铺路,智能驾驶的真正竞争被认为刚刚开始 [22]
从投稿来看,具身方向的论文已经出现了堆积.......
具身智能之心· 2025-11-18 18:00
研究领域与方向选择 - 具身智能研究活跃方向包括视觉语言导航、视觉语言行动、强化学习以及真实到仿真再到真实的循环方法 [1] - 人形机器人研究热点集中在强化学习与真实仿真循环方法 若实验室具备相关机器人本体可优先考虑这些方向 [1] - 机械臂本体适合开展视觉语言行动、视觉语言行动结合强化学习以及扩散策略的研究 其中视觉语言行动方向普遍对计算资源要求较高 [1] - 四足机器人平台非常适合强化学习研究 但该领域创新点已相对有限 因已有较多研究工作完成 [2] - 移动操作是结合视觉语言导航与视觉语言行动的潜在优秀研究方向 [3] 研究挑战与资源考量 - 新入行研究者面临方向选择困惑 例如在强化学习与视觉语言行动之间 或传统SLAM与视觉语言导航之间难以抉择 [1] - 研究方向选择需考虑计算资源需求差异 某些方向需要较大算力而有些则不需要 充足算力是快速产出实验结果的必备条件 [1] - 研究者需根据预算选择适合的机器人本体 预算不足时可考虑采用仿真方案替代 [1] - 优秀研究想法的产生对新研究者而言充满挑战 往往需要经历多次试错 [3] 专业服务与支持 - 提供从CCF-A到CCF-C级别会议 以及SCI一区到四区期刊的论文辅导服务 覆盖毕业论文和博士申请支持 [3] - 辅导团队由来自国内外名校博士及头部企业研究员组成 具备ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议投稿与审稿经验 [3] - 服务提供全流程闭环辅导 涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略 [4] - 辅导结合工业界与学术界双重视角 不仅关注论文发表 更注重研究成果的落地应用价值 [5]
从蹒跚学步到模特步,人形机器人大模型做了什么
新财富· 2025-11-18 16:06
文章核心观点 - 人形机器人行业近期新机发布活跃,产品侧重点各异,运动能力显著提升,背后驱动力是人形机器人大模型的技术进步 [2] - 人形机器人大模型技术路径从LLM(大语言模型)演进至VLM(视觉语言模型),并进一步发展为VLA(视觉-语言-动作模型),核心突破在于将所有信息统一到可计算的Token空间 [4][5][6] - 行业主要玩家如谷歌、特斯拉、英伟达等在VLA模型及其应用上进行了不同路径的探索和布局 [9][12][18] 人形机器人行业近期动态 - 尽管特斯拉Optimus Gen3推迟至2026年发布,但行业新机发布节奏保持,近期发布了Figure03、1X Neo、小鹏IRON、优必选Walker S2、宇树H2等多款机型 [2] - 不同产品侧重方向差异明显:Figure03和1X Neo专注家庭场景,优必选Walker S2针对工业场景量产,小鹏IRON模特步以假乱真引发热议,宇树H2专注舞蹈等复杂动作 [2] - 人形机器人运动能力相比前两年提升非常明显,从蹒跚学步进化到动作自然优雅 [2] 人形机器人大模型技术演进 - 大模型发展脉络从LLM到VLM再到VLA,核心突破是将不同类型信息映射到统一的"符号空间",使机器人所有输入输出在连续但离散化可计算的Token空间中表达 [4][6] - Token化带来三大关键好处:统一建模空间(视觉、语言、运动可共享Transformer框架)、通用训练范式(可自监督预测下一个动作token)、迁移与泛化能力增强(跨任务场景迁移技能) [7][8] 谷歌RT-2模型 - VLA模型由Google DeepMind于2023年7月首次提出,发表于论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》 [10] - RT-2相较于前代RT-1最大变化是将机器人控制也由大模型完成,动作表示为token,与视觉-语言信息一起训练,实现AI闭环控制 [10] - 在新场景性能上,RT-2成功率从RT-1的32%提升至62%,提升原因不仅包括加入Action,LLM推理能力也有较大突破 [10] 特斯拉技术路径 - 特斯拉Optimus应用其自动驾驶FSD模型,项目leader在ICCV顶会提到FSD模型可迁移至Optimus [12] - 从FSD V12开始全面转向端到端,使用单一大型神经网络,像素及传感器数据作为输入,直接输出执行动作 [13] - 人形机器人输入输出数据复杂度远高于驾驶(涉及全身多个执行器控制),但特斯拉解决方案仍是创造大量数据,有超过100人团队进行数据采集工作 [15] - 特斯拉端到端方案并非完全黑箱,从"V"到"A"可输出中间结果(即VLA中的中间token"L") [15] 英伟达生态布局 - 英伟达发布全球首个开源通用人形机器人基础模型GR00T N1,具备双系统架构(快速与缓慢思考),一个系统推理环境指令并规划行动,另一个系统将计划转化为精确连续动作 [19] - 英伟达布局涵盖硬件到软件生态,包括机器人主控芯片Jetson Thor、仿真训练平台Isaac Lab和工具GR00T模型 [22] - 黄仁勋提出机器人公司需构建三台计算机协同解决方案:DGX(AI深度训练)、AGX(终端部署)、Omniverse with Cosmos(实时3D协作+数字孪生平台) [22] - Omniverse允许创建虚拟场景,Cosmos可生成符合物理规律的视频数据用于模型训练和评估,弥补真实数据采集效率低的问题 [22] - 许多初创公司如1X、Agility、Apptronik等使用英伟达大模型+Cosmos完整解决方案 [24] 行业不同观点 - 智元公司发布Genie Operator-1提出ViLLA架构,在VLA基础上加入"潜在动作"关键环节,并配套百万条真机轨迹数据集与"0代码动作创作平台",已开源GO-1并释放真机数据集 [26] - 王兴兴在世界机器人大会上对VLA路线持怀疑态度,认为这是"相对傻瓜式的架构",核心症结在于具身领域现存数据量严重不足 [26] - 王兴兴批评行业过度关注基础数据堆砌(真机数据、仿真数据、数采厂),认为焦点应放在模型架构本身,当前模型"不够好、也不够统一"是制约技术突破的关键 [26] - VLA将机器人动作纳入AI规划,但想要在复杂物理世界中游刃有余,机器人大脑还需更大进化 [27]
小鹏刘先明:VLA 2.0的「涌现」过程极其突然......
自动驾驶之心· 2025-11-14 08:04
第二代VLA技术架构与突破 - 技术研发遵循第一性原理,旨在省去从视觉到语言的转译部分,避免云端繁重计算和数据标注,从而极大提高推理速度[9][10] - 核心创新包括输入信号尽量使用真实世界的物理视频流,输出空间采用连续信号而非离散化文字表达,使网络结构极其简单[17] - 通过大量模仿学习和自监督,模型能够学会范本并进行推理,例如测试车在红灯转绿前能像人类一样缓缓起步,甚至通过观察两侧红绿灯变化进行推测[11] - 该架构在训练过程中直接内嵌推理逻辑,量产部署时可去掉云端计算部分,直接在本地芯片上运行,大大提高了测算和推理效率[22] - 为实现量产,公司从头设计了编译器,并结合模型、软件、编译器和硬件进行联合优化,以在图灵芯片上实现实时高帧率运行[24] 技术投入与“涌现”现象 - 从2024年至今,公司投入了3万张卡的算力,训练费用超过20亿元,并在今年二季度出现一次巨大的性能跳跃[7] - 技术“涌现”被描述为并非偶然,而是持续坚持投入和对Know-how累积的结果,例如长期处于痛苦阶段的研发工作突然迸发成效[5][8] - 在机器人领域,当数据和算力达到一定程度后出现阶跃,例如人形机器人IRON的步态在3月的一个晚上突然变得非常拟人[35][36] 传感器策略与视觉算法优势 - Robotaxi将不会装配激光雷达,因为激光雷达扫描频率仅10赫兹,且提高功率不符合车规级标准,在雨雾天气中还会产生噪声点[25][26] - 摄像头提供的信息量远超激光雷达,高像素摄像头每个像素包含三个通道,每通道8比特,一秒钟信息量巨大,但此前系统缺乏足够大的模型来充分利用[27] - 摄像头在图像信号处理算法转换时会损失16比特信息,动态范围值为2的16次方,在强光、逆光等环境下并非无法成像,而是信息被过滤处理[27] 人形机器人技术进展 - 公司人形机器人IRON除螺丝外全部自研,源于机器人产业链尚不成熟,且自研有助于降本和加速迭代[29] - 机器人能力提升被视为螺旋上升过程,从30分实际场景应用中发现新问题,逐步提升至40分,并在此过程中出现涌现时刻[32][33] - 超拟人步态的实现与仿造人类脊柱、肌肉群、腹腔和皮肤的腰部设计直接相关,前脚掌增加自由度并结合自研生成式控制器[39][41][42] - 第三代控制器采用生成式模型,步态与风格嵌入控制模型而非轨迹跟随,第四代“反重力器”控制器能根据连续姿态输入完成相应动作[45][46] - 基于通用生成式控制器,机器人可丝滑执行打太极、叶问蹲等动作,通过录制大师轨迹直接输入控制系统即可[46]
VLA方向,招募几个辅导的同学~
具身智能之心· 2025-11-12 12:00
公司活动与研究方向 - 公司近期指导多名学生完成论文并已投稿CVPR等会议[1] - 公司正面向全网招募3名视觉语言动作模型方向学生进行论文辅导[1] - 论文辅导主要研究方向包括VLA模型、轻量化、VLA+触觉、VLA+世界模型、VLA+强化学习[1] 业务拓展与联系方式 - 对论文辅导感兴趣的学生可通过联系指定微信账号进行咨询[2] - 联系时需备注特定信息“具身论文辅导咨询”以明确来意[2]
VLA方向,想再带几个同学冲一下具身的A会......
具身智能之心· 2025-11-10 18:00
文章核心观点 - 公众号"具身智能之心"正在招募视觉语言动作模型方向的研究人员进行论文辅导 重点关注VLA模型及其相关技术领域的深化研究[2] - 论文辅导名额有限 仅招募3名研究人员 以确保辅导质量[2] 行业研究方向 - 主要研究领域包括VLA模型基础研究 轻量化技术应用 VLA与触觉感知结合 VLA与世界模型整合 VLA与强化学习融合等前沿方向[2] - 研究团队已带领多名研究人员完成论文投稿 目前正陆续投递至相关学术会议[2]
从转型和研究来看,什么方向更适合第一篇论文?
具身智能之心· 2025-11-06 19:47
研究方向选择 - 具身智能领域的研究方向包括视觉语言导航、视觉语言动作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的同学,视觉语言导航和视觉语言动作是较好的切入方向[1] - 拥有机械臂硬件的研究者可选择展开视觉语言动作研究,预算不足的研究者可利用仿真环境或低成本硬件如so-100进行实验[1] - 四足机器人和人形机器人更适合强化学习方向,而视觉语言动作的研究难度较高[1] 研究方法与支持 - 产生优秀的研究想法对新人研究者至关重要,但往往需要经历多次尝试[1] - 公司提供从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导服务[2] - 辅导服务覆盖中国计算机学会推荐A类到C类国际学术会议以及科学引文索引一区到四区期刊[2] - 导师团队由来自国内外名校的博士及头部企业研究员组成,具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的投稿和审稿经验[2] - 公司提供工业界与学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[3]
卷至底价,年销2万台,机器人4S店开进商场
36氪· 2025-11-05 18:35
行业现状与市场动态 - 人形机器人行业正经历从早期概念到初步量产的转变,全国销量从去年的仅几百台预计增长至2025年的2万台,但已陷入激烈的价格战,价格逼近原材料成本[1] - 行业整体渗透率极低,在制造行业每10000名员工约拥有400台机器人,渗透率仅4%左右[2] - 商业化落地呈现“沿途下蛋”模式,近期涌现机器人6S店和4S店等新型零售业态,例如深圳龙岗的全球首家机器人6S店和北京亦庄4000多平方米的Robot Mall,集合了天工、宇树、优必选等40多家厂商的50多款机器人[5][7] 价格压力与商业模式挑战 - 价格战导致许多创新企业负担过重,没有机会拓展新应用场景,很多机器人企业亏本扩展市场,几乎已是底价[2][4] - 在规模效应显现前,机器人进入每个领域的二次开发和实施成本都特别高,若无行业典型客户愿意买单,则被迫进入相对成熟领域陷入价格竞争[4] - 当前最热卖的机器人订单集中于科研、教育和二次开发等场景,接下来巡检导览、工厂搬运等场景最有可能规模应用,特别是帮助人类完成危险工作[7] 技术路径与标准化进程 - 行业存在两条主要技术路径之争:一条是大量预采集数据训练的VLA路线,另一条是小样本高泛化的路径[9] - VLA路线高度依赖数据,但面临数据规模小、硬件构型不统一、缺乏采集标准等挑战,其泛化能力与通用性有限,难以实现精细操作[11] - 标准化工作正在积极推进,例如2025浦江创新论坛上落地的“浦江X具身智能标准化数据集平台(穹顶-DOME)”,旨在实现数据全链路闭环,北京国地中心也正牵头制定机器人的工艺流程、测试标准等[12][13] 应用场景与发展前景 - 人形机器人形态的优势在于能适应人类环境“拎包入住”,无需搭建特定轨道,双足行走使其地形通过能力优于轮式底盘[8] - 目前机器人功能仍处于“散装”阶段,只能完成特定单一任务,尚不能胜任如“保姆”类的复杂工作,居家养老陪护被视为杀手级场景,可能在未来10年内实现[7] - 行业认为具身智能的“GPT时刻”尚未到来,商业化落地需要产业链各方合力推动,特别是场景服务的系统集成商和场景所有方,而非仅靠整机开发厂商[8]
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 08:05
服务核心定位 - 公司推出针对具身智能领域的科研论文辅导服务,旨在解决研究人员在论文选题、入门及技术方向选择上的困难 [1] - 服务提供从CCF-A到CCF-C类会议、SCI一区到四区期刊以及毕业论文、申博等全区间辅导 [2] 服务覆盖的技术方向 - 辅导服务覆盖多模态大模型、视觉语言动作模型、强化学习、视觉语言导航、遥操作、数据采集、机器人仿真、虚实迁移、端到端学习、扩散模型等多个前沿顶会方向 [2] - 服务针对具身智能领域的研究方向选择难题,例如在强化学习与视觉语言动作模型之间、传统SLAM与视觉语言导航之间如何选择提供指导 [1] 服务团队与特色 - 导师团队由来自国内外名校的博士及头部大厂研究员组成,拥有在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验 [2] - 提供全流程闭环辅导,涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略的全方位支持 [2] - 服务兼具工业界与学术界双视角,不仅关注论文发表,更关注技术的落地价值 [3] 咨询与获客策略 - 公司为前10名咨询者提供免费匹配专属导师的服务,可进行深度会议并获得个性化的会议、期刊选投建议 [4]
詹锟兼任理想美国硅谷研发中心负责人并将直播讨论世界模型与VLA
理想TOP2· 2025-11-03 15:33
文章核心观点 - 讨论聚焦于特斯拉FSD v14的技术细节,特别是其是否集成了视觉语言动作模型(VLA)[1] - 探讨世界模型与VLA在自动驾驶领域的未来发展方向以及两者融合的可能性[3] - 分析数据和算力高需求对学术界参与自动驾驶研究的影响及潜在机会[3] 圆桌讨论主题 - 特斯拉FSD v14中值得国内关注的技术亮点[3] - 世界模型和VLA未来发展方向探讨,包括融合统一的可能性[3] - 数据和算力高需求导致学术界参与度下降,探索学术界在智驾领域的新机会[3] 参会嘉宾背景 - 嘉宾来自理想汽车VLA团队及硅谷研发中心、博世中央研究院VLA/闭环算法团队、长安汽车泊车团队等产业界关键角色[4] - 学术界代表包括上海交通大学人工智能学院博士生导师[6] - 其他参与者包括自动驾驶之心联创、深度流光联合创始人等行业专家[7][9]