VLA

搜索文档
当我们谈大模型和vla岗位的时候,究竟有哪些内容?(附岗位)
自动驾驶之心· 2025-07-11 19:23
大模型与VLA技术差异 - 所有依赖大模型的方案都可归为大模型岗位 包括VLM和VLA等技术方向 关键技术涉及微调 轻量化 量化和部署等 [2] - VLA概念包含执行环节(Vision+Language+Action) 属于端到端技术范畴 当前行业存在两阶段(大模型+Diffusion)和单阶段(纯大模型)两种实现方案 [2] - 大模型在自动驾驶领域应用需进行场景适配 例如采用qwen等模型进行微调以提升场景理解与预测能力 [2] 岗位需求与薪资水平 - 大模型研发工程师岗位月薪范围30k-80k 工作地点覆盖深圳/上海 [2] - VLA/VLM大模型算法岗位月薪达40k-100k 工作地点包括北京/上海/杭州 要求3-5年自动驾驶或AI算法经验 [8] - 端到端/VLA工程师需参与驾驶系统全流程研发 包含数据集构建 模型调优及闭环评测系统开发 [6] 核心技术能力要求 - 需精通Transformer架构及多模态大模型训练 熟悉PyTorch/DeepSpeed等框架 具备轨迹预测或决策规划项目经验 [9] - 优先考虑顶会论文发表者(CVPR/ICCV等)或算法竞赛获奖者(ACM/IOI) 需掌握模仿学习/强化学习技术 [5][9] - 视觉大模型方向要求搭建数据pipeline 探索数据合成技术 优化垂直场景下的模型推理性能 [5] 前沿技术应用方向 - 研发重点包括千亿参数级大模型训练 驾驶场景生成式模型开发(Diffusion/LLM)以及多模态数据挖掘 [11] - 需探索大模型在自动驾驶的创新应用 如视觉-语言-行为的多模态决策系统 融合模仿学习与强化学习技术 [10] - 行业关注世界模型与仿真场景构建 要求熟悉nuScenes/Waymo等数据集 具备量产项目经验者更具竞争力 [11]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 14:46
具身智能综述与研究方向 - 文章整理了数十篇具身智能相关综述,涵盖数据集、评测、VLA、VLN、强化学习、基础模型、DP等多个方向,展示具身智能发展路线 [1] - 内容来自具身智能之心知识星球,提供近30+具身路线学习和近200家具身公司与机构成员交流机会 [9] 视觉-语言-动作(VLA)模型 - 从动作标记化视角综述VLA模型,探讨其在自动驾驶领域的应用 [2] - 分析VLA模型后训练与人类运动学习的相似性,包括进展、挑战和趋势 [2] - 综述VLA模型的概念、进展、应用和挑战 [5] - 针对具身AI的VLA模型进行系统调查 [7][8] 机器人基础模型与强化学习 - 探讨基础模型在机器人领域的应用、挑战和未来发展方向 [3] - 调查深度强化学习在机器人真实场景中的成功案例 [3] - 分析扩散策略在机器人操作中的分类、应用和未来趋势 [3] - 研究机器人操作中的模仿学习方法 [5] 具身工业机器人与神经科学启发 - 提出具身智能工业机器人的概念和技术框架 [4] - 开发受神经科学启发的具身智能体框架Neural Brain [4][5] 多模态感知与机器人导航 - 调查基于物理模拟器的机器人导航和操作技术 [5] - 研究目标导向导航中的多模态感知方法 [5] - 分析机器人视觉中的多模态融合和视觉语言模型 [6] - 探讨SE(3)-等变机器人学习和控制方法 [6] 生成式AI与机器人操作 - 调查生成式人工智能在机器人操作中的应用 [6] - 研究扩散模型在机器人操作中的进展 [5][6] 具身AI系统与数据集 - 开发通用型具身智能体标准和统一数据集 [9] - 探索从互联网视频中学习通用机器人技能的方法 [9] - 调查人形机器人远程操作技术 [9] - 研究基于基础模型的机器人学习向具身AI发展 [9]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 20:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 16:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
四家具身智能公司齐聚,热钱与泡沫并存的万亿赛道谁能挺进决赛圈
贝壳财经· 2025-06-29 16:26
具身智能行业现状 - 具身智能赛道热度空前,投资金额攀升,各种资本涌入,被认为是万亿级赛道 [1] - 行业尚未达到泡沫阶段,融资规模与智能汽车头部企业相比仍有差距,国内头部公司融资规模在几十亿元人民币,美国同行达几十亿美元 [3] - 具身智能是中国少数能与美国站在同一起跑线的领域,但国内融资规模仍落后美国一个数量级 [3] - 供应链和人才是国内发展具身智能的特有优势 [3] 商业化落地前景 - B端垂直场景如搬运、上下料、质检等将最先实现商业化落地 [6] - 人形机器人当前能力有限,更适合执行简单任务,关键在于跑通数据、模型和服务体系 [6] - 家电制造产线已开始应用人形机器人进行涂胶工位上下料,因其能适应频繁产线切换 [6] - 具身智能当前应用场景可分为教具、展具、科研工具和素材工具四类,仍处于探索阶段 [6] 技术发展方向 - VLA(视觉-语言-动作)模型被认为是机器人大脑的可能终局,但当前范式仍有改进空间 [7] - 现有VLA模型以模仿学习为主,未来可能转向先训练视觉和动作,再与语言对齐的新范式 [7] - 行业正朝着更统一、更端到端的通用模型方向发展,VLA被认为是技术收敛点 [8] 行业竞争格局 - 决赛圈可能呈现多元化格局,包括主机厂、硬件厂商、AI大脑开发商等不同定位的企业 [9] - 行业最终可能收敛到全球一二十家主机厂,介于手机(6-7家)和汽车(几十家)行业之间 [10] - 软硬一体能力将成为决赛圈关键,创业公司有望在决赛圈占据重要位置 [10] - 通用家用机器人市场可能高度集中,但整体机器人应用市场将保持多样化 [11]
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网· 2025-06-20 19:54
核心观点 - 互联网视频数据是唯一可以规模化(scalable)的具身智能发展路径,通过标注人类动作数据训练模型是通向通用人工智能(AGI)的关键[1][6][25] - 当前多模态模型缺乏与世界物理交互的能力,需通过海量人类运动视频数据建立动作与世界的关联[2][19][29] - 公司技术路线与主流VLA/世界模型方案存在本质差异,坚持从人类行为数据预训练构建统一解决方案[5][55][56] 技术路线 - **数据采集**:已标注1500万条互联网视频中人类关节动作数据,聚焦全身运动控制与第一人称手部操作[6][28][34] - **模型架构**:基于语言模型backbone加入多模态信息,未来可能探索纯视频预训练模型[42][55] - **训练方法**:通过人类动作先验知识缩小状态-动作空间搜索范围,避免强化学习的无效遍历[29][30] - **硬件适配**:专注人形机器人/灵巧手形态,可向下兼容夹爪/轮式机器人[31][33] 行业竞争分析 - **主流方案缺陷**: - 遥操作/真机数据采集成本高且难以复用[33] - 自动驾驶系世界模型仅适用于建图导航,无法预测物理交互结果[45][48] - VLA方案在gripper形态有效但未触及人形机器人本质问题[53][57] - **差异化优势**: - 数据规模领先(1500万vs竞品数百条)[28] - 动作级标注精度(20+关节自由度vs物体轨迹分析)[25] - 预训练范式创新(action数据前置学习vs VLM+action head)[55] 公司发展 - **融资情况**:获联想之星/星连资本数千万人民币天使轮[9] - **团队规模**:5名全职+20名实习生,核心成员具备多年模型研究经验[76][78] - **产品规划**: - 第一代模型Being-M0定位验证性产品[73] - 运动控制模型将率先scale up至1.0版本[74] - 第二代模型Beyond系列代表全球领先水平[70] - **商业化节奏**: - 2-3年实现技术规模化[81] - 短期无商业化压力,保持非营利研究属性[64][65] - 长期目标2C通用机器人[83] 行业趋势判断 - 具身智能发展受限于视频数据贫乏,需突破语言模型依赖文字富矿的路径依赖[9][35] - 当前投资环境存在"非共识投资"与"确定性偏好"的矛盾,但机器人硬件进步带来信心[66] - 全球竞争格局下,技术路线终局思维比短期商业化更重要[67]
对话灵初智能CEO王启斌:让机器人进工厂有意义,让机器人学会打麻将也有意义
搜狐财经· 2025-06-11 16:47
公司概况 - 灵初智能创立于2024年,创始人包括王启斌、陈源培和柴晓杰博士,团队规模约80人(含30名实习生)[5][9] - 公司与北京大学成立联合实验室,由杨耀东和梁一韬担任负责人[5] - 创始人王启斌拥有京东和云迹机器人等硬件领域经验,强调务实的产品定位[6][12] 技术突破 - 开发全球首个端到端具身VLA模型Psi R1,支持"动作感知-环境反馈-动态决策"全闭环[5] - VLA模型突破传统VLM局限,能直接输出动作路径实现类人推理和全局理解[7] - 机器人打麻将演示展示开放场景下处理长程复杂任务的能力,训练周期1.5个月[5][17] - 训练数据采用仿真合成为主(成本低、突破天花板)结合少量真实数据[16] 产品战略 - 聚焦"双臂轮式机器人"形态,认为当前阶段轮式已满足客户需求[6][18] - 明确不做双足机器人,优先解决制造业和物流领域朴实问题[19][21] - 海外产品定价策略为低于目标岗位24个月人工费用[23] - 预计2026年底销售额达数亿元[22] 商业化进展 - 主要落地场景:制造业工序(检验/搬运/包装)和物流行业(拣选/分拨)[21] - 已锁定全球物流客户,计划6个月内在欧美仓库交付产品[6][21] - 供应链优势来自中国生态和顶尖供应商合作[20] 行业观点 - 认为具身智能行业处于第一阶段(标准化地面移动),人形机器人为下一阶段[18] - 指出当前行业头部公司如Figure AI在手部操作能力存在短板[15] - 观察到资本市场对商业化期待更明确,风险投资关注技术路线生命力[25] - 认为行业存在技术泡沫但市场潜力巨大,不同公司会走差异化路径[26]
银河通用创始人王鹤:做好VLA,将见证具身智能第一次真正高峰的到来
每日经济新闻· 2025-06-06 23:28
公司动态 - 银河通用创始人兼CTO王鹤在"2025智源大会"上强调推动具身智能产业化的目标 [1] - 公司轮式双臂机器人GALBOT G1展示精准抓取密集货架商品的能力 [1] - 公司2023年5月成立后已完成超12亿元融资 投资方包括美团战投 北汽产投 启明创投等知名机构 [3] - 6月1日推出自主研发的端到端导航大模型TrackVLA 具备纯视觉感知和语言指令驱动能力 [3] - 公司机器人已在北京开设7家无人药店 计划年底前在北上深扩展至100家 [8] 产品技术 - GALBOT G1机器人可24小时在无人药店执行捡药和对接骑手任务 [8] - TrackVLA大模型使机器狗能在复杂场所稳定跟随目标并协助携带重物 [3] - VLA模型突破传统模块化方案限制 实现端到端的视觉-动作直接转换 [9] - 当前VLA技术最适合移动 抓取和放置类应用 工业商业服务领域潜力大 [9] 行业趋势 - 2023年人形机器人赛事活动显著提升市场关注度 包括半程马拉松和格斗比赛 [4] - 具身智能产业化面临的核心挑战是如何满足用户对成功率的高要求 [4][7] - 行业需通过赛事推动有价值 可落地技能的标准化和生态建设 [8] - 8月将举办"世界人形机器人运动会" 进一步促进行业发展 [8] 技术发展 - VLA技术现阶段仍局限于视觉输入 未来需整合嗅觉味觉等多模态数据 [9] - 实现人类级别具身智能需要持续扩展感知维度和知识融合能力 [9] - 专注视觉主导的基础技能优化将迎来具身智能首个应用高峰 [9]
2025中国高阶智能辅助驾驶最新技术洞察:算力跃迁、数据闭环、VLA与世界模型
亿欧· 2025-06-05 13:42
报告行业投资评级 未提及相关内容 报告的核心观点 - 高阶智能辅助驾驶技术需在算法、数据、算力升级的同时解决安全短板,推动技术迭代与安全验证同步发展 [23] - 车端算法架构从模块化向端到端演进,一段式端到端VLA推动智能驾驶从“数据驱动”向“认知驱动”跃迁,多段式端到端E2E+VLM将被替代 [66] - VLA大模型“类人决策”特点将重塑智能辅助驾驶竞争格局,车企需平衡算法创新、工程落地与成本控制 [69] - 全栈自研仅头部新势力可长期维持,自研+外采将成多数车企主流选择,全栈外采在中低端车型仍有空间,行业呈“分层竞争、多元共存”格局 [83] - 尽管车企和政策推动L3落地,但大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,L3规模化上车进度可能放缓 [99] 根据相关目录分别进行总结 中国高阶智能辅助驾驶市场背景 - 高阶辅驾ODD再扩展:未提及具体内容 - 科技平权与技术普惠:未提及具体内容 - 事故焦虑与安全冗余:今年部分头部车企智能辅助驾驶NOA功能事故暴露技术边界与用户认知错配,引发安全信任危机;工信部发文规范宣传,为行业过热宣传降温;技术需在多方面升级同时解决安全短板 [21][23] - 政策护航与理性宣传:2025年4月16日,工信部发布通知规范智能网联汽车驾驶辅助功能宣传及技术验证,禁止夸大能力,要求功能验证周期与用户安全教育 [23] 中国高阶智能辅助驾驶技术洞察 高阶智能辅助驾驶技术洞察 - 解码算力、数据、算法的技术底层逻辑:未提及具体内容 高阶智能辅助驾驶算力洞察 - 车端算力:向千级TOPS跃迁,大算力芯片加速普及,国产芯片未来可期;目前国内量产芯片多≤200TOPS,未来500 - 1000TOPS+芯片将成主流;车端受硬件算力限制,依赖云端大模型,架构向端到端转型;未来车端将实现端到端大模型本地化部署,车规级芯片算力上限将突破 [42][43][44] - 云端算力:未提及具体内容 高阶智能辅助驾驶数据洞察 - 数据难题:未提及具体内容 - 数据采集:未提及具体内容 - 定位技术:未提及具体内容 高阶智能辅助驾驶算法洞察 - 端到端、VLA、世界模型:车端算法以端到端架构为基础,VLM辅助E2E处理复杂决策,VLA融合多模态信息提升泛化能力;云端模型从模仿学习演进至生成式世界模型,构建闭环训练系统支撑车端模型泛化能力升级 [61] - 算法架构:从模块化到多段式端到端再到一段式端到端演进,一段式端到端VLA推动智能驾驶跃迁,多段式端到端E2E+VLM将被替代 [65][66] - VLA:起源于2023年谷歌探索,2025年上车引领智能辅助驾驶升级,但面临算力、数据成本、推理延迟等挑战,需强化多模态融合、车云协同 [68][69] 中国高阶智能辅助驾驶竞合分析 企业梯队与产业图谱 - 未提及具体内容 开发策略与合作模式 - 开发策略:主机厂智能辅助驾驶方案开发策略分软硬全栈自研、自研+外采、软硬全栈外采;全栈自研技术壁垒高但资金/人才门槛高,自研+外采平衡成本与技术,全栈外采快速量产、成本可控 [82] - 合作模式:包括全栈自研、自研+外采、全栈外采;全栈自研仅头部新势力可维持,自研+外采成主流,全栈外采在中低端车型有空间 [83] 中国高阶智能辅助驾驶趋势洞察 乘用车L3商业化进展 - 2025年主机厂陆续发布L3、L4量产规划,数据积累与政策协同推动安全升级;L3级自动驾驶ODD限定在高速路段,L4级可在城市限定区域运行;L3大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,规模化上车进度可能放缓 [96][97][99]
智驾的遮羞布被掀开
虎嗅APP· 2025-05-26 21:57
智能驾驶技术路线分化 - 行业进入端到端2.0阶段,技术路线无统一标准,理想、小鹏、华为分别推出VLA、世界基座模型、WEWA架构等差异化方案 [3] - 小鹏布局云端72B参数世界基座模型(车端模型的35倍),计划覆盖汽车、机器人及飞行汽车业务,自研图灵芯片支持30B参数模型部署 [5] - 理想自研LLM基座模型替代第三方模型,以解决3D世界理解不足导致的幻觉问题,但受限于自研芯片"舒马赫"进展缓慢,仍依赖英伟达Thor芯片 [7] - 华为采用多模态基座模型+MoE架构,通过多传感器输入生成轨迹和场景意图,目标实现L3级十秒预警能力 [9] 数据训练瓶颈与仿真解决方案 - 行业面临优质数据短缺困境,人工标注成本高且难例数据获取困难,华为指出Corner case数据是训练关键缺口 [11] - 厂商转向世界模型仿真生成数据,真数据与合成数据比例达1:2,可降低采集成本并丰富场景类型 [12] - 地平线认为99%司机行为不值得学习,仿真将成为核心训练手段,提出"AI教AI"的终极形态 [12][13] - 当前仿真数据质量仍不及真实数据,技术差距因模型探索门槛拉大 [13] 技术商业化与行业格局演变 - L3级技术需"重技术+强运营"体系,责任归属从用户转向车企,要求硬件冗余与持续维护能力 [16] - 城区自动驾驶难度是高速场景的10-100倍,头部厂商通过技术滚雪球效应加速领先 [16] - 供应商集中化趋势明显,量产经验、交付周期及成本成为主机厂筛选核心标准,未量产厂商基本出局 [17] - 行业进入分化期,无实质技术支撑的营销话术失效,市场将呈现强者恒强格局 [15][17]