VLA
搜索文档
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 12:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
最后1个名额,即将开课!VLA方向1v6论文辅导来啦~
具身智能之心· 2025-09-30 09:46
行业研究热点与方向 - 视觉-语言-行动模型及其相关衍生方向在机器人与人工智能顶会中占据了近一半的具身智能产出 [1] - 研究热点集中在长程操作、泛化、少样本学习、视觉-语言-行动模型与强化学习结合以及人形机器人相关领域 [1] - 视觉-语言-行动模型打破了传统方法的单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见过的环境 [4] 技术演进与应用前景 - 视觉-语言-行动模型的技术演进包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型 [9] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] - 该模型广泛应用于制造业、物流和家庭服务等领域,并适用于机械臂、四足机器人和人形机器人等多种平台 [4] 产业发展与市场格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化 [6] - 科技巨头如华为、京东、腾讯以及国外的Tesla、Figure AI公司均在积极布局该领域 [6] - 视觉-语言-行动模型已成为智能机器人领域的关键驱动力,推动了学术界与工业界的合作 [4] 核心挑战与前沿方向 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [10] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [10] - 研究空白与机会存在于长期记忆、视觉-语言-行动模型与强化学习原子技能库构建、动作解码问题及多模态思维链等多个方向 [15]
地瓜精酿馆开张大吉:碰杯VLA观点,互诉机器人信仰|地瓜机器人x锦秋基金
锦秋集· 2025-09-29 21:14
活动概述 - 地瓜机器人联合锦秋基金等机构举办了一场以“机器人的新一代故事”为主题的行业交流活动[2] - 活动汇集了来自机器人公司、投资基金、科技大厂及云平台的产品、技术、算法、生态及投资领域的多位负责人[2] - 活动形式为轻松的交流讨论,旨在激发机器人开发者与创业者的灵感[3][16] 关于视觉语言动作模型发展的观点记录 - 行业对VLA的发展存在不同观点,主要分为中立派和乐观派[15] - 当前VLA发展面临数据基础缺失的挑战,与互联网或自动驾驶不同,具身交互数据的平台与规模尚未形成[18] - VLA训练存在物理约束缺位问题,多基于表象数据,缺乏动力学、碰撞、摩擦等硬约束,导致“看起来会、做起来不稳”[18] - 工程实现面临参数地狱,从过去手动调整动力模型参数转变为现在调整奖励参数,工程痛苦并未消失,且训练-验证迭代周期长、开销大[18] - VLA在短期内难以严肃落地,因其“大脑”输出缺乏时间与约束概念,必须由规划或控制层进行清洗与约束[18] - 在封闭、低速、可控场景下,建议采用以规则为基础的安全兜底方案,结合可学习算法进行优化,先实现商用交付,再逐步构建数据闭环与能力堆叠[18] - VLA的推进还需两大要素:底层模型研发人才,以及能够承接模型商业化的主体,需要同时补齐模型研发与商业规模化能力[18] - 发展路径建议两条腿走路:上层大模型负责理解与任务分解,底层强化学习或规划控制负责约束满足与实时稳定,两者协同进化[18] - 可通过自主数据生成与仿真增强来突破,即利用强化学习加物理仿真来制造数据、学习策略,提高泛化能力,类似“孩子学走路”的自我试错过程[18] - 需要端侧与“大脑”能力共同提升,视觉语言模型和VLA的精度上限尚未达到,决策与执行可通过强化学习训练得更鲁棒,再解决仿真到现实的迁移问题[18] - 长期看好学习型控制方法,虽然目前稚嫩,但相比传统“画匠”式控制,其具备“灵魂与泛化”的潜力,有望从“画匠”演进为“画家”[18]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 10:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]
没有导师指导,最快多久可以产出一篇具身领域相关论文?
具身智能之心· 2025-09-28 15:00
行业发展趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据了近一半的具身产出 [1] - 长程操作、泛化、少样本、VLA+RL、人形相关是当前热门研究方向 [1] - 国内外具身智能领域处于蓬勃发展阶段 Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [6] - 华为、京东、腾讯等科技巨头积极布局具身智能领域 与国外Tesla、Figure AI等公司共同推动行业发展 [6] VLA技术特点与应用 - VLA模型通过语言指令和视觉信号直接生成机器人可执行动作 打破了传统单任务训练的局限性 [7] - VLA使得机器人能够在多样化场景中自主决策 灵活应对未见过的环境 [4] - 该技术广泛应用于制造业、物流和家庭服务等领域 [4] - VLA模型可应用于机械臂、四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力 [4] 前沿研究项目 - VLA领域已推动多个前沿项目发展 包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [4][7] - 这些研究促进了学术界与工业界的合作 [4] - RT-2、OpenVLA和PI0等模型实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] 技术演进路径 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型 [10] - 研究关注如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换 [11] - PaLM-E、RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性 [11] 核心研究挑战 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [11] - 前沿研究方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [11] - 领域未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [16]
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 08:04
行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出,重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见环境,广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展,促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局,与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性,可应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建,需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]
VLA及其相关方向占据了顶会近一半的具身工作,特别是这几个......
具身智能之心· 2025-09-23 12:00
行业技术趋势:VLA成为具身智能关键驱动力 - 从今年各机器人与AI顶会来看,Vision-Language-Action模型及其相关衍生方向占据了近一半的具身智能产出,特别是在长程操作、泛化、少样本学习、VLA与强化学习结合以及人形机器人相关领域[1] - VLA模型打破了传统机器人方法的单任务局限,使机器人能在多样化场景中自主决策,灵活应对未见过的环境,广泛应用于制造业、物流和家庭服务等领域[1] - VLA模型已成为研究热点,推动了多个前沿项目的发展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作[1][4] - VLA模型的适应性体现在能应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用价值[1] 产业发展与竞争格局 - 国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[3] - 华为、京东、腾讯等国内科技巨头积极布局具身智能领域,与国外的Tesla、Figure AI等公司共同推动该领域发展[3] 技术演进与核心挑战 - VLA范式是具身智能领域的新范式,能从给定的语言指令和视觉信号直接生成机器人可执行的动作,使机器人模型向更通用和泛化的方向发展[4] - 技术演进路径包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型[7] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[7] - 领域面临的核心挑战包括跨域泛化、长期规划与世界模型构建[8] - 研究前沿包括将大型语言模型的推理能力与机器人控制系统结合,实现从高级任务描述到低级运动规划的有效转换,以及通过PaLM-E、RT-X等模型的多模态预训练和微调策略增强机器人在开放环境中的适应性和鲁棒性[8] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力,旨在突破“看得见但摸不着”、“只关注当下不能预测未来”等局限性[8] 研究热点与未解难题 - 具身智能领域存在大量未解决的研究难点,包括长期记忆、VLA与强化学习结合的原子技能库构建、动作解码问题、多模态思维链等多个前沿方向[13] - VLA模型体系可系统梳理为隐式端到端、显式端到端、分层端到端三大类[9]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]