Workflow
VLA
icon
搜索文档
最后1个名额,即将开课!VLA方向1v6论文辅导来啦~
具身智能之心· 2025-09-30 09:46
行业研究热点与方向 - 视觉-语言-行动模型及其相关衍生方向在机器人与人工智能顶会中占据了近一半的具身智能产出 [1] - 研究热点集中在长程操作、泛化、少样本学习、视觉-语言-行动模型与强化学习结合以及人形机器人相关领域 [1] - 视觉-语言-行动模型打破了传统方法的单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见过的环境 [4] 技术演进与应用前景 - 视觉-语言-行动模型的技术演进包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型 [9] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] - 该模型广泛应用于制造业、物流和家庭服务等领域,并适用于机械臂、四足机器人和人形机器人等多种平台 [4] 产业发展与市场格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化 [6] - 科技巨头如华为、京东、腾讯以及国外的Tesla、Figure AI公司均在积极布局该领域 [6] - 视觉-语言-行动模型已成为智能机器人领域的关键驱动力,推动了学术界与工业界的合作 [4] 核心挑战与前沿方向 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [10] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [10] - 研究空白与机会存在于长期记忆、视觉-语言-行动模型与强化学习原子技能库构建、动作解码问题及多模态思维链等多个方向 [15]
地瓜精酿馆开张大吉:碰杯VLA观点,互诉机器人信仰|地瓜机器人x锦秋基金
锦秋集· 2025-09-29 21:14
活动概述 - 地瓜机器人联合锦秋基金等机构举办了一场以“机器人的新一代故事”为主题的行业交流活动[2] - 活动汇集了来自机器人公司、投资基金、科技大厂及云平台的产品、技术、算法、生态及投资领域的多位负责人[2] - 活动形式为轻松的交流讨论,旨在激发机器人开发者与创业者的灵感[3][16] 关于视觉语言动作模型发展的观点记录 - 行业对VLA的发展存在不同观点,主要分为中立派和乐观派[15] - 当前VLA发展面临数据基础缺失的挑战,与互联网或自动驾驶不同,具身交互数据的平台与规模尚未形成[18] - VLA训练存在物理约束缺位问题,多基于表象数据,缺乏动力学、碰撞、摩擦等硬约束,导致“看起来会、做起来不稳”[18] - 工程实现面临参数地狱,从过去手动调整动力模型参数转变为现在调整奖励参数,工程痛苦并未消失,且训练-验证迭代周期长、开销大[18] - VLA在短期内难以严肃落地,因其“大脑”输出缺乏时间与约束概念,必须由规划或控制层进行清洗与约束[18] - 在封闭、低速、可控场景下,建议采用以规则为基础的安全兜底方案,结合可学习算法进行优化,先实现商用交付,再逐步构建数据闭环与能力堆叠[18] - VLA的推进还需两大要素:底层模型研发人才,以及能够承接模型商业化的主体,需要同时补齐模型研发与商业规模化能力[18] - 发展路径建议两条腿走路:上层大模型负责理解与任务分解,底层强化学习或规划控制负责约束满足与实时稳定,两者协同进化[18] - 可通过自主数据生成与仿真增强来突破,即利用强化学习加物理仿真来制造数据、学习策略,提高泛化能力,类似“孩子学走路”的自我试错过程[18] - 需要端侧与“大脑”能力共同提升,视觉语言模型和VLA的精度上限尚未达到,决策与执行可通过强化学习训练得更鲁棒,再解决仿真到现实的迁移问题[18] - 长期看好学习型控制方法,虽然目前稚嫩,但相比传统“画匠”式控制,其具备“灵魂与泛化”的潜力,有望从“画匠”演进为“画家”[18]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 10:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]
没有导师指导,最快多久可以产出一篇具身领域相关论文?
具身智能之心· 2025-09-28 15:00
行业发展趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据了近一半的具身产出 [1] - 长程操作、泛化、少样本、VLA+RL、人形相关是当前热门研究方向 [1] - 国内外具身智能领域处于蓬勃发展阶段 Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [6] - 华为、京东、腾讯等科技巨头积极布局具身智能领域 与国外Tesla、Figure AI等公司共同推动行业发展 [6] VLA技术特点与应用 - VLA模型通过语言指令和视觉信号直接生成机器人可执行动作 打破了传统单任务训练的局限性 [7] - VLA使得机器人能够在多样化场景中自主决策 灵活应对未见过的环境 [4] - 该技术广泛应用于制造业、物流和家庭服务等领域 [4] - VLA模型可应用于机械臂、四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力 [4] 前沿研究项目 - VLA领域已推动多个前沿项目发展 包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [4][7] - 这些研究促进了学术界与工业界的合作 [4] - RT-2、OpenVLA和PI0等模型实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] 技术演进路径 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型 [10] - 研究关注如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换 [11] - PaLM-E、RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性 [11] 核心研究挑战 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [11] - 前沿研究方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [11] - 领域未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [16]
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 08:04
行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出,重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见环境,广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展,促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局,与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性,可应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建,需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]
VLA及其相关方向占据了顶会近一半的具身工作,特别是这几个......
具身智能之心· 2025-09-23 12:00
行业技术趋势:VLA成为具身智能关键驱动力 - 从今年各机器人与AI顶会来看,Vision-Language-Action模型及其相关衍生方向占据了近一半的具身智能产出,特别是在长程操作、泛化、少样本学习、VLA与强化学习结合以及人形机器人相关领域[1] - VLA模型打破了传统机器人方法的单任务局限,使机器人能在多样化场景中自主决策,灵活应对未见过的环境,广泛应用于制造业、物流和家庭服务等领域[1] - VLA模型已成为研究热点,推动了多个前沿项目的发展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作[1][4] - VLA模型的适应性体现在能应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用价值[1] 产业发展与竞争格局 - 国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[3] - 华为、京东、腾讯等国内科技巨头积极布局具身智能领域,与国外的Tesla、Figure AI等公司共同推动该领域发展[3] 技术演进与核心挑战 - VLA范式是具身智能领域的新范式,能从给定的语言指令和视觉信号直接生成机器人可执行的动作,使机器人模型向更通用和泛化的方向发展[4] - 技术演进路径包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型[7] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[7] - 领域面临的核心挑战包括跨域泛化、长期规划与世界模型构建[8] - 研究前沿包括将大型语言模型的推理能力与机器人控制系统结合,实现从高级任务描述到低级运动规划的有效转换,以及通过PaLM-E、RT-X等模型的多模态预训练和微调策略增强机器人在开放环境中的适应性和鲁棒性[8] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力,旨在突破“看得见但摸不着”、“只关注当下不能预测未来”等局限性[8] 研究热点与未解难题 - 具身智能领域存在大量未解决的研究难点,包括长期记忆、VLA与强化学习结合的原子技能库构建、动作解码问题、多模态思维链等多个前沿方向[13] - VLA模型体系可系统梳理为隐式端到端、显式端到端、分层端到端三大类[9]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-21 00:03
技术交流社群建立 - 自动驾驶领域专业社群成立 涵盖世界模型 端到端 VLA等多个前沿技术方向[1] - 社群定位为技术交流平台 面向开学季和秋招期从业人员与学生群体[1] - 通过指定联系方式可申请加入 需备注昵称与研究方向[1]
人形机器人考察要点_市场展望、组件与具身人工智能-Humanoid Robot tour takeaways_ market outlook, components and embodied AI
2025-09-18 21:09
**行业与公司** 行业涉及人形机器人及自动驾驶 公司包括机器人初创企业优必选UBTECH 大族机器人Leju 越疆科技Dobot 以及零部件供应商奥比中光Orbbec 兆威机电Zhaowei 速腾聚创RoboSense 固高科技Googol 机器人制造设备供应商联想控股LK Tech 及自动驾驶方案提供商Minieye [1][7] **核心观点与论据** *市场前景* 人形机器人市场未来十年将快速扩张 当前主要用于教育和研发 未来2-3年将广泛用于工厂场景 长期有望进入商业和家庭应用领域 当前全功能人形机器人BOM成本约5-6万美元 未来5年成本将快速下降 得益于产品设计改进和规模效应 [1] 自动驾驶领域 日益严格的法规将为AD零部件提供更多机会 例如L3要求可能带来长距离物体检测需求 利好激光雷达LiDAR 而前视摄像头模块FVCM和驾驶员监控系统DMS因强制自动紧急制动AEB安装规定面临巨大增长潜力 [1] *零部件机遇* 灵巧手供应商兆威机电于2024年底推出人形机器人灵巧手模型 凭借寿命 温控和负载性能优势 长期目标全球市场份额10-15% 假设2030年全球人形机器人出货量达300万台 公司灵巧手出货量预计60-90万台 灵巧手BOM成本占机器人总成本20-30% 按单台机器人20-30万元人民币计算 单台价值量4-6万元人民币 [12][13] 视觉系统方面 奥比中光认为深度相机(包括结构光相机和间接飞行时间iToF)是人形机器人主流选择 而速腾聚创预计LiDAR采用率将因成本下降和远距离传感需求上升而提高 [2][21][22] 运动控制系统供应商固高科技凭借多自由度控制专业知识 其控制器可很好应用于人形机器人执行器 [2][15] 材料方面 联想控股看到镁合金在人形机器人结构材料中采用率上升 因减重要求和生产工艺成熟 镁合金可使功能部件减重30-40% 每辆汽车镁合金用量从2020年1.5-3公斤增至2024年燃油车5公斤和新能源车10公斤 政策目标是2030年达到45公斤 [25][26] *算法与数据* 视觉-语言-行动模型VLA和世界模型World Model是具身AI的两条竞争技术路线 VLA采用单一端到端模型 而世界模型学习现实世界物理规律 所需边缘侧计算能力更少 在长流程任务中表现良好 当前高质量数据可用性是关键瓶颈 机器人初创企业可能结合使用模拟数据和真实数据 或与政府支持的数据收集中心合作 [3][24] *公司具体动态* 优必选Walker系列人形机器人现已部署于比亚迪 极氪 东风 一汽大众等汽车工厂用于物料搬运 目标2025年出货500台 2026年出货2000-3000台 当前BOM成本5-6万美元 预计未来2-3年成本快速下降 [23] 速腾聚创新款EMX激光雷达在精度(192通道对64通道) 探测距离(300米对200米)和自研SPAD-SOC芯片方面优于竞争对手禾赛ATX产品 截至2025年8月已为40多款车型获得EM4/EMX设计订单 很可能成为小米 理想 零跑和长安的第二供应商 预计2025年ADAS激光雷达出货60-70万台 2026年150万台 其中约50%来自比亚迪 20-25%来自吉利 约10%来自上汽 [10] 越疆科技是全球领先协作机器人COBOT品牌 2025年上半年六轴协作机器人销售同比增长47% 大幅超越行业增长 显示份额提升 2025年一季度推出首款人形机器人原型 三季度推出第二版 [8][9] 大族机器人目标2025年出货超过1000台 2026年预计5000-10000台 关节是人形机器人关键部件 占成本40%以上 包括电机 减速器和执行器 当前产品有28个关节 下一代目标31个关节 预计平均售价ASP将随规模效应下降 到2026-2028年降至15万元人民币(约2万美元) [18][19][20] *自动驾驶与安全法规* Minieye提供从L0到L2的iSafety解决方案(前视摄像头模块FVCM) L2+到L3的iPilot解决方案(域控制单元DCU)以及L4的iRobo解决方案 中国已规定从2026年起商用车强制安装AEB 很可能从2028年起乘用车也强制安装 2024年中国乘用车AEB渗透率约为60% [16][17] **其他重要内容** *投资评级与风险* 联想控股XBQXF目标价3.2港元 基于10倍2026年预期每股收益 下行风险包括低于预期的总可寻址市场TAM和竞争 [27][28] 速腾聚创XEDSF目标价46港元 基于DCF和EV/销售额估值平均 下行风险包括汽车市场价格竞争 LiDAR市场竞争加剧 ASP/毛利率下降以及美国收入关税风险 [29][32] *研究范围* 报告涵盖工业及汽车行业多个公司 包括买入 中性和表现不佳评级 [33][34][35][36] *免责声明* 美国银行证券与其覆盖的发行人有业务往来 可能存在利益冲突 投资者应将此报告仅作为投资决策的单一因素 [4][5]