Workflow
VLA
icon
搜索文档
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-14 20:00
辅导老师:积极活跃在具身学术领域,有idea。 感兴趣的同学可以添加微信oooops-life咨询,或者直接扫码,备注具身论文辅导咨询。 具身智能之心1v1论文辅导来啦!现在有3个vla、强化学习、sim2real方向的名额,主要面向A会和B会。 主要会议:CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA等; ...
自动驾驶VLA论文指导班第二期来啦,名额有限...
自动驾驶之心· 2025-08-14 14:49
⼀、VLA科研论文辅导课题来啦⭐ 理想VLA司机大模型已经上车了!从发布会上看,VLA 能力的提升集中体现在三点:更懂语义 (多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)。发布会上展示了 四个核心能力:空间理解能力、思维能力、沟通与记忆能力以及行为能力。 其中思维能力、沟通与记忆能力是语言模型赋予的能力,其中记忆能力还用到了RAG。下面是理 想VLA司机大模型思维链输出的demo:结合了动态目标、静态元素、导航地图、空间理解等等元 素。毫无疑问,VLA已经是自动驾驶学术界和工业界最为关注的方向。 而VLA是从VLM+E2E一路发展过来的,涵盖了端到端、轨迹预测、视觉语言模型、强化学习等多 个前沿技术栈。。而传统的BEV感知、车道线、Occupancy等工作相对较少出现在顶会了,最近也 有很多同学陆续来咨询柱哥,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的 七七八八了,审稿人会打高分吗? 说到传统的感知、规划等任务,工业界都还在继续优化方案!但学术界基本都慢慢转向大模型与 VLA了,这个领域还有很多工作可以做的子领域... 之前我们已经开展了第一期VLA论文指导班,反响很不错 ...
正式开课!端到端与VLA自动驾驶小班课,优惠今日截止~
自动驾驶之心· 2025-08-14 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 可以说VLA是当前自动驾驶量产一个新的里程碑,业内很多公司都在布置人力研发。从E2E+VLM到VLA,技术呈现递进式的发展。最近很多小伙伴也联系到我 们,其中不乏传统规控、感知、预测方向的小伙伴表示想转VLA。可是苦于技术栈涉及面太广,转行无从下手,网上也没有很好的学习资料, 为此我们联合国内 TOP主机厂算法专家,打造了《端到端与VLA自动驾驶小班课》!技术专家带你深入端到端与VLA算法原理与技术开发,今日正式开课! 全面了解端到端自动驾驶 第一章 深入学习端到端背景知识 第二章 大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK及LLM优化技术 二段式端到端到底是个啥? 第三章 港科技PLUTO 浙大CARPLANNER(CVPR'25) 中科院最新PLAN-R1 一段式端到端的全面学习 第四章 基于感知的一段式端到端 基于世界模型的一段式端到端 基于扩散模型的一段式端到端 基于VLA的一段式端到端 两大实战直击科研&落地第一线 独家大作业RLHF微调 第二章 揭秘大模型强化学习神 ...
传统感知逐渐被嫌弃,VLA已经上车了?!
自动驾驶之心· 2025-08-13 14:04
理想i8与VLA司机大模型 - 理想i8成为首款搭载VLA司机大模型的理想车型 核心能力包括空间理解 思维能力 沟通与记忆能力以及行为能力 [2] - VLA能力提升体现在三方面 更懂语义(多模态输入) 更擅长推理(思维链) 更接近人类驾驶直觉 [2] - 行驶中可响应自然语言指令如"靠边停一下""往前走50米" 并能根据记忆设定路段速度 主动规避障碍 [5] VLA技术发展现状 - VLA是自动驾驶量产新里程碑 技术从E2E+VLM递进发展 行业多家公司投入研发 [7] - 技术栈涉及大语言模型 BEV感知 扩散模型 强化学习等多领域 转行门槛较高 [19] - 当前招聘需求旺盛 VLA算法专家岗位薪资达40-70K 量化部署工程师40-60K [15] 端到端自动驾驶课程体系 课程内容架构 - 第一章概述端到端发展历史 从模块化到一段式 二段式及VLA范式的演进 [26] - 第二章重点讲解大语言模型 BEV感知 扩散模型等背景知识 覆盖未来两年高频技术关键词 [26][33] - 第三章解析二段式端到端 包括PLUTO CARPLANNER(CVPR'25)等经典算法 [27] - 第四章深度剖析一段式端到端子领域 涵盖UniAD 世界模型 扩散模型及VLA前沿方案 [28][30][32][35] 教学特色 - 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [21] - 配套RLHF微调大作业 可迁移至VLA算法 提供ORION等实战项目 [35][37] - 课程目标使学员达到1年经验算法工程师水平 掌握BEV感知 多模态大模型等关键技术 [42] 行业技术趋势 - 世界模型应用广泛 涵盖场景生成 端到端驾驶及闭环仿真 成为近年热门方向 [30] - 扩散模型与VLM结合实现VLA 多模轨迹预测提升环境适应性 多家公司尝试落地 [32] - VLA技术上限高但难度大 小米ORION 慕尼黑工大OpenDriveVLA等方案推动量产进程 [35]
车企、科技企业VLA研发进展
中国汽车报网· 2025-08-13 09:33
7月7日,小鹏G7正式开启交付,并明确小鹏G7 Ultra版的VLA和VLM上车时间表。其中,2025年9月, VLA软件OTA推送上车,实现思考推理可视化展示;2025年11月,VLM软件免费升级,软件OTA推送 上车;2025年12月实现VLA+VLM智能学习个性化推荐。据称,小鹏G7 Ultra版使用了3颗小鹏汽车自 研的图灵AI芯片,综合算力高达2250TOPS,位居量产车型领先之列。 理想汽车 奇瑞汽车 7月29日发布、8月20日交付的理想i8核心亮点就是VLA"司机大模型",这是理想汽车智驾领域继去年推 出端到端+VLM之后的又一新进展。据介绍,理想VLA的所有模块经过全新设计,空间编码器通过语 言模型并结合逻辑推理,给出合理的驾驶决策,并通过Diffusion(扩散模型)预测其他车辆和行人的轨 迹,进一步优化出最佳的驾驶轨迹。目前,理想VLA的推理帧率在10赫兹左右,相比之前VLM的3赫兹 提升了3倍多。 2025年,奇瑞汽车通过猎鹰900智驾系统,将VLA与世界模型技术引入燃油车领域,打造"油电同智"新 标杆。据称,奇瑞猎鹰900智驾系统采用自研的VLA模型,将视觉感知、语言理解与动作执行深度 ...
VLA还是VTLA?这家企业用“超人类触觉”技术颠覆机器人未来!
具身智能之心· 2025-08-13 08:04
虽然触觉传感器如此重要,但还有很多问题没有解决,比如分辨率不高,实时性保证不了、买过来没多久 就坏了、质量不行等。然而,我们发现现场有一家触觉传感器硬件公司同时在分辨率、实时性、耐用性与 成本平衡方面取得了最优,这家公司就是 " 戴盟机器人 "。 这几天去WRC25逛了一圈,看到了各家具身机器人公司的产品和功能。说实话相比于去年,硬件和技术上 真的是有较大提升。还看到了多家没去WAIC25现场的公司,总体结论是现阶段的本体已经基本能够满足一 些场景的需求,反而是感知大脑,有点落后于硬件。 现场看到了很多相关的技术,特别是VLA模型。VLA作为新一代端到端视觉语言动作模型,是各家公司与 研究机构重点关注的。不过在展示过程中我们也发现了一个明显的问题,视觉虽然能提供丰富的环境信 息,在涉及物理交互(如抓取、操作物体)时,无法精确感知物体的材质、硬度、摩擦力等属性。特别是 在工业装配、医疗手术、家庭服务等场景中,机器人需要执行高精度任务,如果不小心用力过度将会产生 不良的后果。 就在近几天,戴盟机器人也(Daimon Robotics)宣布完成亿元级天使++轮融资,由招商局创投领投,东方 嘉富、架桥资本跟投。本轮融 ...
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 14:01
注意哦, 备注:机构/学校+姓名+研究方向 ,能够快速入群! 感兴趣的同学可以添加小助理微信AIDriver005,邀请加入我们的社群。 具身智能之心技术交流群成立了!主要关注VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、 sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等方向。 ...
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 17:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 09:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 10:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]