Workflow
自动驾驶之心
icon
搜索文档
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心· 2025-07-04 18:27
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]
清华最新ADRD:自动驾驶决策树模型实现可解释性与性能双突破!
自动驾驶之心· 2025-07-04 18:27
自动驾驶决策系统发展现状 - 自动驾驶决策模块对可解释性要求日益提高,深度学习虽为主流方法但存在非分布场景性能下降、决策逻辑难解释等问题[1] - 基于规则的系统具备透明性优势,但依赖专家知识且对复杂环境适应性有限[1] ADRD框架核心创新 - 结合大语言模型(LLM)与规则决策系统,通过自然语言处理实现驾驶策略生成[2] - 框架包含信息模块(场景/规则转换)、代理模块(决策树构建)、测试模块(闭环验证)三部分[5][7] - 采用规划器-编码器-汇总器协作机制,支持策略生成、代码转换及迭代优化[7][13] 技术实现细节 - 规划器通过系统提示、驾驶目标、历史记录生成策略,示例显示变道决策优先考虑左车道安全性[8][9][10] - 编码器将文本策略转为可执行代码,决策树可视化便于专家调试[16] - 汇总器分析碰撞报告定位策略或代码问题,实现闭环改进[19] 实验验证结果 - 在Highway-v0场景测试中,ADRD平均安全驾驶时间达25.15秒(普通密度),显著优于PPO(10.9秒)和DiLu(23秒)[21][22] - 极端密度(3.0)下仍保持13.55秒安全驾驶时间,控制效率达<1.0×10^-6秒/指令[22] - 激进风格决策树深度比保守风格增加37%,反映不同驾驶偏好对策略复杂度的影响[23] 行业应用价值 - 框架同时解决传统方法在性能、响应速度(推理效率提升1000倍)和可解释性上的缺陷[26] - 决策树结构支持人工干预,为自动驾驶系统调试提供新范式[12][16]
某新势力世界模型负责人休假。。。
自动驾驶之心· 2025-07-04 18:27
自动驾驶行业人才流动现象 - 某新势力智驾核心团队不稳定,端到端负责人已离职,世界模型负责人带病休假,仅量产部门负责人仍在岗 [5] - 智驾一号位对新模型量产持乐观态度,认为将取得断代式领先,但端到端和世界模型技术核心人物动荡可能影响研发 [5] - 行业普遍存在人才高频流动现象,阶段性表现突出的公司往往面临更严重的人才流失 [6] 新势力技术路线与人才策略 - 公司倾向于根据技术迭代更换团队,例如从无图城区转向端到端时更换一批人员,再转向VLA时又更换一批 [9] - 人才被视作短期资源,项目完成后价值周期缩短,导致员工缺乏安全感并加速跳槽 [10] - 部分技术大牛选择离职创业,因资本追捧且希望掌握自身发展主导权 [10] 行业案例与影响 - 另一家新势力曾聚集大量顶尖人才,但近年核心人员持续流失,包括智驾一号位,现有领导者多依赖资历晋升,技术表现下滑 [7] - 公司管理层未积极解决人才动荡问题,可能认为技术路线变更需匹配人员调整 [8] 自动驾驶技术社区与资源 - 存在近4000人规模的行业交流社区,覆盖300+企业与科研机构,提供30+技术栈学习路线 [14] - 社区内容涵盖感知、定位、规划控制等领域技术方案,并整合行业动态与招聘信息 [14] - 提供端到端自动驾驶、大模型、VLA等专业课程,涉及多个前沿技术方向 [15]
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 15:13
大模型优化课程核心内容 课程简介与目标 - 聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展、复杂推理三大方向[1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等[1] - 采用LLaMA、GPT等主流模型作为实验平台,结合理论讲解与实验实践[1] 课程结构与内容 - 12周在线科研+2周论文指导+10周论文维护期的完整科研周期[11] - 每周1-1.5小时课程,覆盖剪枝稀疏化、量化加速、PEFT微调、RAG知识扩展、CoT推理等核心技术[16][18] - 提供公开数据集和Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目[15] 学员收获与产出 - 系统掌握大模型优化知识体系,解决零散知识整合问题[5] - 获得定制化研究idea,完成论文初稿并掌握顶会论文写作方法论[11][18] - 提升coding能力,在baseline代码基础上开展创新实验[11] 招生要求与资源配置 - 每期限招6-8人,要求具备PyTorch和Python基础,熟悉深度学习框架[3][7] - 硬件建议配置4张4090显卡,最低要求2张4090[12] - 需完成Linux开发环境搭建,掌握CUDA基础语法和代码辅助工具[12] 核心技术与参考文献 - 重点论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)、LLaVA多模态(NeurIPS 2023)等[15][17] - 涉及TVM编译器优化(OSDI 2018)、PagedAttention内存管理(SOSP 2023)等系统级优化技术[17] - 涵盖Flamingo多模态学习(NeurIPS 2022)、CoT推理(NeurIPS 2022)等前沿算法[17]
拿到主机厂实习,犹豫要不要去。。。
自动驾驶之心· 2025-07-04 12:27
求职建议 - 对于26届毕业的算法求职者,即使实习岗位不太理想,也建议去实习,因为实习经历对秋招至关重要 [2] - 双非本九硕电子信息类学生即使实习岗位不对口(如后处理和数据岗位),也应把握实习机会并补充前沿算法知识(如大模型、世界模型等) [3] - 求职过程中需发挥主观能动性,与mentor沟通岗位内容,实习经历即使不对口也可通过包装提升竞争力 [3] AutoRobo知识星球 - 该求职社区覆盖机器人、自动驾驶、具身智能方向,成员近1000名,包括地平线、理想汽车、华为等公司社招员工及2024/2025届校招学生 [4] - 提供面试题目、面经、行业研报、谈薪技巧、内推公司及简历优化服务 [4] - 每日更新校招、社招、实习岗位信息,合作公司第一时间分享招聘需求 [6] 面试资源 - 汇总自动驾驶领域一百问专题,涵盖毫米波视觉融合、BEV感知、多传感器标定等12个细分方向 [12] - 具身智能领域提供VLA面试一百问专题 [13] - 行业研报包括轨迹预测、Occupancy感知、端到端自动驾驶等前沿技术分析 [16] - 收录人形机器人量产、具身智能创投等深度行业报告,解析技术路线及市场前景 [21] 面经与技巧 - 整理自动驾驶决策规划、SLAM算法等岗位成功/失败面经,覆盖滴滴、英伟达、小米汽车等20+企业 [22] - 分享面试心得,包括转行经验、面试官建议、算法岗技能树等实战指导 [26] - 提供谈薪技巧与HR面常见问题汇总,帮助优化求职策略 [26] 会员服务 - 星球会员费折合每日0.3元,提供完整求职服务并与行业从业者直接交流 [27]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 20:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 20:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
自动驾驶论文速递 | ICCV最新论文、端到端、高精地图、世界模型等~
自动驾驶之心· 2025-07-03 19:53
自动驾驶技术研究进展 - 中科院自动化所与理想汽车联合提出World4Drive框架,实现无感知标注的端到端自动驾驶,在nuScenes和NavSim基准上L2误差降低18 1%(0 61m→0 50m)、碰撞率下降46 7%(0 30%→0 16%)、训练收敛速度提升3 75倍 [2][3] - World4Drive通过融合视觉基础模型的空间语义先验与多模态驾驶意图建模,提出意图感知的潜在世界模型,实现多模态轨迹生成与评估 [3] - 该框架设计驾驶世界编码模块整合视觉基础模型知识,提取富含物理场景上下文的世界潜在表征,无需感知标注即可实现场景理解 [3] 高精地图构建技术突破 - 清华大学等机构提出SafeMap框架,首次实现不完整多视角观测下的鲁棒高精地图构建,在nuScenes数据集缺失关键视角时mAP相对基线模型提升11 1%(如缺失前视角时mAP从31 3%→42 4%) [9][10] - SafeMap包含基于高斯的透视视图重建模块和基于蒸馏的鸟瞰图校正模块,动态聚焦可用视图中最具信息区域以推断缺失视图信息 [10] - 实验显示SafeMap在完整和不完整观测场景下均显著优于现有方法(如MapTR、HIMap),为高精地图构建提供即插即用的鲁棒性增强方案 [10][11] 车道拓扑推理技术创新 - 香港中文大学(深圳)与腾讯提出TopoStreamer模型,通过动态位置编码与多属性约束突破车道拓扑推理时序一致性瓶颈,在OpenLane-V2数据集上车道段感知任务mAP提升3 4%(达36 6%),中心线感知任务OLS提升2 1%(达44 4%) [18][21] - TopoStreamer引入流属性约束模块确保时序传播中车道中心线、边界坐标及其分类的时序一致性,并设计动态车道边界位置编码模块增强位置信息学习 [21] - 该模型在OpenLane-V2基准数据集上实现最先进性能,提出新的车道边界分类准确率指标评估自动驾驶车道变更决策系统性能 [21][23] 多视角图像生成技术 - 上海期智研究院与清华大学提出BEV-VAE框架,通过构建鸟瞰图隐空间实现自动驾驶场景的多视角图像生成与3D布局精准控制,在Argoverse 2数据集上达到0 9505的空间一致性指标(MVSC) [29][34] - BEV-VAE支持通过调整相机姿态进行新视图合成,并在BEV空间中实例化基于扩散的生成过程,实现基于3D物体布局的可控合成 [34] - 实验表明BEV-VAE在32×32×32潜在形状下取得最佳性能(MVSC 0 9505,FID 3 02),优于BEVGen(FID 25 54)和DriveWM(FID 12 99)等对比方法 [35]
清华最新RoboScape:基于物理信息的具身世界模型~
自动驾驶之心· 2025-07-03 14:34
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[2] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在局限性[2] - 核心问题是如何在统一、高效的框架中整合物理知识[2] 核心方法 - 学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集[5] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[7] - 物理属性标注包括时间深度一致性和关键点运动轨迹两种基础物理先验[7] - 视频切片结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[7] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),增强3D几何一致性[9] - RGB分支和深度分支分别预测,通过跨分支交互使RGB生成保持精确几何结构[9] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[10] - 引入关键点引导的注意力机制,增强关键点轨迹区域的令牌学习[11] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[15] - 对比4种先进模型,包括具身世界模型IRASim、iVideoGPT,以及通用世界模型Genie、CogVideoX[15] 视频质量评估 - 外观保真度:LPIPS达0.1259,PSNR达21.8533[14] - 几何一致性:AbsRel为0.3600,δ1、δ2分别达0.6214、0.8307[14] - 动作可控性:∆PSNR达3.3435[14] 下游应用验证 - 机器人政策训练中,生成数据训练的Diffusion Policy性能接近真实数据训练结果[18] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[19] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[22] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[23]