Workflow
自动驾驶之心
icon
搜索文档
最新综述:从物理仿真和世界模型中学习具身智能
自动驾驶之心· 2025-07-05 21:41
具身智能与机器人研究前沿 - 实现强大具身智能的关键在于整合物理模拟器与世界模型 物理模拟器提供高保真训练环境 世界模型赋予机器人环境内部表征能力以支持预测规划与决策[3] - 物理模拟器与世界模型互补增强机器人自主性、适应性和泛化能力 外部模拟与内部建模相互作用弥合模拟训练与现实部署的差距[3] - 维护包含最新文献和开源项目的资源库 为具身AI系统发展提供全面视角并明确未来挑战[3] 智能机器人能力分级系统 - 提出智能机器人能力分级模型 涵盖从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0到IR-L4)[6] - 分级标准基于自主性、任务处理能力、环境适应性、社会认知能力等核心维度[7][10][11] - IR-L0为完全非智能程序驱动 IR-L1具备有限规则反应能力 IR-L2引入初步环境意识 IR-L3实现类人认知与协作 IR-L4为终极目标[14][15][16][17][19] 机器人移动性与操作技术 - 腿部运动技术从位置控制发展到力控关节结合强化学习 实现非结构化环境适应与高动态运动如奔跑跳跃[22] - 单手操作从预编程发展到基于学习的方法 灵巧手操作通过两阶段与端到端方法结合提升泛化能力[26] - 双手操作与全身协调通过大规模演示数据与基础模型实现 如ALOHA系列双手机器人精细操作[28] 主流物理模拟器对比 - Webots、Gazebo、MuJoCo等传统模拟器在复杂物理交互上存在局限 高端模拟器如Isaac系列支持GPU加速与多物理场[31][36] - 物理特性对比涵盖吸力建模、可变形物体仿真、流体动力学等维度 可微物理能力主要在科研导向模拟器中体现[32][36] - 渲染能力对比显示NVIDIA系模拟器在光线追踪和PBR上表现突出 轻量级模拟器主要用于功能验证[34][35][41] 世界模型技术演进 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[45] - 代表性架构包括循环状态空间模型、联合嵌入预测架构、Transformer-based模型、自回归生成模型和扩散生成模型[46][47][49][50][51] - 核心应用包括神经模拟器生成仿真数据、动态模型支持预测规划、奖励模型替代手工设计[52][56][64] 自动驾驶与铰接式机器人应用 - 自动驾驶世界模型通过神经模拟器生成高保真场景 动态模型学习环境动态 奖励模型评估安全性[60][64] - 铰接式机器人世界模型通过神经模拟器支持模拟到现实迁移 动态模型实现动作规划 奖励模型减少手工设计[65][68] - 技术趋势包括3D结构化建模、多模态融合、端到端集成等方向[67][71] 未来挑战与方向 - 共性挑战包括高维感知、因果推理缺失、实时性与计算成本等问题[69][71] - 前沿方向聚焦3D结构化世界模型、多模态基础模型、轻量化高效推理等技术[71][75] - 工业应用涵盖自动驾驶、服务机器人、科学发现等领域 推动技术落地与商业化[75]
肝了几个月!手搓了一个自动驾驶全栈科研小车~
自动驾驶之心· 2025-07-05 21:41
产品发布与定价 - 黑武士001自动驾驶教研小车正式开售,原价34999元,支付定金1000元可抵扣2000元[1] - 产品定位为面向科研与教学的轻量级全栈解决方案,支持感知、定位、融合、导航、规划等多功能平台[2] 产品功能与应用场景 - 测试场景覆盖室内、室外、地库等多种环境,功能包括点云3D目标检测、2D/3D激光建图、夜间行驶等[3][7][9][11][13][15][17] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等[5] - 支持2D/3D目标检测与分割、SLAM技术、车辆导航避障等24项核心功能[24] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达(FOV360°*59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[17][27] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器,阿克曼底盘系统[17] - 车体尺寸620×400×320mm,自重30kg,最大载荷30kg,续航>4小时,最高速度2m/s[21] 软件系统 - 基于ROS框架开发,支持C++和Python语言编程[23] - 提供一键启动开发环境,包含深度相机驱动、手柄控制等脚本[33][38][39] - 支持通过rviz可视化工具实时监控传感器数据,如激光雷达点云等[36][43] 售后服务 - 提供1年非人为损坏保修服务,人为损坏可付费维修[46] - 提供完整产品说明书,涵盖硬件参数、软件配置及维修指南[23][26]
快秋招了,慌得一批!自动驾驶算法方向去哪里找面经和题目啊?
自动驾驶之心· 2025-07-05 17:35
AutoRobo知识星球概述 - 核心定位为自动驾驶、具身智能、机器人方向的求职交流社区 国内首个以该领域为核心的垂直平台[1][3] - 已聚集近1000名成员 涵盖地平线、理想汽车、华为、小米汽车等头部企业社招人员及2024-2025届校招群体[3] 核心服务内容 求职资源 - 提供算法/开发/产品等岗位的校招、社招、实习信息 与公司直接合作获取第一手招聘动态[5] - 包含内推渠道、简历优化等增值服务 覆盖自动驾驶与具身智能全领域岗位[3] 专业知识库 - 自动驾驶领域汇编毫米波视觉融合、BEV感知、规划控制等12类"一百问"技术专题[10] - 具身智能领域涵盖多模态3D检测、Diffusion Policy、VLN导航等9大技术模块的面试题库[11][13] 行业研究支持 - 整合《世界机器人报告》《中国人形机器人发展蓝皮书》等7份行业研报 系统分析技术路线与市场前景[16][17] - 提供产业链上下游发展状态研判 辅助职业方向选择[16] 面试实战资源 - 收录滴滴、英伟达、美团等企业算法岗面经 覆盖社招/校招/实习全场景的成败案例分析[19][20] - 专项整理谈薪技巧与HR面应答策略 包含岗位薪酬谈判关键话术[22][25] 运营模式 - 采用付费社群形式 会员日均成本0.3元 提供全流程求职服务支持[26] - 内容生产依托3年技术自媒体积累 整合行业研报、企业真题等多元资源[1][3]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
名校合作、多年技术积累的手持扫描仪是什么样的?
自动驾驶之心· 2025-07-05 17:12
产品概述 - GeoScan S1是一款手持三维激光扫描仪,主打轻量化设计和高性价比,核心功能包括厘米级精度的三维场景实时重构和多模态传感器融合 [1] - 设备采用Ubuntu系统,集成电源手柄,可通过D-TAP转XT30接口为雷达、摄像头及主控板供电 [2] - 由同济大学刘春教授团队与西北工业大学产业化团队联合开发,经过上百个项目验证 [4] 核心技术参数 - **扫描性能**:每秒生成20万点云,测量距离70米,水平视角360°,支持20万平米以上大场景扫描 [1][23][24] - **精度指标**:相对精度优于3cm,绝对精度优于5cm,采用微秒级同步技术实现多传感器数据融合 [16][28][29] - **硬件配置**: - 搭载Intel N5095处理器(4核2.9GHz)、16GB内存/256GB存储 [16] - 集成Livox Mid-360激光雷达、Intel D435i深度相机、RTK UM982定位模块及双广角鱼眼相机 [17] - 航空铝外壳,整机重量1.9kg(含88.8Wh电池),续航3-4小时 [16][20] 功能特性 - **实时建模**:支持彩色点云输出(PCD/LAS/PLY格式),结合SLAM算法实现动态场景构建 [16][21] - **扩展能力**:配备千兆网口、双USB 3.0接口及Micro SD卡槽,支持ROS系统开发 [16][17] - **场景适应性**:适用于写字楼、隧道、矿场等复杂环境,通过25°倾角雷达设计提升采集效率 [9][32][33] 应用场景 - **无人化作业**:可适配无人机、无人车等平台实现跨平台集成 [38] - **数字孪生**:选配3D高斯模块可实现高保真实景还原,支持地理信息采集与工程监控 [44][46][48] 产品版本与定价 - 基础版19800元起,深度相机版23800元,3DGS在线版39800元,离线版67800元 [51]
具身领域的目标导航到底是什么?主流算法盘点~
自动驾驶之心· 2025-07-04 18:27
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划 [1] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模与动态决策的交叉突破 [1] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [2] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列实现药品、文件和餐食的自主配送 [2] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成导航任务,智元机器人集成目标驱动导航模块,特斯拉Optimus展示端到端操作能力 [2] 技术演进与生态发展 - 基于Habitat仿真的具身导航生态自2020年CVPR提出点导航基准以来,逐步扩展至图像导航、目标导航及移动抓取任务,形成闭环评测体系 [3] - 视觉预训练模型提升特征泛化能力,分布式强化学习框架使PointNav任务SPL指标显著提升,大语言模型解决部分开放词汇导航难题 [3] - 当前技术进展呈现梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍面临挑战 [3] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中取得突破,SPL指标逼近人类表现 [4] - 第二代模块化方法通过显式构建语义地图,在零样本目标导航任务中展现优势,未见物体场景下成功率提升明显 [4] - 第三代LLM/VLM融合方法引入大语言模型的知识推理能力,提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口 [6] 技术挑战与学习痛点 - 目标驱动导航需掌握自然语言处理、计算机视觉、强化学习和场景图相关知识,学习路径碎片化且论文数量繁多 [8] - 缺乏系统实战指导和高质量文档,Habitat生态的导航研究入门难度较高 [8] 课程特点与大纲 - 课程基于Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [9][10] - 课程涵盖目标驱动导航理论基础、Habitat仿真生态解析、三代技术方法论及实战环节,最终聚焦VLFM算法复现与真实场景部署 [14][15][16][17][18] - 课程进度安排为3个月,覆盖端到端方法、模块化架构及LLM/VLM驱动系统的理论与实践 [24][25] 目标学员与预期成果 - 目标学员包括机器人抓取领域从业人员、具身智能研究者、传统CV或自动驾驶转行者等,需具备Python和PyTorch基础 [23] - 预期成果包括掌握主流框架复现能力、零样本导航技术落地、Sim2Real部署流程理解及独立开展算法改进的能力 [25]
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心· 2025-07-04 18:27
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]
清华最新ADRD:自动驾驶决策树模型实现可解释性与性能双突破!
自动驾驶之心· 2025-07-04 18:27
自动驾驶决策系统发展现状 - 自动驾驶决策模块对可解释性要求日益提高,深度学习虽为主流方法但存在非分布场景性能下降、决策逻辑难解释等问题[1] - 基于规则的系统具备透明性优势,但依赖专家知识且对复杂环境适应性有限[1] ADRD框架核心创新 - 结合大语言模型(LLM)与规则决策系统,通过自然语言处理实现驾驶策略生成[2] - 框架包含信息模块(场景/规则转换)、代理模块(决策树构建)、测试模块(闭环验证)三部分[5][7] - 采用规划器-编码器-汇总器协作机制,支持策略生成、代码转换及迭代优化[7][13] 技术实现细节 - 规划器通过系统提示、驾驶目标、历史记录生成策略,示例显示变道决策优先考虑左车道安全性[8][9][10] - 编码器将文本策略转为可执行代码,决策树可视化便于专家调试[16] - 汇总器分析碰撞报告定位策略或代码问题,实现闭环改进[19] 实验验证结果 - 在Highway-v0场景测试中,ADRD平均安全驾驶时间达25.15秒(普通密度),显著优于PPO(10.9秒)和DiLu(23秒)[21][22] - 极端密度(3.0)下仍保持13.55秒安全驾驶时间,控制效率达<1.0×10^-6秒/指令[22] - 激进风格决策树深度比保守风格增加37%,反映不同驾驶偏好对策略复杂度的影响[23] 行业应用价值 - 框架同时解决传统方法在性能、响应速度(推理效率提升1000倍)和可解释性上的缺陷[26] - 决策树结构支持人工干预,为自动驾驶系统调试提供新范式[12][16]
某新势力世界模型负责人休假。。。
自动驾驶之心· 2025-07-04 18:27
自动驾驶行业人才流动现象 - 某新势力智驾核心团队不稳定,端到端负责人已离职,世界模型负责人带病休假,仅量产部门负责人仍在岗 [5] - 智驾一号位对新模型量产持乐观态度,认为将取得断代式领先,但端到端和世界模型技术核心人物动荡可能影响研发 [5] - 行业普遍存在人才高频流动现象,阶段性表现突出的公司往往面临更严重的人才流失 [6] 新势力技术路线与人才策略 - 公司倾向于根据技术迭代更换团队,例如从无图城区转向端到端时更换一批人员,再转向VLA时又更换一批 [9] - 人才被视作短期资源,项目完成后价值周期缩短,导致员工缺乏安全感并加速跳槽 [10] - 部分技术大牛选择离职创业,因资本追捧且希望掌握自身发展主导权 [10] 行业案例与影响 - 另一家新势力曾聚集大量顶尖人才,但近年核心人员持续流失,包括智驾一号位,现有领导者多依赖资历晋升,技术表现下滑 [7] - 公司管理层未积极解决人才动荡问题,可能认为技术路线变更需匹配人员调整 [8] 自动驾驶技术社区与资源 - 存在近4000人规模的行业交流社区,覆盖300+企业与科研机构,提供30+技术栈学习路线 [14] - 社区内容涵盖感知、定位、规划控制等领域技术方案,并整合行业动态与招聘信息 [14] - 提供端到端自动驾驶、大模型、VLA等专业课程,涉及多个前沿技术方向 [15]
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 15:13
大模型优化课程核心内容 课程简介与目标 - 聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展、复杂推理三大方向[1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等[1] - 采用LLaMA、GPT等主流模型作为实验平台,结合理论讲解与实验实践[1] 课程结构与内容 - 12周在线科研+2周论文指导+10周论文维护期的完整科研周期[11] - 每周1-1.5小时课程,覆盖剪枝稀疏化、量化加速、PEFT微调、RAG知识扩展、CoT推理等核心技术[16][18] - 提供公开数据集和Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目[15] 学员收获与产出 - 系统掌握大模型优化知识体系,解决零散知识整合问题[5] - 获得定制化研究idea,完成论文初稿并掌握顶会论文写作方法论[11][18] - 提升coding能力,在baseline代码基础上开展创新实验[11] 招生要求与资源配置 - 每期限招6-8人,要求具备PyTorch和Python基础,熟悉深度学习框架[3][7] - 硬件建议配置4张4090显卡,最低要求2张4090[12] - 需完成Linux开发环境搭建,掌握CUDA基础语法和代码辅助工具[12] 核心技术与参考文献 - 重点论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)、LLaVA多模态(NeurIPS 2023)等[15][17] - 涉及TVM编译器优化(OSDI 2018)、PagedAttention内存管理(SOSP 2023)等系统级优化技术[17] - 涵盖Flamingo多模态学习(NeurIPS 2022)、CoT推理(NeurIPS 2022)等前沿算法[17]