Workflow
自动驾驶之心
icon
搜索文档
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-07-19 18:19
扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]
盘点 | 浙江大学高飞团队2025上半年无人机硬核成果
自动驾驶之心· 2025-07-19 18:19
高飞团队2025上半年研究成果 - 提出FIRI算法实现高质量、高效率、强可控性的凸多胞体生成,在二维车辆和三维无人机规划中性能超越现有方法 [8][10][11] - 开发CoNi-OA空地协同避障框架,仅凭单帧激光雷达数据实现<5ms实时避障,摆脱对全局定位依赖 [14] - 首创Primitive-Swarm规划器,通过离线运动基元库实现1000架无人机集群的毫秒级实时规划 [17] - 构建自主特技飞行系统,首次实现无人机100%成功率的复杂花式动作执行,解决微分平坦奇点问题 [20][21] - 提出分层规划框架,前端神经网络实现0.01秒路径生成,后端双层多项式消除轨迹奇异点 [23][25] - 开发差速驱动机器人通用优化框架,创新运动状态轨迹表示法统一处理多种机型复杂运动 [28][29] 技术突破方向 - 无人机集群规划:实现千机规模实时协同与超轻量级计算架构 [17] - 高机动控制:突破特技飞行自主生成与执行技术瓶颈 [20] - 环境适应性:在复杂动态环境中保持算法稳定性与鲁棒性 [14][23] - 跨平台通用性:建立差速驱动机器人统一优化理论体系 [28] 学术影响力 - 在IEEE TRO、Science Robotics等顶级期刊发表6篇突破性论文 [10][17][20][23][28] - 研究成果覆盖机器人学核心领域,包括轨迹规划、集群协同、感知导航等 [8][14][17][20][23][28] - 算法在真实场景验证,性能指标全面超越现有方法 [11][17][20][23][29]
DeepSeek终于丢了开源第一王座。。。
自动驾驶之心· 2025-07-19 18:19
模型排名与表现 - Kimi K2在全球开源模型中排名第一,总榜排名第五,紧追马斯克Grok 4等顶尖闭源模型 [3] - 在总榜TOP 10中,Kimi K2得分为1420,与Grok 4(1437)和GPT 4.5(1437)差距较小 [4][26] - 唯二进入总榜TOP 10的开源模型均来自中国,包括Kimi K2(第5)和DeepSeek R1(第8) [4][26] 技术架构与优化 - Kimi K2继承了DeepSeek V3的架构,并进行了四项关键参数调整:增加专家数量、注意力头数减半、仅保留第一层Dense、专家无分组 [17] - 调整后总参数增至1.5倍,但推理耗时更小,成本控制优于V3架构 [18] - 团队选择完全继承V3架构的原因包括已验证的可靠性和有限的训练资源 [13] 市场热度与社区反响 - Kimi K2发布一周内GitHub标星达5.6K,Hugging Face下载量近10万 [6] - Perplexity CEO公开支持K2,计划基于该模型进行后训练 [8] - 用户访问量激增导致官方发布公告应对流量压力 [9] 开源模型趋势 - 开源模型性能已接近闭源模型,TOP 10分数均超过1400,差距显著缩小 [24][26] - 行业专家如Tim Dettmers和Perplexity CEO认为开源模型将逐步超越闭源,并在AI全球化中发挥关键作用 [28][30] - 开源社区对Kimi K2的编程能力(第二)、复杂提示词处理能力(第二)等单项表现给予高度评价 [7]
厘米级精度的三维场景实时重构!这款三维激光扫描仪太好用了~
自动驾驶之心· 2025-07-19 18:19
产品概述 - GeoScan S1是一款轻量化设计的手持三维激光扫描仪,具备厘米级精度的三维场景实时重构能力,核心优势在于多模态传感器融合算法[1] - 设备采用手持Ubuntu系统,集成电源手柄设计,通过D-TAP转XT30母头为雷达、摄像头及主控板供电[2] - 由同济大学刘春教授团队与西北工业大学产业化团队联合研发,经过上百个项目验证,首发价19800元起[4] 技术参数 - 扫描性能:每秒生成20万点云,70米测量距离(精度±1.5cm),360°水平视角覆盖,支持20万平米以上大场景扫描[1][23] - 同步精度:微秒级硬件IO同步触发,最高800Hz频率,集成IMU/RTK/激光雷达/相机等多传感器数据同步[28][29] - 计算单元:搭载Intel N5095处理器(4核2.0GHz/睿频2.9G),16GB内存+256GB存储(可拓展TF卡)[16] - 物理规格:尺寸14.2×9.5×45cm,含电池重量1.9kg,航空铝外壳,续航3-4小时(88.8Wh电池)[16] 核心功能 - 实时建模:通过多传感器SLAM算法输出彩色点云数据,支持pcd/las/plv等通用格式导出[16][21] - 3D高斯采集:选配模块可实现高保真实景还原,需采购升级版本(39800-67800元)[44][51] - 跨平台集成:适配无人机/无人车/机械狗等负载平台,配备千兆网口+双USB3.0接口[1][38] 应用场景 - 复杂环境适应:在写字楼/停车场/隧道/矿场等室内外场景均能完成精准三维建模[32][40] - 行业解决方案:适用于地理信息采集、施工监控、文物保护、城市规划等领域[46][48] - 典型场景案例:大型园区/市政道路/环形花园等场景建模验证[33][43] 版本与定价 - 基础版19800元(含激光雷达+IMU+RTK+双相机) - 深度相机版23800元 - 3DGS在线版39800元 - 3DGS离线版67800元[51]
博士毕业,五篇顶会起步。。。
自动驾驶之心· 2025-07-19 14:49
文章核心观点 - 文章主要介绍了一款针对自动驾驶和具身智能研究者的AI科研论文1v1指导课程 旨在帮助研究者高效利用下半年CCF推荐会议的投稿机会 解决论文撰写过程中的核心挑战 包括选题新颖性 实验严谨性 写作规范性和投稿策略匹配等问题 [2] - 课程通过一对一资深导师辅导 深度介入论文撰写与修改全过程 提供个性化解决方案 帮助研究者在有限时间内提升论文竞争力 抓住下半年CCF会议的投稿机会 [2] 论文辅导面向的痛点 - 解决导师放养 无人指导 科研流程不清晰的问题 [6] - 帮助建立科研思维 系统掌握经典与前沿算法 形成清晰体系 [6] - 协助将模型理论与代码实践结合 提升实践能力 [6] - 助力将baseline深化拓展 形成自己的论文 [6] 面向人群 - 在读计算机专业本、硕、博学生 导师放养 希望获取论文创新思路 [6] - 有科研需求 需积累经验 提升职称或学术成就的人员 [6] - 从事人工智能领域相关工作 希望升职加薪 提高竞争力的人员 [6] - 考研申博留学 需提升简历含金量的人员 [6] 课程内容 1 选题阶段 - 导师根据实际情况和需求 引导学员构思论文idea或直接给出建议 [7] - 梳理分析已有研究成果 确保研究方向具有前瞻性和创新性 [13] - 提供相关课题文献 助力快速高效确定研究方向 [13] 2 实验阶段 - 导师全程指导实验设计、模型搭建、调参、验证idea可行性及实现 [9] - 协助完成数据收集、整理与分析 确保数据质量和完整性 [14] - 助力实验代码实现与模型训练 指导完成实验微调和结果统计 [14] 3 论文写作阶段 - 导师全程指导学员写出让审稿人眼前一亮的科研论文 [11] - 深度剖析高质量论文写作技巧 指导搭建论文框架 [15] - 帮助润色论文 符合审稿人要求 [15] 4 投稿阶段 - 导师根据学员情况 推荐合适期刊 助力精准投稿 [12] - 从审稿人角度分析并指导回复审稿意见 [16] 5 录用阶段 - 根据论文情况与时间节点 保证论文在周期内录用 [17] 课程形式与服务方式 - 腾讯会议在线1v1上课 日常微信群内沟通答疑 [22] - 班主任督学 跟进学习进度 [18] 课程收获 - 产出一篇目标区位的高质量论文 [23] - 掌握科研流程 提升科研能力与素养 [23] - 掌握科研论文写作方法与技巧 [23] - 掌握投稿方法与选刊技巧 [23] 课程亮点 - 主讲导师为顶会审稿人 提供经典论文+前沿论文讲解+idea给予/方向建议+写作方法+投稿建议 [23] - 专属学员沟通答疑群 配备导师及班主任 [27] 指导周期与维护周期 - 总指导周期=核心指导期+维护期 根据论文区位不同 周期在3到18个月不等 [24] - CCF A/SCI 1区:核心指导期9个月(36次课) 维护期9个月 [24] - CCF B/SCI 2区:核心指导期7个月(28次课) 维护期6个月 [24] - CCF C/SCI 3区:核心指导期7个月(28次课) 维护期6个月 [24] - EI(期刊/会议):核心指导期6个月(24次课) 无维护期 [24] 上课平台与Q&A - 腾讯会议直播+小鹅通回放 [27] - 未开课前可任意更换班级 开课后无法更换 [27] - 提供基础课程供学员自主学习 [27] - 专属学员沟通答疑群 日常问题群内解答 [27]
死磕技术的自动驾驶黄埔军校,三周年了~
自动驾驶之心· 2025-07-19 14:32
业务发展 - 打造了四个IP矩阵:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心,覆盖知识星球、公众号、视频号、哔哩哔哩、知乎等平台 [2] - 从纯线上教育转型为全栈式服务平台,新增硬件业务、论文辅导和求职业务,并在杭州设立线下办公室 [2] - 知识付费仍是核心业务,但重点拓展了硬件教具、线下培训和求职招聘等多元化服务 [2] 技术方向 - 自动驾驶行业正经历大模型引发的智驾方案升级,从VLM/VLA向更先进的端到端解决方案演进 [2] - 具身智能和大模型是重点孵化方向,已举办多期圆桌论坛,受到学术界和产业界广泛关注 [2] - 视觉大语言模型(VLM)在自动驾驶中的应用包括预训练、迁移学习和知识蒸馏等多个技术分支 [9][12][13] 社区建设 - 自动驾驶之心知识星球已成为国内最大的自动驾驶技术社区,拥有近4000名成员和100+行业专家 [4] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy等前沿方向 [4] - 每周活跃度位居国内前20,注重成员积极性和技术交流 [4] 内容体系 - 知识星球包含四大板块:技术领域分类汇总、科研界顶级大佬直播、求职资料分享和痛点问题解答 [7] - 整理了视觉大语言模型、世界模型、扩散模型和端到端自动驾驶四大前沿技术方向的资源 [6] - 汇总了多个Awesome资源库,涵盖VLM架构、推理策略、安全隐私等细分领域 [8] 数据集资源 - 整理了VLM预训练使用的多个大型数据集,包括LAION5B(5B图文对)、WuKong(100M中文图文对)等 [15] - 汇总了自动驾驶相关数据集,如nuScenes、Waymo Open Dataset、BDD100K等,涵盖感知、预测、规划等任务 [21][22] - 收集了语言增强的自动驾驶系统数据集,支持自然语言导航和空间推理等高级功能 [22] 应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答和视频异常识别等技术 [23] - 自动驾驶感知方向涉及行人检测、3D目标检测和开放词汇语义分割等任务 [24] - 定位规划领域探索语言引导导航、轨迹预测和运动规划等解决方案 [25] 行业趋势 - 世界模型在自动驾驶中快速发展,涵盖3D场景理解、未来场景演化和物理原理建模等方向 [30][31] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强和轨迹预测等多个方面 [33][39] - 端到端自动驾驶研究聚焦多模态融合、可解释性和长尾分布处理等关键问题 [45][55]
死磕技术的自动驾驶黄埔军校,三周年了。。。
自动驾驶之心· 2025-07-19 11:04
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 2025年自动驾驶、具身智能、大模型Agent三大赛道是AI竞争高地 [2] - 端到端自动驾驶成为主流学习方向,建议从BEV感知开始逐步深入 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,拥有近4000名成员 [2] - 社区汇聚100+行业专家,提供30+技术方向学习路线 [2] - 覆盖端到端自动驾驶、世界模型、视觉大语言模型等前沿方向 [2][4] 视觉大语言模型研究 - CVPR 2024发布多篇视觉语言模型预训练论文,涉及效率提升和公平性优化 [11] - 视觉语言模型评估涵盖图像分类、文本检索、行为识别等任务 [16][17][18] - 大规模预训练数据集包括LAION5B(50亿图文对)、WebLI(120亿图文对) [15] 自动驾驶数据集 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等 [21] - 语言增强数据集支持自然语言导航、视觉问答等任务 [22] - 图像分类评估数据集包含ImageNet-1k(128万训练图)、CIFAR-100等 [16] 技术应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答系统 [23] - 自动驾驶感知方向研究语言引导3D检测、开放词汇分割等任务 [24] - 决策控制领域探索大语言模型在轨迹预测和运动规划中的应用 [25][26] 世界模型研究进展 - 2024年发布DriveWorld、GAIA-1等驾驶世界模型,支持场景生成与理解 [30][32] - 世界模型可预测未来视觉观测并辅助规划决策 [32] - 研究涵盖4D场景重建、占用预测等方向 [32] 扩散模型应用 - 扩散模型在自动驾驶中用于场景生成、数据增强和轨迹预测 [39] - CVPR 2024发布MagicDriveDiT等街景生成模型 [39] - 研究聚焦时空一致性、多视角生成等挑战 [39] 端到端自动驾驶 - 方法分为模仿学习、强化学习和多任务学习三大类 [61] - 最新工作如DriveGPT4、DriveMLM探索大模型与规划控制结合 [27][51] - 挑战包括长尾分布处理、安全验证等 [55][57] 行业资源与生态 - 社区提供TensorRT部署、BEV感知等工程问题解决方案 [71][73] - 与地平线、蔚来等公司建立内推渠道 [110] - 成员来自卡耐基梅隆、清华等高校及头部自动驾驶公司 [106][107]
ICCV'25南开AD-GS:自监督智驾高质量闭环仿真,PSNR暴涨2个点!
自动驾驶之心· 2025-07-18 18:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 南开大学团队 ICCV'25中稿的 最新工作! AD-GS: 自监督自动驾驶高质量闭环仿真,PSNR暴涨2个点! 如果您有相关工作需要分 享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Jiawei Xu等 编辑 | 自动驾驶之心 背景与挑战 自动驾驶场景的动态建模与渲染对仿真系统至关重要,但现有方法存在明显局限:依赖人工3D标注的方法 成本高昂,难以大规模应用;自监督方法则面临动态物体运动捕捉不准确、场景分解粗糙导致渲染伪影等 问题。 动态城市驾驶场景的高质量渲染需要精准捕捉车辆、行人等动态物体的运动,同时实现场景的有效分解。 传统自监督方法中,神经网络建模运动计算量大且局部细节捕捉不足,仅用三角函数等预定义函数虽提升 速度却难以处理局部运动;场景分解依赖复杂语义标注,噪声干扰严重,导致重建质量下降。 核心创新 AD-GS提出一种全新自监督框架,基 ...
端到端自动驾驶需要什么样的标注数据?
自动驾驶之心· 2025-07-18 18:32
自动驾驶4D自动标注技术 核心观点 - 自动驾驶数据闭环中4D自动标注(3D空间+时间维度)成为行业核心竞争力,需解决时空一致性下的多任务标注(动态障碍物、静态元素、OCC、端到端标注)[1] - 自动标注算法(auto-labeling)是高精度真值生成的核心,可突破车端算力限制,利用全时序数据优化结果,并挖掘corner case指导模型训练[1] - 行业痛点包括多传感器标定同步、跨传感器遮挡处理、算法泛化性、标注结果质量筛选及自动化质检[2] 技术难点 - 时空一致性要求:复杂场景下动态目标跨帧追踪易断裂(遮挡、形变、交互行为影响)[3] - 多模态数据融合:需同步激光雷达、相机、雷达数据,解决坐标对齐、语义统一和时延补偿[3] - 动态场景泛化:交通参与者突发行为(变道、急刹)及环境干扰(光照、恶劣天气)增加模型适应性挑战[3] - 效率与成本矛盾:高精度标注依赖人工校验,海量数据导致周期长、成本高[3] 课程核心内容 动态障碍物标注 - 离线3D目标检测算法(数据增广、BEV/多帧时序融合方案)及CVPR 2024 SAFDNet实战[7] - 3D多目标跟踪算法(数据匹配、速度模型、轨迹生命周期管理、ID跳变优化)[7] 静态元素与SLAM重建 - 激光&视觉SLAM重建算法(Graph-based方法)及在全局道路信息提取中的应用[8][10] - 基于重建图的静态元素标注,避免单帧感知偏差[10] 通用障碍物OCC标注 - 真值生成流程:基于Lidar/视觉的方案、点云稠密化、跨传感器遮挡优化[11] 端到端真值生成 - 动态障碍物、静态元素、可行驶区域、自车轨迹全流程打通[12] - DrivingGaussian算法实战(闭环仿真技术)[12] 行业趋势与数据闭环 - 数据闭环架构分析及当前痛点(跨传感器/感知系统协同问题)[13] - 自动驾驶数据scaling law有效性探讨[13] 技术应用与人才需求 - 课程目标:培养4D自动标注全流程能力(算法研发、问题解决、竞争力提升)[18] - 目标人群:高校研究人员、企业技术骨干、转行数据闭环者(需具备深度学习、Transformer、PyTorch基础)[17][19]
宇树科技,开启上市辅导
自动驾驶之心· 2025-07-18 18:32
公司上市辅导 - 宇树科技已开启上市辅导,由中信证券担任辅导机构 [1] - 公司控股股东及实际控制人为王兴兴,直接持有23.8216%股权,并通过上海宇翼企业管理咨询合伙企业控制10.9414%股权,合计控制34.7630%股权 [1][2] - 公司成立于2016年8月26日,注册资本为36,401.7906万元,法定代表人为王兴兴 [2] 公司基本信息 - 公司注册地址为浙江省杭州市滨江区西兴街道东流路88号1幢306室 [2] - 行业分类为计算机、通信和其他电子设备制造业(C39)及通用设备制造业(C34) [2] - 公司未在其他交易场所挂牌或上市 [2] 上市辅导安排 - 辅导协议于2025年7月7日签署,辅导机构为中信证券,律师事务所为北京德恒律师事务所 [4] - 辅导内容包括法规知识学习、公司治理完善等,辅导时间为2025年7月至9月 [5] - 辅导方式包括集中授课、自学及个别答疑,辅导人员来自中信证券、德恒律师及容诚会计师 [5] 自动驾驶行业社区 - 自动驾驶之心知识星球拥有近4000人的交流社区,近300+自动驾驶公司与科研机构加入 [7] - 社区覆盖30+自动驾驶技术栈学习路线,包括感知、定位建图、规划控制等领域 [7] - 提供端到端自动驾驶、大模型、BEV感知、多传感器融合等专业课程 [9]