自动驾驶之心
搜索文档
入门自动驾驶实操,全栈小车黑武士001性价比拉满了!
自动驾驶之心· 2025-12-05 08:03
产品定位与市场痛点 - 文章指出自动驾驶学习与科研领域存在市场痛点:专业级平台价格昂贵堪比小型车,而教学套件虽价格适中但功能不完整且配置复杂耗时,易消耗用户热情 [2] - 公司推出“黑武士系列001”作为解决方案,定位为“教研一体轻量级解决方案”,旨在提供高性价比、快速上手的自动驾驶全栈实操平台 [3][5] 产品核心卖点与定价 - 产品定价为36999元,公司宣称此价格“性价比直接拉满”,并随产品赠送模型部署、点云3D检测、多传感器融合三门课程 [3] - 产品支持感知、定位、融合、导航、规划等全栈功能,基于阿克曼底盘,目标用户涵盖本科生学习比赛、研究生科研与求职、高校及职业院校实验室教具等 [5] 硬件配置规格 - 传感器配置包括:Livox Mid360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能M10p 2D激光雷达(最大范围25m)、奥比中光Gemini2 TOF深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU [23][32] - 计算单元采用NVIDIA Jetson Orin NX开发板,配备16GB RAM,AI算力为100 TOPS [35] - 底盘为阿克曼转向结构,车体尺寸为620mm x 400mm x 320mm(长x宽x高),自重30kg,最大载荷30kg,最大运动速度可达2m/s,续航时间大于4小时 [24][26][27] 软件功能与演示 - 软件基于ROS框架,支持C++和Python,提供一键启动和完整的开发环境 [29] - 文章展示了产品在多种场景下的功能测试效果,包括户外公园行驶、点云3D目标检测、室内外地库2D/3D激光建图、上下坡以及夜间行驶等 [7][9][11][13][15][17][19][21] - 支持的功能模块广泛,包括多种SLAM方案(如2D/3D激光SLAM、视觉惯性SLAM、多传感器融合SLAM)、点云处理、2D目标检测与分割、深度估计、车辆导航与避障等 [30] 产品使用与售后 - 产品提供详细说明书,内容涵盖硬件配置、软件环境、系统启动、各功能模块使用教程及注意事项 [31] - 售后政策为1年内支持非人为损坏的售后维修,保修期内因个人操作失误导致的损坏提供免费维修,但邮费需用户自理 [53]
五年,终于等来Transformers v5
自动驾驶之心· 2025-12-04 11:03
Transformers v5版本发布 - Hugging Face发布了其核心开源项目Transformers库的v5.0.0rc0候选版本,标志着该库结束了长达五年的v4技术周期,正式进入v5时代 [1][3] - 自2020年11月v4发布以来,该库的日下载量从2万次激增至超过300万次,总安装量突破12亿次 [3] - 该库支持的模型架构从最初的40个扩展至超过400个,社区贡献的模型权重超过75万个,覆盖文本、视觉、音频及多模态领域 [3] 核心进化维度 - v5版本确立了PyTorch为唯一核心后端,并聚焦于四大维度的进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性,以及将量化提升为核心功能 [3] 简洁性与模块化 - 团队的首要关注点是简洁性,旨在通过干净、清晰的模型集成方式带来更广泛的标准化、更强的通用性和更全面的生态支持 [5][6] - 在过去5年里,平均每周新增1-3个新模型,目标是收录所有最新模型架构,成为模型定义的唯一可信来源 [7][8] - 大力推进模块化设计,使维护更简单、集成速度更快,并促进社区协作,例如引入了AttentionInterface作为注意力机制的集中抽象层 [10][12] - 正在构建基于机器学习的模型转换工具,以自动化模型转换流程,减少手动工作并确保一致性 [13][14] 代码重构与后端聚焦 - 对建模文件和标注/处理文件进行了大规模重构,使建模代码只保留模型前向/反向传播所需的核心部分 [15] - 简化tokenization & processing文件,未来将只关注tokenizers后端,并移除Fast和Slow tokenizer的概念 [16] - 图像处理器今后将只保留依赖torchvision后端的fast版本 [17] - 将逐步停止对Flax/TensorFlow的支持,专注于PyTorch作为唯一后端,同时与JAX生态合作伙伴协作确保兼容性 [17][18] 训练能力扩展 - v5版本加大了对大规模预训练以及完整训练的支持,而不仅仅是微调 [19] - 为支持预训练,重新设计了模型初始化方式,并加入了对前向与反向传播优化算子的支持,已与torchtitan、megatron、nanotron等工具实现更广泛的兼容 [20] - 继续与Python生态系统中的所有微调工具保持紧密合作,并与JAX生态中的MaxText等工具兼容,确保良好的互操作性 [21] 推理优化与生产部署 - v5带来了多项推理范式级更新,包括专用内核、更干净的默认设置、新的API,以及优化对推理引擎的支持 [22][23] - 定位并非取代vLLM、SGLang、TensorRT-LLM等专业推理引擎,而是目标与这些引擎实现兼容 [25] - 与最流行的推理引擎紧密合作,使得添加到Transformers的模型能立即在这些引擎中可用,并充分利用其优化优势 [27] - 与ONNXRuntime、llama.cpp和MLX密切合作以确保互操作性,例如可轻松在Transformers中加载GGUF文件进行微调,或将其模型转换为GGUF文件 [27] - 推动本地推理边界,与executorch团队合作让Transformers模型能够在设备端直接运行,并快速扩展对多模态模型的支持 [28] 量化与新增功能 - 量化正迅速成为前沿模型开发的标准,许多SOTA模型以8-bit和4-bit等低精度格式发布 [29] - 引入了连续批处理和paged attention机制,这些功能已在内部开始使用 [30] - 推出了全新的transformers serve服务系统,可用于部署一个兼容OpenAI API的服务器来部署Transformers模型 [30]
2025年硕博大量扩招,秋招的难度又要升级了...
自动驾驶之心· 2025-12-04 11:03
行业背景与市场需求 - 2025年人工智能等工科硕博招生增幅普遍超过30% [1] - 就业市场竞争激烈 大厂面试要求人手2篇A会论文 [1] - 学生面临导师指导不足 实验与论文发表不确定等多重压力 [1] 公司服务定位与价值主张 - 公司提供论文辅导服务 旨在帮助学生打破循环 快速发表高质量论文 [2] - 服务联手全球QS排名前100的导师 近3年辅导学员超过400名 中稿率高达96% [2] - 服务承诺解决导师放养 知识体系零散 科研流程不熟等问题 [9] - 服务目标不仅是发论文 优秀学员可获得名校推荐信及顶尖企业研发岗内推机会 [16] 目标客户群体 - 目标客户主要是在读计算机专业硕博生 特别是导师放养 无人指导的学生 [10] - 有科研需求以提升职称或学术成就的人员 [10] - 从事人工智能领域相关工作 希望升职加薪提升竞争力的人员 [10] - 计划考研申博留学 需要提升简历含金量的人员 [10] 服务流程与内容 - 辅导全流程涵盖从明确需求到投稿回复的七个关键步骤 [3] - 提供个性化论文指导 导师实时互动 录播无限回看及24小时答疑服务 [11] - 服务覆盖CCF-A/B/C SCI1-4区及EI会议 提供从选题到中稿的一站式科研服务 [11] - 设有班主任角色 负责全程督学与跟进学习进度 [14] 服务特色与承诺 - 公司声称零基础学员通过基础课程与跟进节奏 6个月能出一篇小论文 [15] - 提供精准导师匹配系统 从300多位导师中筛选3至5位最契合人选供学员选择 [15] - 提供预收定金后的名师meeting服务 meeting不满意可免费更换老师或退款 [16] - 收费标准根据目标期刊分区等因素个性化定制 [16]
李弘扬团队最新!SimScale:显著提升困难场景的端到端仿真框架,NavSim新SOTA
自动驾驶之心· 2025-12-04 11:03
文章核心观点 - 自动驾驶行业面临的核心瓶颈并非数据总量不足,而是缺乏足够多的高风险、长尾、极端等“关键场景”数据,导致模型性能难以持续提升 [2] - 由中科院、港大OpenDriveLab和小米汽车联合完成的SimScale研究,提出了一种通过可扩展的3D高斯Splatting仿真生成关键场景并与真实数据协同训练的新路径 [2] - 该方法首次揭示了自动驾驶仿真数据的规模效应:在固定真实数据量的前提下,仅通过扩大仿真数据规模,就能持续提升端到端驾驶模型的性能上限 [2][4] - 在真实世界基准测试中,该方法显著提升了多种规划器的性能,例如在navhard数据集上EPDMS指标最高提升6.8分,在navtest数据集上最高提升2.9分 [4][44] 背景与问题 - 大模型在其他领域的成功依赖于数据规模效应,但自动驾驶领域此方法失灵,原因是现实道路数据中安全“常态行为”占绝大多数,关键场景难以大规模收集 [2] - 仅依靠扩展真实世界驾驶数据效率低下,因为人类专家演示数据中复杂、安全关键场景代表性不足,且训练出的规划器难以泛化到罕见或未见场景 [7] - 行业亟需一种能系统性生成大量关键场景、并规模化训练的新路径,以解决数据分布偏移和因果混淆问题 [2][7] SimScale方法概述 - 核心框架包含一个可扩展的仿真数据生成流程和一个有效的虚实协同训练策略 [11] - 采用基于3D高斯Splatting的高保真神经渲染技术构建仿真数据引擎,能够生成可控的多视角视频观测数据 [13][15] - 设计了伪专家场景仿真流水线:通过对自车轨迹进行多样化扰动采样,生成分布外状态,并配套生成伪专家轨迹作为动作监督 [8][17] - 提出了两种伪专家策略进行对比:引导策略回归人类轨迹分布的“恢复式专家”和能生成优化、探索性轨迹的“规划器式专家” [20][23] - 采用简单的虚实协同训练策略,从真实数据集和仿真数据集的混合集中随机采样,以保留人类驾驶分布并减轻视觉域退化 [24] 实验结果与关键发现 - **排行榜表现**:在navhard基准测试中,采用SimScale协同训练的GTRS-Dense模型取得了47.2的得分,创下该基准的最新最优性能 [31] - **性能提升**:所有测试模型在两个基准上均表现提升,性能较弱的基线模型获益最明显,性能提升超过20% [31] - **规模效应**:实验首次系统揭示了仿真数据的规模效益,在固定真实数据量的情况下,仅增加仿真数据量就能实现策略性能的平稳提升 [4][33] - **伪专家的探索性**:对于所有规划器,“规划器式专家”策略下的数据缩放曲线和最终性能均优于“恢复式专家”,凸显了伪专家探索性行为对提升仿真数据价值的重要性 [36] - **多模态建模的优势**:扩散模型类规划器相比回归类规划器,在仿真数据扩展中表现出更近似线性的性能提升,证明了多模态建模能力对于处理多样化监督和可扩展自动驾驶的重要性 [38] - **奖励信号的效用**:对于基于词汇评分的规划器,仅使用仿真数据中的奖励信号而无需专家轨迹,就能实现更优的性能,表明在稳定优化方向的前提下,奖励引导能发挥更好效果 [39] - **反应式仿真的价值**:与非反应式仿真相比,引入反应式交互的仿真数据虽然有效样本数更少,但能带来持续且显著的性能提升,证明了交通交互的真实性和多样性对增强仿真数据有效性的关键作用 [39] 方法技术细节 - **3DGS仿真引擎**:利用从真实数据重建的3DGS资产,通过输入相机参数和智能体状态,渲染出新视角的RGB观测图像,以减小域差异 [15] - **轨迹扰动**:从覆盖动作空间的人类轨迹词汇库中采样,通过对纵向/横向偏移和航向变化设阈值,并剔除无效轨迹,确保扰动既多样又合理 [19] - **协同训练规划器**:为全面评估,选取了三种代表性端到端规划范式:基于回归的LTF、基于扩散模型的DiffusionDrive和基于词汇评分的GTRS-Dense [24] - **训练目标**:对于回归和扩散模型,最小化模仿损失;对于评分模型,额外增加奖励预测损失 [25][26] - **数据缩放分析**:采用对数二次函数建模性能与总数据量的关系,以分析缩放趋势 [33] 总结与影响 - SimScale是一个完整的虚实结合学习系统,能够释放现有真实世界驾驶数据的潜力,通过仿真扩展持续提升模型性能 [12][44] - 该研究为端到端规划中基于有限真实场景扩展仿真数据提供了一套系统化方案,并揭示了推动仿真规模化的关键因素 [6][7] - 研究表明,探索性专家设计、交互式环境以及规划器的多模态建模能力,是提升仿真数据有效性和实现良好数据扩展特性的重要因素 [12][44]
驭势科技 | 环境感知算法工程师招聘(可直推)
自动驾驶之心· 2025-12-04 11:03
公司招聘信息 - 公司正在招聘环境感知算法工程师,工作地点位于上海长宁,薪资面议 [3] - 该岗位的核心职责是负责无人驾驶的环境感知,包括利用机器视觉和激光雷达等数据进行处理与融合,实现目标跟踪、语义理解和道路拓扑构建等功能,以保障无人驾驶安全 [5] - 岗位要求候选人具备扎实的数学和机器学习基础,拥有基于视觉或激光雷达的检测、分割、识别、跟踪及BEV感知等算法的实战经验 [5] - 岗位要求候选人具备强大的工程能力,精通C/C++和Python,熟悉三维成像原理,并能开发高性能实时软件 [5] 行业技术焦点 - 环境感知能力被视为保证无人驾驶安全最关键和基础的能力,其目标是准确发现和定位道路、行人、车辆、自行车等周围物体 [5] - 行业技术前沿涉及多传感器数据融合、多目标跟踪、环境细粒度语义理解以及道路拓扑构建等复杂感知功能 [5] - 行业对算法工程师的技术要求广泛,包括跟踪前沿技术,并需在计算机结构和高性能实时软件开发方面有深刻认识 [5]
从 LLaVA 到 Qwen3-VL:多模态大模型主流架构的演进之路
自动驾驶之心· 2025-12-03 08:04
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型到能感知和理解物理世界的多模态智能体的深刻变革,其核心驱动力是多模态大模型(MLLM)的架构革命 [3] - 当前主流MLLM普遍遵循“三位一体”的黄金架构,由视觉编码器(AI的“眼睛”)、大语言模型(AI的“大脑”)和连接器(“灵魂之桥”)三部分协同工作 [6][10] MLLM“三位一体”架构详解 - **视觉编码器(ViT)**:作为AI的“眼睛”,其核心是将图像视为序列化文本进行处理,例如将一张224x224像素的图像分割成196个16x16的图块,并转换为768维的视觉词元序列 [11][13][14] - **大语言模型(LLM)**:作为AI的“大脑”,负责最终的认知、推理和表达,其输入是视觉与文本特征拼接后的融合序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列 [22][24] - **连接器(Connector)**:作为沟通桥梁,负责将视觉特征投影到LLM能理解的语义空间,例如将[1, 196, 768]维的视觉特征转换到[1, 196, 4096]维的空间 [36][37] 处理高分辨率图像的核心矛盾与两条技术路线 - 行业面临的核心挑战是如何让模型在不牺牲效率的前提下处理高分辨率图像的细节信息,直接处理会导致视觉词元序列过长,计算复杂度呈平方级增长 [64] - **路线一(LLaVA系列)**:奉行“扩展输入边界”的哲学,通过AnyRes等前端工程技术解决高分辨率问题,例如LLaVA-1.5-HD采用“全局概览图+高清局部图块”双路处理并拼接特征的策略 [65][66][67][68][69] - **路线二(Qwen3-VL系列)**:奉行“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的不同层级,实现高效的多层次融合 [74][75][78] LLaVA系列架构演进分析 - LLaVA系列是“大道至简”设计哲学的典范,其初代版本使用极简的单层线性投影作为连接器,证明了简洁架构在海量数据驱动下的有效性 [90][93] - 该系列通过务实的迭代持续提升性能,例如LLaVA-1.5将视觉编码器输入分辨率从224x224提升至336x336,并将连接器升级为两层MLP [94][99] - 其核心突破在于AnyRes技术,通过巧妙的输入预处理(如切块、降采样、双线性插值)来应对高分辨率挑战,并最终将能力扩展至视频等多模态统一处理 [96][100][101] Qwen3-VL系列架构演进分析 - Qwen3-VL是“精巧设计,架构致胜”路线的集大成者,其架构实现了从“入口拼接”到“多层注入”的范式转变,构建了视觉与语言深度协同的系统 [102][105] - 其核心技术DeepStack基于实验数据优化,例如实验表明从LLM的第0~4层(浅层)开始注入视觉特征效果最佳,注入间隔为2或3层,总计注入约4个层时性能最优 [80][81] - 该模型集成了多项前沿架构创新,包括直接从同一视觉编码器中间层(如第8、16、24层)提取特征进行注入的高效DeepStack实现、混合专家(MoE)语言模型以及更先进的MRoPE-Interleave位置编码 [85][107][110][111] 行业未来发展趋势 - 多模态大模型的发展正朝着真正的多模态统一迈进,未来可能在预训练早期就进行视觉、语言、音频等多模态数据的协同训练 [115] - 模型能力将从“感知”走向“推理与执行”,发展为能够操作界面、调用工具完成复杂任务的视觉智能体(Visual Agent) [118] - 行业下一个重点将是拥抱动态与三维世界,实现长视频的完整理解、秒级时间定位以及从2D图像还原真实世界3D信息的能力 [118]
我们正在寻找自动驾驶领域内的技术合伙人......
自动驾驶之心· 2025-12-03 08:04
行业动态与定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破[2] - 公司作为国内自动驾驶领域创作技术平台 期望在行业激流中贡献力量并成为带来价值的平台[2] 业务拓展方向 - 公司将增加圆桌访谈 实战及工业级课程 咨询等各类输出[2] - 主要业务方向包括自动驾驶产品经理 4D标注及数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向[4] 合作与招聘计划 - 公司需要更多优秀伙伴加入 主要面向自动驾驶培训合作及课程开发和原创文章创作[3][5] - 培训合作面向B端企业及高校和研究院所 C端面向学生及求职人群[5]
最近,自动驾驶的岗位招聘有一些新的变化......
自动驾驶之心· 2025-12-03 08:04
自动驾驶行业招聘趋势变化 - 感知岗位需求进一步收缩,而端到端、VLA、世界模型等方向需求较高 [1] - 头部玩家已验证端到端路径可行,其他车企正跟进模型优化、场景优化、数据优化及规划兜底等资源投入 [1] - 候选人技术栈狭窄,缺乏导航信息引入、强化学习调优、轨迹建模等量产经验,成为实际落地痛点 [1] 端到端量产课程核心内容 - 课程聚焦量产实战,涵盖一段式端到端、两段式端到端、导航信息应用、强化学习、扩散模型+强化学习等核心算法 [1][2] - 课程设计基于实际量产需求,包括轨迹优化、兜底方案及量产经验分享,仅限25名学员参与 [2][3] - 讲师为顶级Tier1算法专家,具备大模型、世界模型等前沿算法预研和量产落地经验 [3] 课程大纲与技术模块 - 第一章介绍感知任务合并与规控学习化趋势,分析主流一体化架构及开源数据集评测方式 [6] - 第二、三章对比两段式与一段式端到端框架,分别讲解PLUTO算法实战和VAD系列方法,强调一段式方案性能更优 [7][8] - 第四至七章深入导航信息编码、强化学习泛化训练、轨迹输出优化及时空联合规划兜底方案,覆盖模仿学习与强化学习结合应用 [9][10][11][12] - 第八章从数据、模型、场景等多视角分享量产经验,提升系统能力边界 [13] 课程安排与学员基础要求 - 课程周期为三个月,自11月30日起分章节解锁教学,包含离线视频与三次线上答疑 [14][16] - 学员需自备GPU(推荐算力4090及以上),熟悉BEV感知、Transformer、强化学习等算法,具备Python/PyTorch及数学基础 [15]
哈工大提出LAP:潜在空间上的规划让自动驾驶决策更高效、更强大!
自动驾驶之心· 2025-12-03 08:04
文章核心观点 - 提出了一种名为LAP的自动驾驶规划新方法,其核心设计哲学是去除冗余的动力学细节,让模型在高层语义化的潜在空间进行规划,从而提升对复杂、多模态驾驶策略的建模能力并大幅提高推理速度 [1] - 该方法通过引入轨迹变分自编码器、初始状态注入、无分类器引导和细粒度特征蒸馏等关键技术,在nuPlan基准测试中实现了最先进的性能,尤其在最具挑战性的Test14-hard数据集上,闭环评测分数达到78.52,并以十倍的推理速度超越前SOTA方法 [1][22][23] 背景与问题定义 - 自动驾驶运动规划领域的发展面临挑战:基于规则的系统难以扩展,模仿学习方法易受“模式平均”影响,而现有扩散模型方法直接在原始轨迹路点上操作,导致计算效率低且模型容量浪费于底层运动学细节 [9] - LAP方法旨在解决上述问题,通过将高层意图与底层运动学解耦,在解耦得到的潜在空间中进行规划 [2][9] 方法论详解 - **轨迹潜在表示**:设计了一个基于Transformer的轨迹变分自编码器,将原始轨迹压缩到低维、语义化的潜在空间,训练目标包含重建损失、KL散度和差分损失 [10][11][14] - **潜在空间规划**:在VAE训练完成后,训练一个潜在扩散模型来预测轨迹对应的潜在向量,模型采用DiT结构,并引入初始状态注入模块为预测提供明确的先验“锚点” [12][15][19] - **导航引导增强**:在训练中随机丢弃导航信息,并在推理时使用无分类器引导技术来强化导航约束,以缓解模型在闭环规划中出现的“因果混淆”现象 [6][7][16] - **细粒度特征蒸馏**:引入特征蒸馏模块,使用像素空间规划器作为教师模型,将其中间层特征作为目标来指导学生模型,以弥合高度抽象的规划空间与细粒度条件输入之间的信息交互鸿沟 [21][24] 实验结果与分析 - **性能对比**:在nuPlan基准上,LAP在所有基于学习的方法中实现了SOTA性能,在最具挑战性的Test14-hard数据集上,LAP (o1s2)的闭环评测分数达到78.52,大幅超越先前SOTA方法约3.1分 [22][23] - **推理速度**:受益于潜在空间的紧凑性,LAP仅需2步采样即可生成高质量轨迹,推理时间低至18.81-21.69毫秒,相比需要迭代10步采样的Diffusion Planner实现了最高10倍的推理加速 [23][27] - **多模态能力**:潜在空间规划能更好地捕捉多样化的高级驾驶策略,如不同的转弯半径和速度,避免了模式坍缩问题 [28][29] - **潜在空间分析**:潜在空间具有光滑性,线性插值能产生平滑的轨迹过渡;通过降维可视化与聚类分析,证明其学到的语义空间是高度结构化的,并与驾驶意图良好对齐 [30][32][33][34][36] 消融实验与模块影响 - **初始状态注入**:提升了模型在非反应性环境下的性能,但在反应性环境中因“因果混淆”问题可能导致性能下降 [36][38] - **特征蒸馏**:显著提升了模型在非反应性和反应性两种环境下的表现,证明了其有效性 [36][38] - **导航增强**:大幅缓解了反应性环境中的“因果混淆”问题 [36][38] - **采样步数**:1步或2步采样效果最佳,增加步数反而可能导致性能下降,因过于精确的解码可能无法应对闭环规划中的分布外场景 [38] 核心贡献总结 - 利用变分自编码器实现了高层驾驶语义与底层运动学细节的解耦 [40][42] - 引入细粒度特征蒸馏模块,有效弥合了潜在规划空间与向量化场景上下文之间的交互鸿沟 [40][42] - 在nuPlan基准上实现了最先进的闭环性能,同时将推理速度提升了10倍 [40][42]
Feed-forward 3DGS,正在吸引业内更多的关注......
自动驾驶之心· 2025-12-02 08:03
3D高斯泼溅技术趋势与行业动态 - 特斯拉在ICCV的分享引发了行业对3D高斯泼溅技术的广泛关注,其引入被视为一大亮点[2] - 行业普遍共识是引入前馈式3DGS来重建场景并利用生成技术生成新视角,多家公司已开放相关招聘[2] - 3DGS技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] 3D高斯泼溅技术课程核心内容 - 课程旨在提供从原理到实战的完整3DGS学习路线图,覆盖点云处理、深度学习理论及实时渲染、代码实战[4] - 课程由工业界算法专家设计,历时两个月,目标是帮助学员全面掌握3DGS技术栈[4] 课程讲师背景 - 讲师Chris拥有QS20高校硕士学位,现任某Tier1厂商算法专家[5] - 其研究方向包括端到端仿真、多模态大模型、世界模型等前沿算法的预研与量产[5] - 曾参与全球顶级主机厂的仿真引擎及工具链开发,具备丰富的三维重建实战经验[5] 课程大纲详解 - **第一章:背景知识**:概述计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并解释其与3DGS的联系,介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型及使用SuperSplat移除杂点的作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,重点讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界与工业界广泛使用的DriveStudio框架[10] - **第四章:重要研究方向**:探讨COLMAP扩展、深度估计及Relighting等3DGS重要研究方向,分享其在工业界的应用价值与学术探索前景[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,组织VIP群内答疑,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程安排与面向人群 - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑[15] - 课程章节按计划解锁:第一章于12月1日,第二章于12月7日,第三章于1月7日,第四章于1月21日,第五章于2月4日[15] - 课程面向具备一定计算机图形学、视觉重建、NeRF、3DGS技术基础,以及概率论、线性代数、Python和PyTorch语言基础的学员[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] 学员预期收获 - 掌握3DGS完善的理论知识及相关技术栈[17] - 掌握3DGS算法开发框架,能够训练开源模型[17] - 获得与学术界及工业界同行持续交流的机会[17] - 所学知识对实习、校招、社招均有助益[17]