Workflow
自动驾驶之心
icon
搜索文档
新势力提前批,跪了。。。
自动驾驶之心· 2025-08-06 19:25
自动驾驶行业研究 - 自动驾驶行业正处于快速发展阶段,涉及多个技术方向如BEV感知、VLA、端到端自动驾驶等[23][30][41] - 行业技术热点包括3DGS与NeRF场景重建、世界模型、视觉语言模型(VLM)等前沿领域[43][45][47] - 主流技术路线涵盖感知融合、规划控制、仿真测试等多个环节[23][30] 自动驾驶技术方向 - BEV感知已成为量产方案基石,包含纯视觉和多模态方案[54] - 端到端自动驾驶包含一段式、二段式及量产方案[41] - 3D目标检测技术路线包括激光点云、单目/双目及多模态方法[56] - 多传感器融合技术包含强融合、弱融合和后融合方案[58] 行业资源与生态 - 自动驾驶领域拥有近60+数据集,涵盖感知、预测、强化学习等方向[39] - 行业主流仿真平台包括Carla、Apollo、Autoware等[23][82] - 开源项目覆盖3D检测、BEV感知、大模型应用等40+方向[37] 企业布局与人才需求 - 头部企业包括蔚小理、地平线、华为、大疆等[23][33] - 企业面试注重候选人技术深度及非技术能力如沟通、学习能力等[4][5][6][7] - 行业建立内推机制,提供岗位对接服务[13][21] 技术发展趋势 - VLA(视觉语言动作)成为2025年重点方向[49] - 扩散模型应用于数据生成、场景重建等领域[52] - 在线高精地图是无图NOA方案核心[60] - 强化学习是VLM必备组件[63]
研二多发几篇论文,也不至于到现在这个地步...
自动驾驶之心· 2025-08-06 11:25
就业与学术压力 - 秋招季大厂提前批招聘倾向于项目经历丰富、研究成果突出、背景优秀的同学[1] - 普通研究生在就业或申博时需通过高质量科研成果证明自身能力[1] - 硕士阶段的院校背景和成果水平直接影响读博机会(申请制)[1] 论文辅导服务核心价值 - 针对导师放养、选题迷茫、框架混乱等科研痛点提供专业助力[1][8] - 案例:研二学员在3个月内完成SCI论文并满足毕业要求[2] - 服务覆盖选题、文献综述、实验设计、投稿全流程(12周标准化周期)[4] 平台优势与资源 - 母公司为国内最大AI技术自媒体平台,拥有自动驾驶/具身智能/3D视觉等垂直IP[3] - 师资团队包含300+名全球QS前100高校导师,顶会/子刊发表经验丰富[5] - 近3年辅导400+学员,中稿率达96%[5] 目标用户群体 - 计算机专业硕博生(尤其导师放养群体)[9] - 人工智能从业者(职称晋升/竞争力提升需求)[9] - 考研申博留学人群(简历优化需求)[9] 服务内容与形式 - 提供1v1在线授课(腾讯会议)+微信群实时答疑[12] - 包含科研思维培养、算法体系构建、代码实践等全链条支持[8] - 覆盖CCF-A/B/C、SCI1-4区、EI会议等各类期刊投稿需求[10] 附加价值与保障 - 优秀学员可获名校推荐信及头部企业(如阿里达摩院、华为诺亚方舟)内推机会[15] - 精准导师匹配系统:从300+导师中筛选3-5位方向契合者[14] - 预收定金试听机制,不满意可更换导师或退款[15]
SLAM的最终形态应该是什么样的?
自动驾驶之心· 2025-08-06 11:25
SLAM技术本质 - 建图过程本质是将传感器数据转化为地图或模型 无需拘泥于形式或可视化呈现 [3] - 定位过程本质是利用地图模型和传感器数据连续输出位置姿态 计算方式不影响核心功能 [5] - 技术命名差异不影响功能本质 关键在于输入输出的数据连续性 [6] 传统SLAM方法瓶颈 - 技术原理停滞不前 主要精力集中于处理极端案例 存在无法突破的固有局限 [7] - 性能提升与数据规模不相关 缺乏 scalability [7] 新兴数据驱动方法挑战 - 泛化能力受限 性能高度依赖数据分布 传统方法具有普适性优势 [12] - 实时性不达标 建图需100ms/帧 定位需20ms/帧的千元级硬件标准尚未实现 [12] - 故障诊断困难 缺乏传统方法的可调试性 依赖数据增量解决问题 [12] 技术发展前景 - 数据驱动将成为主流 百万级参数调优将取代人工噪声调整 [13] - 当前技术处于过渡期 新旧方法各有70%左右场景覆盖率 但商业化需要100%可靠场景 [13] - 发展瓶颈在于数据规模不足 缺乏数十TB带真值pose的训练数据集投入 [13] 硬件设备进展 - 出现多传感器融合的3D扫描仪解决方案 集成激光雷达/IMU/RTK/视觉等多模态感知单元 [14]
征稿!ICCV 2025:“人机场景交互与协作”研讨会&挑战赛
自动驾驶之心· 2025-08-06 07:32
研讨会概述 - 研讨会主题为"人机场景交互与协作",聚焦智能机器人在家庭、医院、工厂和学校等场景中的安全、智能和自然协作[4] - 研讨会将于2025年10月20日在夏威夷檀香山举行[2] - 研讨会主页链接为https://human-robot-scene.github.io/[6] 前沿研究方向 - 知识迁移创新:从人与人以及人与场景的交互中转移知识,为人形和其他具身智能体开发提供信息[5] - 视觉表征突破:提取视觉表征信息以捕获与人机协作相关的对象属性、动态和可供性[5] - 意图预测革命:研究对人类意图进行建模和预测的方法,使机器人能够预测行动并安全做出反应[5] - 场景融合实践:将机器人集成到交互式环境中以促进无缝且有效的团队合作[5] - 评估体系构建:建立基准和指标来衡量人机场景交互和协作的进步[5] 论文征稿 - 接受长论文(最多8页)和短论文(最多4页),投稿须遵循ICCV 2025格式规范[8] - 投稿截止时间为2025年8月15日,录用通知时间为2025年8月29日,最终版本提交时间为2025年9月5日[13] - 录用论文将以海报形式展示,部分优秀论文将获选进行口头报告[8] - 投稿系统链接为https://openreview.net/group?id=thecvf.com/ICCV/2025/Workshop/HRSIC[12] 挑战赛 多地形人形运动挑战赛 - 聚焦人形机器人运动控制算法的突破性创新,解决复杂非结构化地形下的自主导航难题[16] - 奖项设置:一等奖1000美元,二等奖500美元,三等奖300美元[18] - 注册截止时间为2025年9月14日,提交截止时间为2025年9月21日,获奖公布时间为2025年9月23日[18] - 挑战赛网站链接为https://human-robot-scene.github.io/Terrain-Challenge/[18] 人形-物体交互挑战赛 - 要求开发能够感知、推理并与日常物体进行物理交互的模拟人形智能体,完成复杂任务[21] - 需要整合接触密集型操作、交互式感知和语义推理能力[21] - 奖项设置:一等奖1000美元,二等奖500美元,三等奖300美元[22][23] - 注册截止时间为2025年9月14日,提交截止时间为2025年9月21日,获奖公布时间为2025年9月23日[23] - 挑战赛网站链接为https://hyangwork01.github.io/Humanoid-Object-Interaction-Bench/[23]
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-06 07:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
高精厘米级重建!点云/视觉全场景重建,超高性价比3D扫描仪~
自动驾驶之心· 2025-08-06 07:32
产品概述 - 公司推出GeoScan S1手持三维激光扫描仪,定位为工业及教研场景的超高性价比解决方案,主打轻量化设计、一键启动和厘米级精度实时重构 [1] - 设备采用多模态传感器融合算法,支持每秒20万级点云生成、70米测量距离和360°全域覆盖,适用于20万平米以上的大场景扫描 [1] - 基础版首发价19800元起,提供深度相机版(23800元)和3DGS在线/离线版本(39800元)等配置选项 [56][7] 核心技术 - 搭载多传感器融合SLAM算法,集成激光雷达(Livox Mid-360)、双广角相机、9DOF IMU、RTK模块(UM982 Mobile)及深度相机(Intel D435i),实现微秒级同步精度 [11][20][21][32] - 采用25°倾斜角激光雷达设计,减少重复采集需求,提升扫描效率 [13] - 支持3D高斯采集模块(选配),可进行高保真实景还原,提供离线/在线渲染功能 [6][49] 性能参数 - 扫描性能:相对精度优于3cm,绝对精度优于5cm,彩色点云输出支持pcd/las/plv等格式 [20] - 硬件配置:Intel N5095处理器(4核2.9GHz)、16GB内存+256GB存储(可扩展)、88.8Wh电池续航3-4小时 [20][24] - 物理特性:尺寸14.2×9.5×45cm,含电池重量1.9kg,航空铝外壳,配备5.5寸触控屏 [20] 应用场景 - 覆盖复杂室内外环境,包括工业园区、隧道、森林、矿场等场景,支持20万平米大场景实时扫描与彩色融合 [36][28][45] - 适配无人机/无人车/机械狗等平台,实现跨平台无人化作业 [42] - 适用于地理信息采集、工程监控、文化遗产修复等领域 [51][53] 用户体验 - 操作简化:一键启动扫描,结果导出即用,无需复杂部署 [5] - 软件配套:基于Ubuntu 20.04系统,支持ROS,提供实时建模、数据保存及RTK功能 [20][40][41] - 扩展接口:配备千兆网口、双USB 3.0、Micro SD卡槽,支持硬件性能充分释放 [10][21]
即将开课!彻底搞懂端到端与VLA全栈技术(一段式/二段式/VLA/扩散模型)
自动驾驶之心· 2025-08-06 07:32
理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市,重点推出辅助驾驶功能升级,并首发VLA(视觉-语言-动作模型)司机大模型,成为首款搭载该技术的理想车型 [2] - VLA将作为全系i8车型标配功能,计划于8月随车辆交付 [2] - VLA技术突破体现在三方面:多模态语义理解(空间/思维/沟通记忆/行为)、思维链推理能力、接近人类驾驶直觉的决策能力 [3] - 具体功能包括:执行自然语言指令(如"靠边停")、记忆路段速度偏好、语音搜索目的地(如"找最近星巴克")、复杂路况风险评估与避障 [6] VLA技术架构与行业影响 - VLA整合端到端与大模型优势,融合视觉空间理解(BEV感知)、语言模型思维推理(含RAG记忆)、多模态输入处理能力 [3] - 技术演进路径:从E2E+VLM到VLA,代表自动驾驶量产新里程碑,引发行业人才转型热潮(传统规控/感知方向从业者转向VLA) [5] - 技术流派分化:一段式(UniAD/OccWorld/DiffusionDrive)与二段式(PLUTO)并行发展,VLA成为大模型时代端到端新方向 [8][23] - 人才市场需求旺盛:VLA算法专家月薪达40-70K(15薪),博士级顶尖人才年薪90-120K(16薪),实习岗位日薪220-400元 [11] 端到端技术发展趋势 - 技术迭代加速:2023年工业级端到端方案已不适应2024年环境,需掌握多模态大模型/BEV感知/强化学习/扩散模型等复合技能 [14] - 学术前沿动态:基于感知的UniAD、基于世界模型的OccWorld、基于扩散模型的DiffusionDrive形成三大技术分支 [23] - VLA成为技术制高点:融合VLM/BEV/扩散模型/强化学习,代表端到端自动驾驶最高难度,小米ORION等开源项目推动工业落地 [25] 技术人才培养体系 - 行业推出《端到端与VLA自动驾驶小班课》,覆盖技术发展史、背景知识(Transformer/BEV/扩散模型/RLHF)、一段式/二段式实现方案 [21][22][24] - 课程设计特点:Just-in-Time快速入门、构建研究框架(论文分类/创新点提取)、RLHF微调实战(ORION案例复现) [16][17][18][26] - 培养目标:3个月达到1年经验算法工程师水平,掌握主流框架复现能力(扩散模型/VLA),适配实习/校招/社招需求 [32]
准备扩大自驾团队了,欢迎加入我们~
自动驾驶之心· 2025-08-05 19:22
行业发展趋势 - 智能驾驶行业正从L2向L3阶段过渡 技术突破带来实际体验提升 逐渐普及到千家万户 [2] - 行业进入下沉期 简单问题已收敛 需攻克复杂未知领域 强调稳扎稳打解决量产难题 [2] - 小米汽车YU7三分钟大定突破20万台 反映产品硬实力与小米集团软实力的市场认可度 [2] 公司业务方向 - 聚焦智能驾驶项目合作与自动驾驶教育研发 搭建汇聚全球开发研究者的平台 [2] - 开展自驾教育在线课程、企业咨询及辅导业务 覆盖大模型/多模态等15个技术方向 [3] - 提供行业资源共享与分红机制 支持兼职或全职合作模式 [6] 人才需求 - 优先招募博士及以上学历者 工业界需具备3年以上研发经验 [4] - 技术方向涵盖大模型部署、端到端学习、强化学习等前沿领域 [3]
建了个自动驾驶VLA技术交流群(数据/模型/部署等方向)
自动驾驶之心· 2025-08-05 19:22
自动驾驶技术交流 - 成立VLA技术交流群 旨在促进VLA相关技术讨论 [1] - 交流内容涵盖VLA数据集制作 一段式与分层VLA技术方案 [1] - 涉及基于大模型的端到端方案及VLM+DP混合方案开发 [1] - 包含量产落地实践与行业求职信息共享 [1]
自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~
自动驾驶之心· 2025-08-05 11:09
基于可控扩散模型的生成式主动学习框架GALTraj - 提出GALTraj框架首次将可控扩散模型应用于轨迹预测的长尾问题通过尾样本感知生成技术动态增强稀有场景数据 [1] - 在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%(从0.42→0.22)整体预测误差minFDE₆降低14.7%(从0.654→0.558) [1] - 设计尾部感知生成方法对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导生成兼具真实性、多样性且保留尾部特征的场景 [2] - 在多个骨干模型(QCNet、MTR)上验证显著提升尾部样本预测性能同时改善整体预测精度 [2] 拓扑感知激光雷达扩散模型TopoLiDM - 提出TopoLiDM框架通过拓扑正则化的图扩散模型实现高保真激光雷达生成 [13] - 在KITTI-360数据集上以22.6%的FRID下降率和9.2%的MMD下降率超越现有最优方法同时保持1.68样本/秒的实时生成速度 [13] - 采用紧凑的拓扑图作为潜在表示实现了快速、可解释且高保真的LiDAR点云生成 [15] - 拓扑感知VAE模块通过图构建和多层图卷积提取潜在图表示并引入0维持久同调约束确保生成的LiDAR场景符合真实世界环境的全局拓扑规则 [15] 高效端到端自动驾驶框架FastDriveVLA - 提出基于重建的视觉Token剪枝框架FastDriveVLA通过对抗性前景-背景重建策略在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7% [21] - 设计ReconPruner通过MAE风格像素重建训练的即插即用修剪器增强识别有价值令牌的能力 [27] - 构建nuScenes-FG数据集包含241k图像-掩码对针对自动驾驶场景的前景分割标注 [27] - 在nuScenes开环规划基准上实现SOTA性能 [27] 语言大模型驱动自动驾驶框架PLA - 提出统一的感知-语言-动作(PLA)框架通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心实现自适应自动驾驶 [34] - 在nuScenes数据集的城市交叉路口场景中速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923轨迹跟踪的平均位移误差(ADE)为1.013米 [34] - 多传感器语义融合模块整合激光雷达、雷达和相机数据生成结构化场景描述提升空间精度与语义丰富度 [38] - 通过LLM驱动的上下文推理增强对未见过场景的泛化能力实现鲁棒决策 [41] 自动驾驶行业资源整合 - 梳理近40+技术路线包括咨询行业应用、VLA benchmark、综述和学习入门路线 [50] - 整理国内高校著名自动驾驶团队和领域企业介绍 [52] - 汇总自动驾驶数据集与标定、仿真工具包括近百个数据集和标注工具 [52] - 提供基础入门资料涵盖数学基础、计算机视觉、深度学习和编程相关内容 [52]