Workflow
自动驾驶之心
icon
搜索文档
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-07-12 13:41
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点招募领域涵盖大模型/多模态大模型、扩散模型、VLA等前沿技术方向[3] - 涉及端到端自动驾驶、具身交互、联合预测等关键技术[3] - 包含SLAM、3D目标检测、世界模型等感知技术[3] - 关注闭环仿真3DGS、大模型部署与量化感知推理等应用方向[3] 人才要求 - 候选人需具备QS200以内高校硕士及以上学历[4] - 拥有顶会论文发表经历者优先考虑[4] 合作待遇 - 提供自动驾驶领域资源共享包括求职、读博、留学推荐等[5] - 设置丰厚现金激励机制[5] - 可获得创业项目合作与推荐机会[5]
从科研到落地,从端到端到VLA!一个近4000人的智驾社区,大家在这里报团取暖~
自动驾驶之心· 2025-07-11 19:23
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位领域专家加入[2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 技术课程体系 - 提供超千元价值的自动驾驶技术论文解读免费视频教程[2] - 原创直播课程覆盖自动驾驶9大方向:综述/感知融合/标定/SLAM/决策规划/数据工程等[2] - 自研硬件包括标定板、黑武士、天工开物及具身智能机械臂等设备[2] - 网络公开课包含自动驾驶基础、深度学习、机器学习等十余门课程[2] 学习路线规划 - 整理15个自动驾驶学习方向路线图,包含新人指南/提问技巧/问答精选等模块[3] - 汇总国内外高校著名自动驾驶团队及企业信息[3][4] - 提供自动驾驶数据集、仿真工具、标注工具等资源[3] 行业资源对接 - 与近200家自动驾驶公司建立内推渠道,简历可直达企业[4] - 覆盖小米/地平线/理想/小鹏/英伟达/比亚迪/华为等头部企业资源[6] - 针对创业者/高管/产品经理等角色开放资源对接通道[6] 技术发展趋势 - 2025年技术基调确定为VLA(视觉语言行动)驱动的端到端2.0系统[7] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS生成技术等[7] - 技术迭代周期从2024年下半年开始明显缩短[7] 知识星球内容 - 国内最大自动驾驶技术社区,成员近4000人,含100+行业专家[14] - 每周活跃度居国内前20,日均成本约0.5元[14] - 四大核心板块:学术进展追踪/技术分类汇总/求职资料/问题解答[16] 前沿技术方向 - 重点布局VLA/大模型/扩散模型/具身智能等方向[24] - 视觉语言模型应用涵盖预训练/迁移学习/知识蒸馏等技术路线[27][28][29] - 世界模型研究聚焦3D场景理解与生成、驾驶视频生成等方向[45][46] 数据集资源 - 整理超30个自动驾驶数据集,包含KITTI/Cityscapes/nuScenes等标杆数据集[37] - 语言增强数据集涵盖视觉问答、导航指令、车辆检索等场景[38] - 图像文本数据集规模从百万级(COCO)到百亿级(WebLI)不等[31] 求职与职业发展 - 提供面经覆盖SLAM/计算机视觉/感知融合等方向[4] - 专家建议传统SLAM从业者转向3DGS重建或规控领域[106] - 多模态3D检测方向建议向端到端/大模型/数据闭环转型[108]
每秒20万级点云成图,70米测量距离!这个3D扫描重建真的爱了!
自动驾驶之心· 2025-07-11 19:23
产品概述 - GeoScan S1是一款手持三维激光扫描仪,具有轻量化设计、一键启动和高性价比的特点 [1] - 产品由同济大学刘春教授团队和西北工业大学产业化团队合作开发,经过上百个项目验证 [4] - 产品定位为"构建数字世界 推动三维孪生"的手持三维激光扫描解决方案 [5] 核心技术 - 采用多模态传感器融合算法,实现厘米级精度的三维场景实时重构 [1] - 每秒可生成20万级点云,测量距离达70米,360°全域覆盖 [1][23] - 支持20万平米以上的大场景扫描,精度控制在±1.5cm [1][16][23] - 配备微秒级同步模块,实现多传感器数据的高精度时间同步 [28][29] - 支持3D高斯数据采集模块,实现高保真实景还原 [1][44] 硬件配置 - 集成多种传感器:3D激光雷达、9DOF IMU、双广角相机、深度相机等 [7] - 采用Intel N5095处理器,4核2.0GHz(睿频2.9G),16G内存/256G存储 [16] - 配备5.5寸触控屏(1280x720),航空铝外壳,重量1.9kg(含电池) [16] - 支持RTK定位,型号为T-RTK UM982 Mobile [17] - 激光雷达型号为Livox Mid-360,深度相机为Intel D435i [17] 性能参数 - 相对精度优于3cm,绝对精度优于5cm [16] - 续航时间约3-4小时,电池容量88.8Wh [16] - 支持pcd、las、plv等多种通用数据格式导出 [16] - 运行Ubuntu 20.04系统,支持ROS [16] - 配备千兆网口、USB3.0*2、Micro SD等扩展接口 [17] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等多种复杂环境 [32][40] - 可应用于城市规划、文物保护、施工监控等领域 [46][48] - 支持跨平台集成,适配无人机、无人车、机械狗等多种负载平台 [38] 产品版本与价格 - 基础版本:19800元 [51] - 深度相机版本:23800元 [51] - 3DGS在线版本:39800元 [51] - 3DGS离线版本:67800元 [51] 使用体验 - 操作简单直观,一键启动即可执行扫描作业 [3] - 扫描结果导出即用,无需复杂部署和繁琐处理 [3] - 模型精度高,行走之间轻松扫描大场景 [3] - 激光雷达25°倾斜角度安装,兼顾多个方位,无需反复采集 [9]
生成式 AI 的发展方向,应当是 Chat 还是 Agent?
自动驾驶之心· 2025-07-11 19:23
Chat与Agent的区别 - Chat是主要由"大脑和嘴"构成的智能体,专注于信息处理和语言交流,如ChatGPT这样的系统,能理解查询并给出连贯回答但不直接执行任务 [1] - Agent是具有"手、脚"的智能体,能进行思考、决策并执行具体任务 [2] - Chat强调"说",Agent强调"做" [3] 技术发展趋势 - 人类对"让机器替人干活"的需求持续存在,OpenAI通过plugin、Function Calling、Assistant API等动作推动LLM从纯对话向任务执行扩展 [4] - 智能音箱发展路径类似:从基础语音功能(如播放音乐)逐步扩展到支付互通、智能家居控制、儿童教育等场景,成为智能生态核心 [4][5] - AI+RPA技术推动智能客服向数字员工进化,体现AI从单一对话到"说做结合"的融合趋势 [5] - 未来生成式AI将融合Chat和Agent特点,形成兼具高质量对话与复杂任务执行能力的自动化系统 [6] AI Agent的技术变革 - 颠覆传统软件开发模式:从预先定义逻辑转向由LLM自主支配运行,实现运行时学习与调优 [7] - 核心模块包括Memory(记忆)、Tools(外部工具)、Planning(计划)和Action(行动) [7] - 当前学习路径分为OpenAI技术路线和开源技术路线,建议技术人员选择一条深入实践 [9] 典型AI Agent项目案例 - AutoGPT:可拆解用户目标为子任务,通过搜索、脚本执行等方式自主完成任务 [11][12] - JARVIS:采用"模型选择"机制,调用Huggingface专家模型处理多模态任务 [13][15] - MetaGPT:模拟软件公司结构,分配产品经理、工程师等角色协作完成编码任务 [16] 开发者生态与机会 - 工具/平台成熟为个体开发者提供新舞台,使AI原生应用开发门槛降低 [16] - 自动驾驶领域已形成近4000人社区,覆盖300+企业与科研机构,涉及30+技术栈(如BEV感知、SLAM、轨迹预测等) [19][21]
当我们谈大模型和vla岗位的时候,究竟有哪些内容?(附岗位)
自动驾驶之心· 2025-07-11 19:23
大模型与VLA技术差异 - 所有依赖大模型的方案都可归为大模型岗位 包括VLM和VLA等技术方向 关键技术涉及微调 轻量化 量化和部署等 [2] - VLA概念包含执行环节(Vision+Language+Action) 属于端到端技术范畴 当前行业存在两阶段(大模型+Diffusion)和单阶段(纯大模型)两种实现方案 [2] - 大模型在自动驾驶领域应用需进行场景适配 例如采用qwen等模型进行微调以提升场景理解与预测能力 [2] 岗位需求与薪资水平 - 大模型研发工程师岗位月薪范围30k-80k 工作地点覆盖深圳/上海 [2] - VLA/VLM大模型算法岗位月薪达40k-100k 工作地点包括北京/上海/杭州 要求3-5年自动驾驶或AI算法经验 [8] - 端到端/VLA工程师需参与驾驶系统全流程研发 包含数据集构建 模型调优及闭环评测系统开发 [6] 核心技术能力要求 - 需精通Transformer架构及多模态大模型训练 熟悉PyTorch/DeepSpeed等框架 具备轨迹预测或决策规划项目经验 [9] - 优先考虑顶会论文发表者(CVPR/ICCV等)或算法竞赛获奖者(ACM/IOI) 需掌握模仿学习/强化学习技术 [5][9] - 视觉大模型方向要求搭建数据pipeline 探索数据合成技术 优化垂直场景下的模型推理性能 [5] 前沿技术应用方向 - 研发重点包括千亿参数级大模型训练 驾驶场景生成式模型开发(Diffusion/LLM)以及多模态数据挖掘 [11] - 需探索大模型在自动驾驶的创新应用 如视觉-语言-行为的多模态决策系统 融合模仿学习与强化学习技术 [10] - 行业关注世界模型与仿真场景构建 要求熟悉nuScenes/Waymo等数据集 具备量产项目经验者更具竞争力 [11]
暑假打比赛!RealADSim Workshop智驾挑战赛正式开启,奖池总金额超30万(ICCV'25)
自动驾驶之心· 2025-07-11 17:42
自动驾驶仿真技术研讨会核心内容 1 研讨会背景与意义 - 高保真度仿真技术是解决自动驾驶算法测试成本高和安全隐患的关键 传统仿真器存在场景风格差异 离线数据集无法实现闭环测试的局限性[1] - 新视角合成(NVS)技术突破性在于基于真实数据构建闭环仿真环境 为动态交互场景评估提供新途径[1] 2 核心挑战与赛道设置 外插视角新视点合成赛道 - 聚焦外插视角渲染保真度问题 当前技术受限于训练数据视角覆盖范围 稀疏输入时外插视角质量不足[3] - 赛道设置多难度渲染挑战 重点评估变换车道 转向等自动驾驶关键场景的视角外插鲁棒性[3][4] 自动驾驶闭环仿真评估赛道 - 突破性体现在:首次实现完全闭环测试框架 弥合真实数据与交互评估的鸿沟 克服静态数据集无法模拟动态交互的缺陷[5] - 评估维度包括渲染场景真实感 以及算法在闭环环境中的性能表现 提供复杂场景基准测试可能[5][6] 3 赛事组织架构 - 奖项设置:创意奖9000美元 一等奖9000美元 二等奖3000美元[8][9] - 时间节点:2025年6月30日启动 8月31日提交截止 9月5日公布结果 9月20日技术报告截止[8] - 资源平台:提供Hugging Face数据集与提交样例 覆盖两个赛道技术资源[8] 4 行业价值定位 - 聚焦新视角合成与闭环评估两大核心技术难题 构建兼具挑战性和研究价值的比赛平台[10] - 目标推动全球自动驾驶技术向高阶发展 通过仿真技术突破加速算法迭代[11]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 14:46
具身智能综述与研究方向 - 文章整理了数十篇具身智能相关综述,涵盖数据集、评测、VLA、VLN、强化学习、基础模型、DP等多个方向,展示具身智能发展路线 [1] - 内容来自具身智能之心知识星球,提供近30+具身路线学习和近200家具身公司与机构成员交流机会 [9] 视觉-语言-动作(VLA)模型 - 从动作标记化视角综述VLA模型,探讨其在自动驾驶领域的应用 [2] - 分析VLA模型后训练与人类运动学习的相似性,包括进展、挑战和趋势 [2] - 综述VLA模型的概念、进展、应用和挑战 [5] - 针对具身AI的VLA模型进行系统调查 [7][8] 机器人基础模型与强化学习 - 探讨基础模型在机器人领域的应用、挑战和未来发展方向 [3] - 调查深度强化学习在机器人真实场景中的成功案例 [3] - 分析扩散策略在机器人操作中的分类、应用和未来趋势 [3] - 研究机器人操作中的模仿学习方法 [5] 具身工业机器人与神经科学启发 - 提出具身智能工业机器人的概念和技术框架 [4] - 开发受神经科学启发的具身智能体框架Neural Brain [4][5] 多模态感知与机器人导航 - 调查基于物理模拟器的机器人导航和操作技术 [5] - 研究目标导向导航中的多模态感知方法 [5] - 分析机器人视觉中的多模态融合和视觉语言模型 [6] - 探讨SE(3)-等变机器人学习和控制方法 [6] 生成式AI与机器人操作 - 调查生成式人工智能在机器人操作中的应用 [6] - 研究扩散模型在机器人操作中的进展 [5][6] 具身AI系统与数据集 - 开发通用型具身智能体标准和统一数据集 [9] - 探索从互联网视频中学习通用机器人技能的方法 [9] - 调查人形机器人远程操作技术 [9] - 研究基于基础模型的机器人学习向具身AI发展 [9]
传统规划控制不太好找工作了。。。
自动驾驶之心· 2025-07-11 14:46
行业趋势分析 - 自动驾驶规划控制岗位从传统逻辑兜底转向规则算法与端到端结合的技术路线[2] - 端到端和VLA(Vision-Language-Action)量产趋势正在挤压传统规划控制生存空间[2] - 2025年端到端技术进一步落地但传统规控在L4高安全性场景仍占主导地位[4] 岗位能力要求 - 基础能力需覆盖横纵联合/解耦框架、搜索/采样/运动学规划算法[4] - 差异化竞争力体现在不确定环境下的Contingency Planning和博弈式交互规划能力[4] - 端到端技术(一段式/二段式)、VLM/VLA与大模型结合成为必备技能[4][29] 课程核心价值 - 覆盖经典规控方案与端到端融合落地方案,包含2个可直接写入简历的工程项目[7][13] - 通过博弈交互式规划和防御式规划等头部公司重点研究方向提升竞争力[24][26] - 学完对标2-3年算法工程师经验,前两期学员入职华为/百度/蔚小理等企业[8][10] 课程体系设计 - 基础算法模块:搜索/采样/优化/深度学习等规划算法对比与应用场景选择[20] - 决策规划框架:路径-速度解耦、时空联合及数据驱动框架构建[21][22] - 端到端专项:分析VLM/VLA技术优势与局限性,探讨数据驱动收益最大化[29] - 面试闭环服务:简历修改+模拟面试+公司推荐,直击华为等大厂招聘标准[31][36] 技术落地方向 - 防御式规划(Contingency Planning)解决感知/定位/社会车意图不确定性[24] - 博弈论模型实现自车与他车轨迹联合优化,突破传统预测-规划链路局限[26] - 端到端系统与传统规控融合方案成为量产落地关键突破点[4][29] 教学资源配置 - 采用C++/Python双语言开发,代码开源并提供容器运行环境[15][17] - 直播+录播形式授课,配备VIP群答疑及3个月内持续服务[12][17] - 赠送《规划控制理论&实战课程》并配套500元简历修改服务[36]
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 09:14
课程核心价值 - 通过1v6精英小班模式快速掌握LLM/MLLM领域科研全流程,包括模型理论、代码实践、论文写作与投稿技巧 [1][5][10] - 提供经典与前沿Baseline资源,导师定制化分配研究idea,确保学员产出完整论文初稿 [6][7][20] - 系统性解决知识碎片化问题,帮助构建算法设计、创新思路及论文写作方法论体系 [10][22] 导师资质 - 毕业于知名计算机院校,具备计算机视觉、模型压缩、多模态大语言模型等领域的算法研究经验 [2] - 在CVPR/ICCV/EMNLP等顶会发表论文十余篇,担任CVPR/ICML/NeurIPS等会议审稿人,拥有多项发明专利 [3] 目标学员 - 自动驾驶领域硕博生(感知/预测/规划方向)、车企算法工程师、AI从业者 [11] - 需具备Python/PyTorch基础,熟悉深度学习框架,最好拥有4张4090显卡级别算力设备 [16][17] 课程设计 - 授课周期3.5-4个月,提供6个月答疑服务,采用腾讯会议直播+小鹅通回放形式 [19][21] - 产出对标SCI 1-4区或CCF A/B/C级别论文,定制化调整idea难度 [20][22] - 配套班主任督学服务,要求学员全勤参与、完成作业并保持学术诚信 [23] 技术门槛 - 最低硬件要求为2张4090显卡,建议掌握Linux开发调试及CUDA语法基础 [16][17] - 需通过1v1面试评估基础能力,课程深度根据学员水平动态调整 [14][16]
具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)
自动驾驶之心· 2025-07-10 20:40
遥操作概念与历史 - 遥操作起源于太空探索和军事领域,已有几十年历史,早期应用于手术机器人和远程挖掘机等场景[8][10] - 传统定义为通过设备远距离操控机器人,需具备空间隔离特性[10] - 具身智能兴起使遥操作重要性提升,因数据驱动范式需要真机采集实际场景数据[15][17] 当前遥操作技术方案 - 主流方案包括同构臂控制、VR操控和纯视觉IK解算[21][28] - 纯视觉IK方案因操作自由度高而受青睐,但存在遮挡问题[23][30] - 动捕系统面临精度挑战,需解决不同体型操作者与标准机器人的映射问题[73][78] 技术挑战与创新 - 系统延迟是关键瓶颈,整体需控制在40毫秒以内以避免眩晕[33][117] - 异构手部控制是难点,需设计新型映射算法解决结构差异[82] - 移动平台与机械臂协同控制尚未形成稳定技术路径[96][97] 行业应用与案例 - ALOHA系统创新性地整合移动操作最小配置与端到端算法框架[102] - 手术机器人采用主从臂设计实现精准控制,但存在视野遮挡问题[8][106] - 挖掘机遥操作通过1:1驾驶舱复刻实现85%现场操作效率[123] 未来发展方向 - 可能演进路径包括纯虚(无穿戴)和纯实(力反馈外骨骼)两种方案[37][45] - 需建立智能辅助系统,类似汽车ESP提供自动补偿功能[124][125] - 终极解决方案可能是脑机接口,直接传递运动意图[36][144] 人机交互设计 - 优秀系统应充分调动人手眼协调能力,建立自然操作直觉[53] - 3D显示技术(VR/裸眼)可提升操作沉浸感但面临眩晕挑战[113][114] - 语言、手势等多模态输入将共同构成未来交互方式[142][143] 机器人操作系统 - 当前ROS系统以功能模块为核心,未来需转向以人为中心设计[145][146] - 可能出现类似安卓的标准化平台,统一硬件接口和开发工具[146] - 行业存在封闭化趋势,各厂商开发私有中间件导致生态碎片化[154][155]