自动驾驶之心

搜索文档
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 16:44
DeepSeek MoE技术演进 - 核心观点:DeepSeek在MoE架构上持续创新,从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分:专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计:用MoE替换FFN层,通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题,防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割:分割FFN隐藏维度增加专家数量,提升知识分解精度 [16] - 共享专家隔离:设置常激活专家捕获共同知识,减少其他专家冗余 [16] - 双层级负载均衡:专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制:限制每个token的激活专家分布在≤3台设备,降低通信成本 [28] - 通信负载均衡loss:公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略:超过设备容量的低权重token跳过计算,通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级:用Sigmoid替代Softmax,解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失:通过动态bias替代多层级负载loss,减少对主模型干扰 [40][41] - 序列级均衡loss:公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1:建立共享专家+细粒度专家框架,引入双层级负载均衡 [44] - V2:优化通信效率,新增设备路由限制和通信均衡机制 [44] - V3:门控函数革新,负载均衡策略简化,支持更大规模专家 [44]
具身智能,到了交卷的时刻了。。。
自动驾驶之心· 2025-07-06 11:10
具身智能行业动态 - 具身智能技术从概念验证进入量产阶段 多家公司正在推进商业化落地 如地瓜机器人演示的宇树Go2四足机器狗已展现实用化潜力 [2] - 行业竞争焦点从PR宣传转向技术可靠性 未来市场将更关注实际产品表现而非营销噱头 [2] 核心技术发展 - 感知能力升级聚焦多模态融合 触觉感知成为灵巧手领域突破重点 力控技术提升操作精细度30%以上 [4] - 大模型算法推动机器人认知进化 通过多模态数据训练提升自主学习与决策规划能力 轻量化模型设计需求迫切 需支持低算力跨平台部署 [4] - 仿真环境构建加速技术迭代 Sim2Real技术实现虚拟与现实数据对齐 物理世界建模覆盖光电气热等复杂变量 [4] - 本体形态多样化催生数据共通需求 需从双足/轮式等不同结构中抽象通用特征 [5] 技术社区生态 - 具身智能之心知识星球汇聚近200家头部企业与研究机构 包括斯坦福、清华等高校及优必选、小米等公司 [13] - 社区提供40+开源项目、60+数据集及主流仿真平台 覆盖强化学习、多模态大模型等16个技术方向 [13][18] - 行业资源包含30家研报汇总、零部件品牌库及国内外实验室名录 助力学术与产业对接 [17][20][22][26] 人才发展路径 - 自动驾驶与具身智能技术栈高度互通 视觉语言导航和DL-based SLAM成为转型热门方向 [69][72] - 行业处于探索期 对标自动驾驶2017-2018阶段 技术窗口期预计持续12-24个月 [72][73] - 职业转型建议优先选择头部厂商 薪资差异显著 初创公司总包可达70-80万但稳定性较低 [75] 技术应用案例 - 机械臂领域已实现LLM+MoveIt技术栈应用 需强化问题解决能力的项目包装 [68] - 仿真环境下推荐Isaac Sim框架延续项目 重点突破分层决策与端到端方案优化 [68][18] - VLM在机器人抓取规划中实现跨模态指令解析 需结合Transformer基础进行迁移 [69]
谷歌&伯克利新突破:单视频重建4D动态场景,轨迹追踪精度提升73%!
自动驾驶之心· 2025-07-05 21:41
核心观点 - 该研究提出名为"Shape of Motion"的技术,通过结合3D高斯撒点与SE(3)运动表示,实现单目视频动态场景的4D重建(3D空间+时间维度),在3D追踪精度上比现有方法提升73% [2][8][17] - 该方法具有实时新视角合成、全局一致3D追踪和处理复杂动态场景三大能力,可能彻底改变影视特效、游戏开发、自动驾驶等行业的工作流程 [4] - 技术采用3D高斯点作为场景表示基本单元,利用SE(3)运动基底表示场景运动,并整合单目深度图、长距离2D轨迹等数据驱动先验,形成全局一致的动态场景表示 [9][11][12] 技术细节 - 核心创新点包括:1) 低维运动表示 - 使用紧凑的SE(3)运动基底表示场景运动;2) 数据驱动先验整合 - 有效整合多种噪声监督信号 [9] - 每个3D高斯点参数包括规范帧中的3D均值、方向、尺度、不透明度和颜色,其运动轨迹通过共享的SE(3)运动基底表示 [10] - 优化过程采用双管齐下的损失函数:重建损失(包含RGB、深度和掩码约束)和运动约束(通过2D轨迹和刚性损失保持运动一致性) [13][14] 性能表现 - 在iPhone数据集上,3D追踪准确率(10cm阈值)达73.3%,比第二名高出10个百分点;2D追踪准确率达47%,新视角合成的PSNR指标达16.72 [17] - 在Kubric合成数据集上,3D追踪误差(EPE)低至0.16,比基线方法提升21% [20] - 硬件配置上,在A100 GPU上训练300帧视频仅需2小时,渲染速度可达40fps,实时性完胜传统NeRF方法 [14] 局限与展望 - 当前方法存在四大局限:1) 耗时优化 - 每场景需2小时训练;2) 视角局限 - 大视角变化时缺失生成能力;3) 相机依赖 - 纹理缺失场景可能失败;4) 人工干预 - 需用户标注运动物体掩码 [25] - 未来突破方向包括:1) 开发端到端前馈网络;2) 融入扩散模型处理大视角变化;3) 用SAM等模型实现全自动分割 [25] - 该研究突破了单目动态重建的三重边界:空间维度(全序列3D运动轨迹重建)、时间跨度(支持10秒以上长时运动追踪)和场景复杂度(处理多刚体运动的动态场景) [26]
最近才明白,智能驾驶量产的核心不止是模型算法。。。
自动驾驶之心· 2025-07-05 21:41
行业趋势与核心观点 - 智能驾驶量产开发进入深水区,模型算法是从0到10的关键,但从10到100的核心是海量自动标注数据[2] - 4D自动标注(3D空间+时间维度)成为行业刚需,人工精标因周期长、成本高难以满足量产泛化需求[2] - 端到端和LLM技术推动大规模无监督预训练+高质量数据集微调成为感知算法下一阶段方向[3] - 数据联合标注取代分开标注范式,适应智能驾驶算法发展需求[3] 4D自动标注技术难点 - 时空一致性要求高:复杂场景下动态目标跨帧标注易断裂[7] - 多模态融合复杂:需解决激光雷达、相机、雷达的坐标对齐和时延补偿[7] - 动态场景泛化难:交通参与者行为不确定性(如急刹)和环境干扰(如恶劣天气)增加挑战[7][8] - 效率与成本矛盾:高精度标注依赖人工校验,自动化算法在复杂场景精度不足[7] 动态障碍物标注流程 - 四大模块:离线3D目标检测、离线跟踪、后处理优化、传感器遮挡优化[5] - 主流方法:点云3D目标检测或激光-视觉(LV)融合提升检测性能[3] - 跟踪挑战:多帧串联时面临轨迹断裂、ID跳变等实际问题[4][11] 静态与OCC标注技术 - 静态标注依赖SLAM重建:通过全局clip道路信息避免单帧感知偏差[14] - OCC标注成行业标配:特斯拉Occupancy Network推动需求,需解决稠密化点云和跨传感器遮挡优化[15] 端到端标注与数据闭环 - 端到端真值生成整合动态障碍物、静态元素、可行驶区域和自车轨迹[16] - 数据闭环痛点:跨传感器/感知系统协同、场景泛化能力(如不同城市道路)[17][18] 技术应用与课程内容 - 课程覆盖动态障碍物检测、SLAM重建、静态/OCC标注、端到端全流程[8][11][14][15][16] - 实战案例:包括CVPR 2024的SAFDNet算法、DetZero时序后处理、DrivingGaussian闭环仿真[11][16] - 行业需求:数据驱动架构、标注算法性能验证、量产交付经验[17][18]
最新综述:从物理仿真和世界模型中学习具身智能
自动驾驶之心· 2025-07-05 21:41
具身智能与机器人研究前沿 - 实现强大具身智能的关键在于整合物理模拟器与世界模型 物理模拟器提供高保真训练环境 世界模型赋予机器人环境内部表征能力以支持预测规划与决策[3] - 物理模拟器与世界模型互补增强机器人自主性、适应性和泛化能力 外部模拟与内部建模相互作用弥合模拟训练与现实部署的差距[3] - 维护包含最新文献和开源项目的资源库 为具身AI系统发展提供全面视角并明确未来挑战[3] 智能机器人能力分级系统 - 提出智能机器人能力分级模型 涵盖从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0到IR-L4)[6] - 分级标准基于自主性、任务处理能力、环境适应性、社会认知能力等核心维度[7][10][11] - IR-L0为完全非智能程序驱动 IR-L1具备有限规则反应能力 IR-L2引入初步环境意识 IR-L3实现类人认知与协作 IR-L4为终极目标[14][15][16][17][19] 机器人移动性与操作技术 - 腿部运动技术从位置控制发展到力控关节结合强化学习 实现非结构化环境适应与高动态运动如奔跑跳跃[22] - 单手操作从预编程发展到基于学习的方法 灵巧手操作通过两阶段与端到端方法结合提升泛化能力[26] - 双手操作与全身协调通过大规模演示数据与基础模型实现 如ALOHA系列双手机器人精细操作[28] 主流物理模拟器对比 - Webots、Gazebo、MuJoCo等传统模拟器在复杂物理交互上存在局限 高端模拟器如Isaac系列支持GPU加速与多物理场[31][36] - 物理特性对比涵盖吸力建模、可变形物体仿真、流体动力学等维度 可微物理能力主要在科研导向模拟器中体现[32][36] - 渲染能力对比显示NVIDIA系模拟器在光线追踪和PBR上表现突出 轻量级模拟器主要用于功能验证[34][35][41] 世界模型技术演进 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[45] - 代表性架构包括循环状态空间模型、联合嵌入预测架构、Transformer-based模型、自回归生成模型和扩散生成模型[46][47][49][50][51] - 核心应用包括神经模拟器生成仿真数据、动态模型支持预测规划、奖励模型替代手工设计[52][56][64] 自动驾驶与铰接式机器人应用 - 自动驾驶世界模型通过神经模拟器生成高保真场景 动态模型学习环境动态 奖励模型评估安全性[60][64] - 铰接式机器人世界模型通过神经模拟器支持模拟到现实迁移 动态模型实现动作规划 奖励模型减少手工设计[65][68] - 技术趋势包括3D结构化建模、多模态融合、端到端集成等方向[67][71] 未来挑战与方向 - 共性挑战包括高维感知、因果推理缺失、实时性与计算成本等问题[69][71] - 前沿方向聚焦3D结构化世界模型、多模态基础模型、轻量化高效推理等技术[71][75] - 工业应用涵盖自动驾驶、服务机器人、科学发现等领域 推动技术落地与商业化[75]
肝了几个月!手搓了一个自动驾驶全栈科研小车~
自动驾驶之心· 2025-07-05 21:41
产品发布与定价 - 黑武士001自动驾驶教研小车正式开售,原价34999元,支付定金1000元可抵扣2000元[1] - 产品定位为面向科研与教学的轻量级全栈解决方案,支持感知、定位、融合、导航、规划等多功能平台[2] 产品功能与应用场景 - 测试场景覆盖室内、室外、地库等多种环境,功能包括点云3D目标检测、2D/3D激光建图、夜间行驶等[3][7][9][11][13][15][17] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等[5] - 支持2D/3D目标检测与分割、SLAM技术、车辆导航避障等24项核心功能[24] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达(FOV360°*59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[17][27] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器,阿克曼底盘系统[17] - 车体尺寸620×400×320mm,自重30kg,最大载荷30kg,续航>4小时,最高速度2m/s[21] 软件系统 - 基于ROS框架开发,支持C++和Python语言编程[23] - 提供一键启动开发环境,包含深度相机驱动、手柄控制等脚本[33][38][39] - 支持通过rviz可视化工具实时监控传感器数据,如激光雷达点云等[36][43] 售后服务 - 提供1年非人为损坏保修服务,人为损坏可付费维修[46] - 提供完整产品说明书,涵盖硬件参数、软件配置及维修指南[23][26]
快秋招了,慌得一批!自动驾驶算法方向去哪里找面经和题目啊?
自动驾驶之心· 2025-07-05 17:35
AutoRobo知识星球概述 - 核心定位为自动驾驶、具身智能、机器人方向的求职交流社区 国内首个以该领域为核心的垂直平台[1][3] - 已聚集近1000名成员 涵盖地平线、理想汽车、华为、小米汽车等头部企业社招人员及2024-2025届校招群体[3] 核心服务内容 求职资源 - 提供算法/开发/产品等岗位的校招、社招、实习信息 与公司直接合作获取第一手招聘动态[5] - 包含内推渠道、简历优化等增值服务 覆盖自动驾驶与具身智能全领域岗位[3] 专业知识库 - 自动驾驶领域汇编毫米波视觉融合、BEV感知、规划控制等12类"一百问"技术专题[10] - 具身智能领域涵盖多模态3D检测、Diffusion Policy、VLN导航等9大技术模块的面试题库[11][13] 行业研究支持 - 整合《世界机器人报告》《中国人形机器人发展蓝皮书》等7份行业研报 系统分析技术路线与市场前景[16][17] - 提供产业链上下游发展状态研判 辅助职业方向选择[16] 面试实战资源 - 收录滴滴、英伟达、美团等企业算法岗面经 覆盖社招/校招/实习全场景的成败案例分析[19][20] - 专项整理谈薪技巧与HR面应答策略 包含岗位薪酬谈判关键话术[22][25] 运营模式 - 采用付费社群形式 会员日均成本0.3元 提供全流程求职服务支持[26] - 内容生产依托3年技术自媒体积累 整合行业研报、企业真题等多元资源[1][3]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
名校合作、多年技术积累的手持扫描仪是什么样的?
自动驾驶之心· 2025-07-05 17:12
产品概述 - GeoScan S1是一款手持三维激光扫描仪,主打轻量化设计和高性价比,核心功能包括厘米级精度的三维场景实时重构和多模态传感器融合 [1] - 设备采用Ubuntu系统,集成电源手柄,可通过D-TAP转XT30接口为雷达、摄像头及主控板供电 [2] - 由同济大学刘春教授团队与西北工业大学产业化团队联合开发,经过上百个项目验证 [4] 核心技术参数 - **扫描性能**:每秒生成20万点云,测量距离70米,水平视角360°,支持20万平米以上大场景扫描 [1][23][24] - **精度指标**:相对精度优于3cm,绝对精度优于5cm,采用微秒级同步技术实现多传感器数据融合 [16][28][29] - **硬件配置**: - 搭载Intel N5095处理器(4核2.9GHz)、16GB内存/256GB存储 [16] - 集成Livox Mid-360激光雷达、Intel D435i深度相机、RTK UM982定位模块及双广角鱼眼相机 [17] - 航空铝外壳,整机重量1.9kg(含88.8Wh电池),续航3-4小时 [16][20] 功能特性 - **实时建模**:支持彩色点云输出(PCD/LAS/PLY格式),结合SLAM算法实现动态场景构建 [16][21] - **扩展能力**:配备千兆网口、双USB 3.0接口及Micro SD卡槽,支持ROS系统开发 [16][17] - **场景适应性**:适用于写字楼、隧道、矿场等复杂环境,通过25°倾角雷达设计提升采集效率 [9][32][33] 应用场景 - **无人化作业**:可适配无人机、无人车等平台实现跨平台集成 [38] - **数字孪生**:选配3D高斯模块可实现高保真实景还原,支持地理信息采集与工程监控 [44][46][48] 产品版本与定价 - 基础版19800元起,深度相机版23800元,3DGS在线版39800元,离线版67800元 [51]
具身领域的目标导航到底是什么?主流算法盘点~
自动驾驶之心· 2025-07-04 18:27
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划 [1] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模与动态决策的交叉突破 [1] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [2] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列实现药品、文件和餐食的自主配送 [2] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成导航任务,智元机器人集成目标驱动导航模块,特斯拉Optimus展示端到端操作能力 [2] 技术演进与生态发展 - 基于Habitat仿真的具身导航生态自2020年CVPR提出点导航基准以来,逐步扩展至图像导航、目标导航及移动抓取任务,形成闭环评测体系 [3] - 视觉预训练模型提升特征泛化能力,分布式强化学习框架使PointNav任务SPL指标显著提升,大语言模型解决部分开放词汇导航难题 [3] - 当前技术进展呈现梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍面临挑战 [3] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中取得突破,SPL指标逼近人类表现 [4] - 第二代模块化方法通过显式构建语义地图,在零样本目标导航任务中展现优势,未见物体场景下成功率提升明显 [4] - 第三代LLM/VLM融合方法引入大语言模型的知识推理能力,提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口 [6] 技术挑战与学习痛点 - 目标驱动导航需掌握自然语言处理、计算机视觉、强化学习和场景图相关知识,学习路径碎片化且论文数量繁多 [8] - 缺乏系统实战指导和高质量文档,Habitat生态的导航研究入门难度较高 [8] 课程特点与大纲 - 课程基于Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [9][10] - 课程涵盖目标驱动导航理论基础、Habitat仿真生态解析、三代技术方法论及实战环节,最终聚焦VLFM算法复现与真实场景部署 [14][15][16][17][18] - 课程进度安排为3个月,覆盖端到端方法、模块化架构及LLM/VLM驱动系统的理论与实践 [24][25] 目标学员与预期成果 - 目标学员包括机器人抓取领域从业人员、具身智能研究者、传统CV或自动驾驶转行者等,需具备Python和PyTorch基础 [23] - 预期成果包括掌握主流框架复现能力、零样本导航技术落地、Sim2Real部署流程理解及独立开展算法改进的能力 [25]