Workflow
自动驾驶之心
icon
搜索文档
不容易,谈薪阶段成功argue到了期望薪资~
自动驾驶之心· 2025-07-17 15:29
自驾领域HR面试核心考察点 - 稳定性:工作稳定且负责 避免频繁跳槽(1年内) [1] - 思维能力:逻辑推演和临场反应能力 情商要求高 [1] - 性格特质:乐观积极 团队意识 情绪稳定性强 [1] - 抗压能力:承受压力 失败后能重新开始 [1] - 沟通合作:大局观 主动表达观点 协作顺畅 [1] HR面试高频问题分类 沟通与综合能力 - 自我介绍需总分结构 突出优势且逻辑清晰 [2] - 优缺点回答需真诚 技术层面可提"爱钻牛角尖"等中性缺点 [2] 稳定性评估 - 离职原因需客观 避免负面评价前公司 [3] - 求职动机需结合应聘公司特点 强调成长性 [3] 冲突处理与态度 - 与主管分歧时优先自省 考虑全局视角 [4] - 对主管要求体现服从性 关键问题协商解决 [5] 薪资谈判技巧 - 期望薪资参考岗位范围 建议涨幅2k-3k [6] - 需明确薪资架构 含绩效/补贴/晋升渠道等细节 [6] 自动驾驶求职资源体系 专业题库 - 覆盖毫米波融合/BEV感知/规划控制等12个技术方向 各含百问专题 [12] - 具身智能领域含Nerf/轨迹预测/Occupancy感知等8类专项问题 [13][16] 行业研究支持 - 提供世界机器人报告/中国人形机器人蓝皮书等7份深度研报 [17] 实战面经案例 - 汇总理想/小鹏/华为等6家企业算法岗面试真题 [19][23] - 含决策规划/SLAM/行为预测等5类岗位复盘经验 [24] 配套服务 - 提供内推渠道 覆盖1000名行业从业者资源 [7] - 含简历优化/谈薪技巧/书籍推荐等4项增值服务 [21][22]
研二多发几篇论文,也不至于到现在这个地步……
自动驾驶之心· 2025-07-17 10:19
行业背景与需求 - 当前秋招季大厂提前批招聘倾向于项目经历丰富、研究成果突出且背景优秀的候选人[1] - 普通研究生在申博或就业时面临成果不足的困境,需通过高质量科研论文提升竞争力[1] - 高区位会议期刊论文发表难度大,导师放养导致学生在选题、框架、论证等环节进展缓慢[1] 公司服务与优势 - 提供12周标准化论文辅导流程,涵盖选题、实验设计、投稿全环节,承诺3个月完成SCI论文案例[2][4] - 拥有300+专职导师团队,均来自全球QS前100高校,顶会/子刊发表经验丰富,近3年辅导学员超400名,中稿率96%[3] - 服务覆盖CCF-A/B/C、SCI1-4区及EI会议,提供选题至中稿一站式支持[8] 目标用户群体 - 计算机专业硕博生(导师放养需创新思路)、人工智能从业者(提升职称竞争力)、考研申博留学人群(增强简历)[11] - 需建立科研体系、掌握算法理论与代码实践结合能力、深化baseline形成独立论文的研究者[10] 服务形式与附加价值 - 采用1v1在线授课+微信群答疑模式,配备班主任全程督学[12][15] - 优秀学员可获名校推荐信及企业内推机会(如阿里达摩院、华为诺亚方舟)[14] - 支持零基础学员通过6个月基础课程+文献带读产出小论文,提供精准导师匹配系统[13] 用户保障与灵活性 - 预收定金可试听名师课程,不满意可更换导师或退款[14] - 按目标期刊分区差异化定价,咨询后提供详细报价方案[14]
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体~
自动驾驶之心· 2025-07-17 10:19
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事增强和三阶段课程学习,显著提升了视觉-语言大模型在具身规划领域的性能,使开源模型Qwen2.5-VL在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等闭源模型 [3][4][14][16] - WAP框架的核心创新在于数据层显式绑定指令-环境上下文,并仅依赖视觉闭环(RGB+指令),无需特权信息(如动作成功信号),更贴近真实机器人应用场景 [6][12][16] - 该方法通过视觉、空间、功能、句法四维叙事增强和step-wise推理标注,解决了现有方法在陌生场景、多步目标和含糊措辞下的规划瓶颈 [8][9][16] 技术方法 四维认知叙事增强 - 视觉维度:增强物体外观描述(如"20 cm银色厨刀"),提升模型对物体属性的感知能力 [8] - 空间维度:精确定位物体位置(如"水池右侧贴墙的白柜"),强化空间关系理解 [8] - 功能维度:抽象工具-对象关系(如"用于喷洒的容器"),增强语义推理 [8] - 句法维度:解析复杂指代(如"那颗洗净的生菜"),解决语言歧义 [8] 三阶段课程学习 - Base阶段:学习原始指令-轨迹对的基础感知-动作映射 [13] - Env-Aware阶段:加入视觉+空间增强,提升场景理解能力 [13] - Concept-Aware阶段:整合功能+句法+全链推理,攻克高阶语义与长程规划 [13] 实验结果 主结果 - Qwen2.5-VL模型平均成功率提升60.7pp(2→62.7),长程任务成功率从0跃升至70,标准差STD更低(6.3),显示能力更平衡 [14] - InternVL3-8B模型同样实现显著提升(6→61.0),长程任务成功率增长17.5倍 [14] 消融实验 - 仅视觉/空间增强:平均成功率46.7,标准差17.1,显示过拟合感知但语义薄弱 [14] - 加入部分推理:平均成功率54.0,标准差9.3,能力趋稳但仍缺长程一致性 [14] - 完整四维+课程:成功率62.7,标准差6.3,实现性能与稳健性兼顾 [14] 案例分析 - 复杂指令"把冰镇的苹果切块后扔进垃圾桶":WAP-Qwen拆解出18步动作(取刀-切-冷藏-丢弃),正确处理隐式条件和因果顺序,而基线模型直接丢弃整苹果导致失败 [15] 未来方向 - 下沉至连续控制领域,连接低层执行模块 [17] - 拓展工业/户外等动态场景应用 [17] - 探索自监督叙事自进化,实现数据-模型闭环迭代 [17]
超越SOTA近40%!西交I2-World:超强OCC世界模型实现3G训练显存37 FPS推理~
自动驾驶之心· 2025-07-16 19:11
核心观点 - 西安交通大学团队提出I2-World框架,在4D OCC世界模型预测任务中实现SOTA性能,mIoU和IoU分别比现有方法提升25 1%和36 9% [1][9] - 该框架采用创新的I2-Scene Tokenizer解耦场景内/间分词化,结合I2-Former编码器-解码器架构,在保持3D分词器计算效率的同时实现4D时间建模能力 [5][7] - 系统计算效率突出:训练显存仅需2 9GB,推理速度达37FPS,显著优于依赖大语言模型或扩散模型的现有方案 [9][28] 技术架构 I2-Scene Tokenizer - 采用双分词器设计:场景内分词器通过多尺度残差量化保留空间细节,场景间分词器通过内存队列建模时间动态 [5][14] - 与传统单阶段分词器相比,仅增加轻量级卷积层即可实现性能提升,特征图压缩率与3D分词器相当但保留4D动态 [15][16] - 训练采用VAE流程,损失函数包含加权焦点损失、Lovasz损失和向量量化损失,仅监督场景内分词化以稳定训练 [12][18] I2-Former架构 - 突破传统GPT式自回归模型,采用编码器-解码器设计:场景内编码器通过交叉注意力聚合空间上下文,场景间解码器维护历史标记队列保证时间一致性 [6][19] - 引入变换矩阵作为条件信号,将场景状态映射到下一时间步,支持通过自车动作嵌入进行精细控制 [6][21] - 训练损失包含特征级MSE损失和变换矩阵分解监督,对不同预测帧施加差异化权重 [23] 性能表现 基准测试 - 在Occ3D-nuScenes数据集上,I2-World-O变体mIoU达39 73%,IoU达49 8%,分别超越前SOTA方法25 1%和36 9% [28] - 端到端I2-World-STC变体在mIoU指标上比OccWorld-STC提升50 9%,验证框架在相机输入场景的适应性 [28] - Waymo数据集零样本测试显示,在10Hz采样率下mIoU达43 73%,2Hz下仍保持36 38%,展现强泛化能力 [30][31] 效率指标 - 训练内存消耗仅2 9GB,较UniScene等方案降低60%以上,推理速度37FPS满足实时性要求 [9][28] - 消融实验显示,完整架构比无条件基线提升mIoU 22 61个百分点,而GPU内存仅增加1 11GB [36] 应用价值 - 变换矩阵设计支持双重控制策略:高层通过速度/转向命令控制轨迹,底层直接操作空间变换矩阵实现米级精度生成 [24][40] - 可视化验证显示在复杂交互场景中能准确仿真移动目标运动,如右转命令引发的卡车碰撞场景 [38][40] - 在Occ3D-Waymo的自动标注测试中性能显著优于复制粘贴基线,展现工业落地潜力 [31]
ICML'25 | 统一多模态3D全景分割:图像与LiDAR如何对齐和互补?
自动驾驶之心· 2025-07-16 19:11
核心观点 - 提出IAL(Image-Assists-LiDAR)方法,实现高效的多模态3D全景分割,通过激光雷达与相机图像的互补优势提升检测精度 [2] - IAL在nuScenes和SemanticKITTI数据集上达到SOTA性能,PQ指标最高提升5.1%,刷新户外3D全景分割纪录 [7][16] - 核心技术突破包括PieAug模态同步增强、GTF精准特征融合和PQG三重查询生成机制 [4][7] 方法创新 PieAug模态同步增强 - 首创通用LiDAR与图像数据同步增强范式,解决传统方法因单模态增强导致的多模态不对齐问题 [9] - 采用"切蛋糕"策略将场景切割为扇形切片,通过实例级和场景级混合增强实现跨模态对齐 [9] - 兼容现有LaserMix/PolarMix等LiDAR-only增强方法,提升训练效率与泛化性 [7][9] GTF特征融合模块 - 通过物理点投影避免虚拟中心点导致的特征偏差,构建尺度感知位置编码 [10] - 解决传统方法因体素级投影和传感器感受野差异导致的位置偏差与语义错误 [10] PQG查询初始化 - 三重查询生成机制:几何先验query(BEV热力图)、纹理先验query(2D VFM)、无先验query(可学习参数) [12] - 提升远距小目标召回率,避免传统可学习query陷入局部最优 [12] 性能表现 基准测试结果 - nuScenes-Panoptic官方榜单第一:PQ 82.0、PQT 84.3、RQ 89.3、SO 91.6,全面超越4DFormer(L+C)和LCPS(L+C) [14] - 单模态LiDAR分支性能:PQ 75.1,已超过EfficientLPS(62.4)和PolarNet(63.6) [14] 模块消融实验 - 完整IAL模型(PieAug+GTF+PQG)相比基线(无模块)PQ提升6.6个百分点(75.7→82.3) [15] - 单独GTF模块可使mloU提升4.4个百分点(73.8→78.2) [15] 可视化优势 - 显著提升紧邻目标区分度、远距目标检测能力以及FP/FN识别准确性 [17]
ICML 2025杰出论文出炉:8篇获奖,南大研究者榜上有名
自动驾驶之心· 2025-07-16 19:11
ICML 2025最佳论文奖项总结 - 本届ICML共评选出8篇获奖论文,包括6篇杰出论文奖和2篇杰出立场论文奖,南京大学研究者位列获奖名单[3] - 大会共收到12107篇有效投稿,接收3260篇,接收率26.9%,相比2024年9653篇投稿数量持续大幅增长[5] - ICML是全球人工智能领域三大顶会之一,与NeurIPS、ICLR并列,本届为第42届,在加拿大温哥华举行[3] 杰出论文奖主要研究成果 - 论文1提出自适应Token解码顺序策略,将掩码扩散模型在数独解题准确率从7%提升至90%,超越7倍参数量的自回归模型[8][10] - 论文2研究机器学习在政府项目中的应用,通过德国失业案例评估预测技术对福利分配的影响,为政策制定提供分析框架[11][13][14] - 论文3提出CollabLLM框架,通过多轮感知奖励增强人机协作,任务表现提升18.5%,用户满意度提高17.6%,减少10.4%用户时间[15][17][18][19] - 论文4分析语言模型创造性极限,证明多Token方法在生成多样性方面优于下一Token学习,提出噪声注入输入层的新方法[20][22][23] - 论文5从贝叶斯视角改进共形预测,提出基于贝叶斯求积的实用方案,提供更全面的损失范围表示[24][25][26][27] - 论文6调整分数匹配方法处理缺失数据,提出重要性加权和变分两种方法,分别在小样本低维和高维场景表现优异[28][30][31] 杰出立场论文奖核心观点 - 论文1建议改革AI会议评审系统,建立双向反馈机制和审稿人奖励系统,应对投稿量激增带来的评审质量挑战[35][36][39][40] - 论文2指出当前AI安全研究忽视对未来工作影响,主张建立以人为中心的全球治理框架,解决收入不平等和技术债务问题[41][44] 行业动态 - 自动驾驶领域技术社区已聚集近4000人,300+企业和科研机构参与,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等[47] - 专业课程涵盖端到端自动驾驶、大模型应用、BEV模型部署、轨迹预测等前沿方向,提供系统学习路径[48][49]
性价比极高!黑武士001:你的第一台自动驾驶全栈小车
自动驾驶之心· 2025-07-16 19:11
产品概述 - 黑武士001是一款面向科研与教学用途的自动驾驶全栈小车,原价34999元,当前预售支付定金1000元可抵扣2000元,并优先安排组装发货[1] - 产品定位为教研一体化轻量级解决方案,支持感知、定位、融合、导航、规划等全栈功能平台,采用阿克曼底盘设计[2] 核心功能 - 支持室内外多场景测试,包括地库建图、公园行驶、夜间行驶、上下坡等复杂环境[3][6][7][8][9][10][11] - 适用场景覆盖本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等教学需求[5] - 软件功能包含2D/3D目标检测、语义SLAM、多传感器融合SLAM、点云处理、车辆导航避障等17项核心技术[17] 硬件配置 - 传感器组合:Mid 360 3D激光雷达(FOV 360°×59°/测距40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m/精度≤2%)[12][20] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器,整机采用铝合金/不锈钢钣金结构[12][14] - 底盘参数:自重30kg、载荷30kg、最大速度2m/s、续航>4小时(50W电池/24V供电)[14] 软件系统 - 基于ROS框架开发,支持C++/Python语言,提供一键启动开发环境[16] - 深度相机驱动节点可输出RGB图像(1280×800@30fps)、深度图像及相机内参数据[31] - 支持手柄遥控模式,通过geometry_msgs::Twist消息控制线速度/角速度,参数可配置[32][34] 售后服务 - 提供1年非人为损坏保修服务,人为操作失误导致损坏可免费维修(需自付邮费)[39]
入职小米两个月了,还没摸过算法代码。。。
自动驾驶之心· 2025-07-16 16:46
自动驾驶行业趋势与职业发展 - 自动驾驶行业当前处于快速发展阶段,大模型与端到端技术成为核心方向[4][6] - 小米汽车在自动驾驶领域势头强劲,虽薪资水平中等但短期发展潜力较大[7] - 医学图像与工业检测领域技术门槛低于自动驾驶,可作为从业者备选方向[6] 求职与技能提升策略 - 实习经历需适当包装,重点突出与目标岗位相关的技术亮点[3][6] - 建议利用公司资源补充自动驾驶算法实践经验(如BEV、端到端),同时学习VLA、SFT等技术[6] - 需同步准备秋招与实习转正,多offer可增强薪资谈判能力[5][6] 技术研究方向与资源 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶为四大前沿方向[10] - 自动驾驶数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,包括NuScenes、BDD100K等主流数据集[25][26] - 扩散模型在自动驾驶中应用于场景生成、3D补全等任务,如DriveDreamer、MagicDriveDiT等创新方法[43] 社区与学习平台 - 知识星球提供自动驾驶课程、硬件资料及招聘信息,已形成学术-产品-就业闭环生态[8][62] - 社区目标3年内聚集万人规模,现有华为天才少年及领域专家入驻[8] - 会员可获取5000+干货内容、100+场行业直播及求职咨询等权益[62] 端到端自动驾驶进展 - 开源仓库收录E2E驾驶最新研究成果,涵盖感知、预测、规划全流程[45][49] - 特斯拉FSD验证了端到端模型可行性,但开环评估仍存争议[49] - 典型方法包括DriveGPT4(大模型驱动)、VADv2(概率规划)等[52][55]
三周年了!从自动驾驶到具身智能:一个AI教育平台的破局与坚守~
自动驾驶之心· 2025-07-16 16:14
公司发展里程碑 - 公司成立三周年,自动驾驶领域技术迭代加速,从端到端方案演进至VLM/VLA方案,索尔算力显著超越Orin芯片[2] - 业务矩阵扩展至四大IP:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心,覆盖知识星球、公众号、视频号等多平台,其中具身智能业务实现学术与产业双突破[2] - 业务模式从纯线上教育升级为全栈式服务,新增硬件教具、线下培训、求职招聘板块,杭州办公室设立并引入核心团队成员[2] 战略与价值观 - 盈利被视为结果而非唯一目标,行业影响力与帮助从业者构成核心内驱力[3] - 坚持"重全局,沿途下蛋"策略,平衡长期价值投入与短期商业化落地[4] - 通过《长安的荔枝》案例强调"逆人性做事"原则,严控课程质量,对不合格内容实施重录补录,建立1v1学员反馈机制[5][6] 行业竞争与创新 - 小米汽车案例显示市场时机非绝对门槛,执行质量决定成败[4] - 行业普遍存在短期红利追逐现象,公司差异化聚焦长期价值赛道[4] - 将创新能力视为核心壁垒,主张"创新才能每天吃第一口热饭",持续研发新体系对抗同业模仿[6][7] 业务转型与规划 - 启动科技公司转型,同步深耕AI教育领域,计划2025年下半年完成体系搭建并进入稳定运营期[8] - 教育产品目标定位降低AI学习门槛,覆盖自动驾驶、大模型等15个技术方向[9][10] 市场活动 - 推出三周年专项优惠:自动驾驶课程全线8折,知识星球新用户6折、老用户续费5折[10]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
自动驾驶之心· 2025-07-16 12:05
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型任务中存在触觉感知缺失的短板,难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型(VLM)的先验知识中已包含对物理交互的语义理解,通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架:首次将触觉感知作为原生模态引入VLA模型,构建多模态深度融合架构 [6] - 混合位置-力控制器:将力目标转化为位置调整指令,解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体:引入思维链推理机制,基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循:理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用:基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理:通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架 整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑:以位置控制为主,力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离:外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制:固定间隔评估任务进展,检测失败时启动推理 [18] - 推理流程:判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台:基于通用操作接口(UMI)配备双高分辨率触觉传感器 [19] - 同步机制:100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式:人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析 触觉感知的指令遵循实验 - 任务A(USB插拔):Tactile-VLA成功率达35%,充电器任务中达90% [22][23] - 力控制精度:USB任务中"轻柔地"施加0.51N力,"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率:90%-100%,域外物体达80%-100% [30] - 力调节策略:根据物体属性自主调整力度,如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务:Tactile-VLA-CoT成功率达80%,基线模型为0 [28][32] - 推理过程:首次尝试失败后自主增加剪切力并成功完成任务 [32]