Workflow
自动驾驶之心
icon
搜索文档
只因一个“:”,大模型全军覆没
自动驾驶之心· 2025-07-17 20:08
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)普遍存在被简单符号(如冒号、空格)或推理开头语(如"Thought process:"、"解")欺骗的问题,导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性,中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型(如Multi-sub RM、Omni-Judge)和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系,7B-14B参数模型表现最佳,32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应,使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集,结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调,跨数据集测试中对"万能钥匙"的假阳性率接近0%,与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露,依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究,严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源,数据集和模型链接发布于Hugging Face平台 [48]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一~
自动驾驶之心· 2025-07-17 20:08
人工智能从虚拟空间向物理世界的转变 - 人工智能正从虚拟互联网空间向真实物理世界迈进 核心挑战是赋予智能体对三维空间的理解能力 实现自然语言与物理环境的对齐 [3] - 现有3D空间理解模型依赖静态观察 缺乏主动探索行为建模 清华大学等团队提出统一空间理解与主动探索的新型模型 被ICCV 2025接收并获满分评价 [3] 具身导航任务的关键挑战 - 具身导航要求智能体根据人类指令在复杂物理空间中找到目标位置 需同时具备"听懂任务"和"会探索"的能力 [5] - 导航过程包含理解与探索两个交织步骤 类似人类导航时的方向感与主动探索行为 二者互相推动交替进行 [5] 研究难点与核心思路 - 主要研究难点包括实时语义表征构建 探索-理解协同训练目标设计 以及高效虚实结合数据采集流程 [7][11] - 核心思路是将具身导航建模为探索与视觉落地协同进行的闭环过程 强化学习与3D视觉语言模型能力统一 [8][14] 模型设计与实现 - 模型包含在线空间记忆构建与空间推理决策两大模块 通过动态空间记忆库实现结构化空间知识持续更新 [17][18] - 采用虚实结合数据策略 融合ScanNet和HM3D场景数据 构建超90万条导航轨迹和上千万语言指令 覆盖多种任务类型 [23][25] 实验结果与性能表现 - 在GOAT-Bench测试中成功率达52.2% 48.4%和47.2% 较现有方法最高提升20% 展现多模态理解与长期规划优势 [27] - SG3D-Nav任务中所有指标显著提升 s-SR达23.8 验证任务规划与长期记忆能力 [28][29] - 协同训练策略VLE在OVON GOAT和SG3D任务中分别提升5.5% 13.9%和5.0%成功率 [30] 技术应用与行业意义 - 模型在真实机器人上验证有效 为具身智能提供新思路 推动AI从屏幕走向物理世界的关键转型 [40][42] - 构建国内首个具身智能全栈学习社区 覆盖近40+开源项目和60+数据集 形成专业开发者生态 [51]
近半年「自动驾驶」篇强化学习论文推荐~
自动驾驶之心· 2025-07-17 20:08
自动驾驶强化学习研究进展 核心观点 - 强化学习(RL)在自动驾驶领域展现出巨大潜力,可提升车辆安全性、可靠性和智能化水平[3] - 2025年精选的10篇RL应用论文聚焦实际挑战与创新解决方案,涵盖轨迹规划、决策制定、仿真训练等方向[4][7] - 技术突破包括:3DGS仿真训练、VLM与RL融合、GRPO优化等,部分成果性能超越传统方法35%[10][26][35] 关键技术突破 轨迹规划 - CarPlanner采用自回归结构和生成-选择框架,在nuPlan数据集上超越IL和规则方法的SOTA表现[9] - ReCogDrive结合VLM与扩散规划器三阶段训练,在NAVSIM基准达到89.6 PDMS,较纯视觉SOTA提升5.6分[17][19] 决策系统 - RRL-SG通过对抗摄动训练和RSS安全掩码,实现策略鲁棒性与碰撞安全双重保障[13] - LGDRL框架引入LLM专家指导,任务成功率90%,学习效率显著优于基线算法[23][24] - AlphaDrive基于GRPO奖励优化,仅用20%数据即超越SFT方法35%性能[26][28] 仿真训练 - RAD利用3DGS技术构建闭环训练环境,碰撞率较IL方法降低3倍[10] - RIFT通过双阶段仿真框架提升交通场景逼真度,采用dual-clip机制增强训练稳定性[33][36] 基础理论研究 - D2RL通过状态编辑解决高维空间训练难题,获Nature封面论文并提升测试效率10³–10⁵倍[42][43][44] - 同济大学综述系统分析RL在运动规划中的应用,提炼关键设计经验与前沿挑战[29][30] 多模态融合 - Drive-R1通过长/短COT数据集训练实现视觉推理与轨迹规划对齐,在nuScenes创SOTA记录[35][37] - 快慢架构整合LLM指令解析与RL实时决策,碰撞率降低同时更贴合用户偏好[41] 行业影响 - IEEE引用2600+的综述推动RL技术现实部署,覆盖控制器优化、路径规划等6大应用方向[43] - 4000人技术社区聚集300+企业与机构,形成30+技术栈的完整学习体系[47][48]
是的,三周年了!!!
自动驾驶之心· 2025-07-17 20:08
公司发展里程碑 - 三周年是重要里程碑 自动驾驶领域技术迭代迅速 从端到端方案发展到VLM和VLA方案 英伟达Thor芯片算力达2000 TOPS 较Orin的254 TOPS实现大幅提升 [1] - 已建立四大IP矩阵 包括自动驾驶之心、具身智能之心、3D视觉之心、大模型之心 覆盖知识星球、公众号、视频号、哔哩哔哩、知乎等平台 其中具身智能和大模型为第三年新增方向 [1] - 业务模式从纯线上教育拓展至硬件教具、线下培训、求职招聘等全栈服务 在杭州设立线下办公室并引入新团队成员 [1] 经营理念与战略 - 反对短期功利主义 强调长期价值创造 通过平台影响力驱动行业发展是核心内驱力 [2] - 采用"重全局 沿途下蛋"策略 既投入长期价值项目 也实现阶段性商业化场景 [4] - 坚持创新与执行力 认为持续创新能获得先发优势 深度思考才能输出有价值内容 [7] 行业观察与案例 - 小米汽车案例显示入局时机非绝对关键 执行方式才是破局重点 [4] - 自媒体行业存在内容质量管控挑战 需直面问题并采取重录补录等补救措施 [6] - 行业普遍存在模仿现象 但创新才能持续引领发展 [7] 业务进展与规划 - 新增硬件业务、论文辅导和求职服务 实现教育科技化转型 [1][9] - 计划2025年下半年完成教育体系搭建 进入稳定运营期 [9] - 推出三周年优惠活动 自动驾驶课程8折 知识星球新会员6折 老会员续费5折 [12][14] 内容质量管控 - 严格把控课程质量 针对学员反馈的问题采取1v1沟通和内容重制措施 [6] - 践行"逆着人性做人 顺着人性做事"原则 拒绝敷衍应对内容质量问题 [6][7]
ICCV'25 | 南开提出AD-GS:自监督自动驾驶高质量闭环仿真,PSNR暴涨2个点~
自动驾驶之心· 2025-07-17 19:10
AD-GS框架 - 南开大学联合团队提出AD-GS框架,通过可学习B样条曲线与三角函数运动建模结合对象感知分割,实现自监督自动驾驶场景的高质量渲染,在KITTI数据集上PSNR提升至29.16(75%训练数据),显著优于PVG的27.13 [1][5] - 创新点包括:动态高斯的局部/全局拟合方法、基于伪2D分割的场景建模(区分物体/背景)、可见性与物理刚性正则化设计,提升噪声伪标签下的鲁棒性 [5] - 实验结果显示AD-GS在PSNR(33.91)、SSIM(0.927)、LPIPS(0.228)等指标上优于StreetGS、4DGF等基线模型 [6] FiM轨迹预测框架 - 香港科技大学团队提出FiM框架,通过奖励驱动的意图推理(QIRL)和双向选择性状态空间模型(Bi-Mamba),在Argoverse 1数据集实现Brier Score 0.6218(单模型最优),nuScenes数据集minADE₆达0.88(当前榜单第一) [7][10] - 采用"先推理后预测"策略,将行为意图作为空间引导融入预测过程,分层DETR-like解码器提升轨迹准确性 [10] - 实验结果:FiM在minADE6(0.8296)、minFDE6(1.2048)、Brier score(0.6218)等指标优于DenseTNT、HiVT等模型,nuScenes数据集上minADE5(0.88)和MR5(0.31)表现突出 [12][14] IANN-MPPI路径规划方法 - 本田研究所提出交互感知神经网络增强型MPPI框架,密集车流汇入场景成功率提升至67.5%(较非交互基线高22.5%),变道时间缩短10秒(31.83秒→21.40秒) [14][17] - 关键创新:基于样条先验的MPPI采样增强车道变换效率,实时并行计算(0.1秒/帧) [17] - 仿真结果显示,Cooperative行为模式下成功率100%,Planning Cost最低达4.40±1.48,采用样条先验的MPPI版本比无先验版本合并时间减少32.8% [20][21]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-17 19:10
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术发展出多分支 包括基于感知的UniAD 基于世界模型的OccWorld 基于扩散模型的DiffusionDrive 以及大模型驱动的VLA方向 [9] 技术挑战与行业需求 - 端到端技术需掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等跨领域知识 学习路径复杂且论文碎片化 [5] - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 小米ORION等VLA项目推动行业预研热潮 [2][20] - 学术界与工业界持续探索技术边界 但高质量文档缺失 实战指导不足 影响技术落地效率 [5][26] 课程核心内容设计 - 课程覆盖端到端发展史 技术范式比较 数据集评测等基础内容 重点解析BEV感知 扩散模型 VLM等背景知识 [11][12] - 二段式端到端章节分析PLUTO CarPlanner等经典算法 对比一段式方案的优缺点 [12] - 精华章节聚焦一段式端到端 详解UniAD PARA-Drive OccLLaMA DiffusionDrive等前沿工作 配套Diffusion Planner实战 [13][15][17] - VLA方向选取ORION OpenDriveVLA等案例 结合BEV 扩散模型 强化学习技术展开实战 [20] 技术框架与实战应用 - 课程构建端到端技术框架 帮助学员分类论文 提取创新点 形成研究体系 [7] - 实战环节包括Diffusion Planner代码复现 RLHF微调大作业 目标为达到1年算法工程师水平 [17][22][27] - 技术栈覆盖Transformer CLIP LLAVA等基础模型 强化学习RLHF GRPO等进阶方法 [18] 行业影响与人才需求 - 端到端技术推动自动驾驶量产方案革新 主机厂加速布局算法预研与交付 [23] - 课程面向具备自动驾驶基础及Python/PyTorch能力者 目标匹配企业实习 校招 社招需求 [24][27] - 技术掌握后可应用于场景生成 闭环仿真 多模轨迹预测等实际场景 提升工业落地能力 [15][17]
暑假打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛启动~
自动驾驶之心· 2025-07-17 15:29
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉、图形学等前沿方法创新,并促进神经渲染、场景优化和机器人抓取等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等多家单位联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括国内研究团体、企事业单位及高校师生,团队不超过5人,每人仅能加入1个团队 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分阶段进行,包括数据集发布、结果提交和评审,最终在PRCV2025大会上颁奖 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极提供8卡H800 GPU算力支持 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景中的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项与知识产权 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖 [25] - 参赛方案知识产权归团队所有,数据仅限竞赛使用,禁止扩散,组织方承诺保密 [29] 相关会议PRCV2025 - PRCV2025为国内模式识别与计算机视觉顶级会议,涵盖学术前沿、产业应用与技术创新,投稿截止2025年6月30日 [27][30] - 会议由四大国家级学会联合主办,上海交通大学承办,Springer出版论文集并被EI/ISTP检索 [31][32]
不容易,谈薪阶段成功argue到了期望薪资~
自动驾驶之心· 2025-07-17 15:29
自驾领域HR面试核心考察点 - 稳定性:工作稳定且负责 避免频繁跳槽(1年内) [1] - 思维能力:逻辑推演和临场反应能力 情商要求高 [1] - 性格特质:乐观积极 团队意识 情绪稳定性强 [1] - 抗压能力:承受压力 失败后能重新开始 [1] - 沟通合作:大局观 主动表达观点 协作顺畅 [1] HR面试高频问题分类 沟通与综合能力 - 自我介绍需总分结构 突出优势且逻辑清晰 [2] - 优缺点回答需真诚 技术层面可提"爱钻牛角尖"等中性缺点 [2] 稳定性评估 - 离职原因需客观 避免负面评价前公司 [3] - 求职动机需结合应聘公司特点 强调成长性 [3] 冲突处理与态度 - 与主管分歧时优先自省 考虑全局视角 [4] - 对主管要求体现服从性 关键问题协商解决 [5] 薪资谈判技巧 - 期望薪资参考岗位范围 建议涨幅2k-3k [6] - 需明确薪资架构 含绩效/补贴/晋升渠道等细节 [6] 自动驾驶求职资源体系 专业题库 - 覆盖毫米波融合/BEV感知/规划控制等12个技术方向 各含百问专题 [12] - 具身智能领域含Nerf/轨迹预测/Occupancy感知等8类专项问题 [13][16] 行业研究支持 - 提供世界机器人报告/中国人形机器人蓝皮书等7份深度研报 [17] 实战面经案例 - 汇总理想/小鹏/华为等6家企业算法岗面试真题 [19][23] - 含决策规划/SLAM/行为预测等5类岗位复盘经验 [24] 配套服务 - 提供内推渠道 覆盖1000名行业从业者资源 [7] - 含简历优化/谈薪技巧/书籍推荐等4项增值服务 [21][22]
研二多发几篇论文,也不至于到现在这个地步……
自动驾驶之心· 2025-07-17 10:19
行业背景与需求 - 当前秋招季大厂提前批招聘倾向于项目经历丰富、研究成果突出且背景优秀的候选人[1] - 普通研究生在申博或就业时面临成果不足的困境,需通过高质量科研论文提升竞争力[1] - 高区位会议期刊论文发表难度大,导师放养导致学生在选题、框架、论证等环节进展缓慢[1] 公司服务与优势 - 提供12周标准化论文辅导流程,涵盖选题、实验设计、投稿全环节,承诺3个月完成SCI论文案例[2][4] - 拥有300+专职导师团队,均来自全球QS前100高校,顶会/子刊发表经验丰富,近3年辅导学员超400名,中稿率96%[3] - 服务覆盖CCF-A/B/C、SCI1-4区及EI会议,提供选题至中稿一站式支持[8] 目标用户群体 - 计算机专业硕博生(导师放养需创新思路)、人工智能从业者(提升职称竞争力)、考研申博留学人群(增强简历)[11] - 需建立科研体系、掌握算法理论与代码实践结合能力、深化baseline形成独立论文的研究者[10] 服务形式与附加价值 - 采用1v1在线授课+微信群答疑模式,配备班主任全程督学[12][15] - 优秀学员可获名校推荐信及企业内推机会(如阿里达摩院、华为诺亚方舟)[14] - 支持零基础学员通过6个月基础课程+文献带读产出小论文,提供精准导师匹配系统[13] 用户保障与灵活性 - 预收定金可试听名师课程,不满意可更换导师或退款[14] - 按目标期刊分区差异化定价,咨询后提供详细报价方案[14]
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体~
自动驾驶之心· 2025-07-17 10:19
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事增强和三阶段课程学习,显著提升了视觉-语言大模型在具身规划领域的性能,使开源模型Qwen2.5-VL在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等闭源模型 [3][4][14][16] - WAP框架的核心创新在于数据层显式绑定指令-环境上下文,并仅依赖视觉闭环(RGB+指令),无需特权信息(如动作成功信号),更贴近真实机器人应用场景 [6][12][16] - 该方法通过视觉、空间、功能、句法四维叙事增强和step-wise推理标注,解决了现有方法在陌生场景、多步目标和含糊措辞下的规划瓶颈 [8][9][16] 技术方法 四维认知叙事增强 - 视觉维度:增强物体外观描述(如"20 cm银色厨刀"),提升模型对物体属性的感知能力 [8] - 空间维度:精确定位物体位置(如"水池右侧贴墙的白柜"),强化空间关系理解 [8] - 功能维度:抽象工具-对象关系(如"用于喷洒的容器"),增强语义推理 [8] - 句法维度:解析复杂指代(如"那颗洗净的生菜"),解决语言歧义 [8] 三阶段课程学习 - Base阶段:学习原始指令-轨迹对的基础感知-动作映射 [13] - Env-Aware阶段:加入视觉+空间增强,提升场景理解能力 [13] - Concept-Aware阶段:整合功能+句法+全链推理,攻克高阶语义与长程规划 [13] 实验结果 主结果 - Qwen2.5-VL模型平均成功率提升60.7pp(2→62.7),长程任务成功率从0跃升至70,标准差STD更低(6.3),显示能力更平衡 [14] - InternVL3-8B模型同样实现显著提升(6→61.0),长程任务成功率增长17.5倍 [14] 消融实验 - 仅视觉/空间增强:平均成功率46.7,标准差17.1,显示过拟合感知但语义薄弱 [14] - 加入部分推理:平均成功率54.0,标准差9.3,能力趋稳但仍缺长程一致性 [14] - 完整四维+课程:成功率62.7,标准差6.3,实现性能与稳健性兼顾 [14] 案例分析 - 复杂指令"把冰镇的苹果切块后扔进垃圾桶":WAP-Qwen拆解出18步动作(取刀-切-冷藏-丢弃),正确处理隐式条件和因果顺序,而基线模型直接丢弃整苹果导致失败 [15] 未来方向 - 下沉至连续控制领域,连接低层执行模块 [17] - 拓展工业/户外等动态场景应用 [17] - 探索自监督叙事自进化,实现数据-模型闭环迭代 [17]