自动驾驶之心

搜索文档
AI Day直播 | 冠军方案BridgeVLA(CVPR'25)
自动驾驶之心· 2025-06-30 20:33
根据提供的文档内容,未发现可总结的行业或公司研究相关核心观点及具体数据,文档仅包含直播和内容获取的转引导向信息 [1]
ICCV 2025!复旦BezierGS:利用贝塞尔曲线实现极简标注驾驶场景SOTA重建~
自动驾驶之心· 2025-06-30 20:33
动态城市场景重建技术 - 复旦大学团队提出BezierGS方法,利用可学习贝塞尔曲线表示动态目标运动轨迹,消除对高精度目标标注的依赖[4][8] - 该方法引入对动态目标渲染的额外监督和曲线间一致性约束,实现场景元素的准确分离和重建[4][14] - 在Waymo和nuPlan数据集上实验表明,BezierGS在动态和静态场景重建及新视角合成方面优于现有方法[4][14] 技术优势与创新 - 使用贝塞尔曲线显式建模动态目标轨迹,可自动校准位姿误差,提升大规模场景适用性[8][14] - 引入分组曲线一致性损失,增强同一目标高斯基元间的几何约束[14][27] - 动态渲染损失确保动态目标仅由动态高斯基元贡献,实现更彻底的前景-背景分离[28][44] 性能表现 - 在Waymo数据集上,BezierGS新视角合成PSNR提升1.87dB,SSIM提高0.014,LPIPS降低8%[37] - 在nuPlan数据集上,PSNR提高3.04dB,SSIM提高0.036,LPIPS降低16.35%[41] - Dyn-PSNR指标显著提升,Waymo上提高2.66dB,验证动态内容渲染优势[37][41] 应用价值 - 高质量街景重建可降低自动驾驶数据采集成本,为感知、预测等任务提供真实可控的仿真环境[5][6] - 减少对bounding box精确性的依赖,解决现有数据集标注不精确的问题[6][12] - 为闭环仿真评估创建高质量环境,支持安全经济地仿真关键极端场景[7] 技术对比 - 相比基于NeRF的方法,BezierGS利用3DGS技术保持高渲染速度同时实现优越质量[10] - 相比S3Gaussian和PVG等自监督方法,贝塞尔曲线提供更显式和合理的轨迹表示[12][45] - 相比依赖手动标注框的方法,在nuPlan等标注不精确场景中表现更优[12][41]
「走出新手村」十次 CV 论文会议投稿的经验总结
自动驾驶之心· 2025-06-30 20:33
论文生产发表流程 - 深度学习论文生产流程包括从想法到实验扩充、撰写修改、投稿审稿、反驳修改等环节,通常需要经历多次打磨和修改[3] - 论文投稿后若未因格式等问题被直接拒绝,将进入审稿阶段,由三位审稿人给出意见反馈,作者需撰写一页反驳并等待最终结果[4] - 论文录用率通常在六分之一到四分之一之间,大多数论文会经历多次投稿和修改过程,形成所谓的"斐波那契投稿法"[4][5] 写好论文的意义 - 论文是传达思想的载体,帮助作者严格完成工作并明确创新点,同时为后人提供改进基础[7] - 高质量论文具有长期影响力,可能成为学者科研成就的代表作,而低质量论文可能误导他人或成为黑历史[7] - Simon Jones推荐通过写论文来监督研究进程,在写作过程中发现问题并补充实验[7] 创新点和论文核心 - 创新性(novelty)是论文关键,可表现为新问题、新发现或颠覆理论,MXNet作者李沐提出创新性=影响范围×有效性×新颖性[10] - 衡量创新性常见错误包括:认为复杂即创新、混淆前人工作、说不清创新点等[10] - 论文应明确核心想法并不断打磨,避免"从多个方面改进算法"等模糊表述,理想状态是"一条巨龙,一招制敌"[11] 论文的写作要点 - 深度学习论文常用"八股文"结构,同一故事在摘要、介绍和正文中分层次讲述三遍[13] - 标题和摘要最关键,影响检索和审稿人匹配,流行做法是为方法起好记名字如ShuffleNet、Transformer等[13][14] - 好论文标准:问题重要新颖、思路有理有据、实验超越前人、消融实验扎实;差论文则呈现混乱、拼凑或选择性展示结果[15] - 写作技巧包括:用图表串联故事、优化详略分布、先求严谨再求美观、统一符号定义等[16] 投稿经验与审稿意见 - 作者存在知识盲区,需通过他人反馈修正错误认知,写作时要考虑不同读者群体[18][19] - RIFE论文经历五次投稿,前四次分别因基准错误、动机不明、亮点不突出被拒,最终通过调整内容结构获得录用[20] - CoNR论文因跨领域问题遭遇多样化审稿意见,通过裁剪内容和凝练创新点改进;DMVFN论文因突出优势一次投稿即中并被选为CVPR亮点论文(占接收论文10%)[21] - 常见负面审稿意见包括:缺少重要参考文献、结果不可信、不尊重前人工作、创新性差、呈现质量差、路线分歧等[22][24]
紧急加薪+全员放假!OpenAI被连挖8人后,真慌了
自动驾驶之心· 2025-06-30 20:33
核心观点 - OpenAI面临Meta大规模挖角危机 短期内至少8名关键研究员被挖走[4] 公司采取薪酬调整和全天候沟通等反制措施[3] - 公司宣布全员停工一周以缓解员工每周80小时的高强度工作压力[7][8] 但休假计划被质疑可能给Meta创造更多挖角机会[10] - 战略重心从频繁产品发布转向AGI研发[15] 首席研究官强调"算力转化为智能"是主线任务[16] 预计年内将有超级计算机投入[17] 人才争夺战 - Meta近期从OpenAI挖走至少8名核心研究员 首席研究官Mark Chen形容此举如同"入室盗窃"[4] - 高管团队采取三方面应对:1)与收到Meta offer的员工全天候沟通 2)重新调整薪酬体系 3)探索新型人才奖励机制[3] - 公司坚持人才保留的公平性原则 明确表示不会为个别员工破坏整体薪酬结构[3] 工作模式调整 - 员工长期承受每周80小时工作负荷 源于公司过去过度追求产品发布节奏和竞品对标[6][7] - 2025年上半年已交付16+模型和产品更新后[12] 公司实施全员带薪休假一周(高管除外)[8] - 休假计划遭内部质疑 有员工认为这反而为Meta面试提供了时间窗口[10] 但公司解释该安排属既定计划[11] 战略方向转变 - 创始人奥特曼此前要求每季度都有重磅发布[14] 现调整为集中资源攻关AGI[15] - 首席研究官明确将Meta竞争定义为"支线任务" 核心聚焦"算力智能转化"的底层突破[16] - 技术设施方面 公司透露2024年下半年将有新一代超级计算机部署[17] 行业动态关联 - xAI趁OpenAI休假窗口宣布将发布Grok 4模型[18] - 马斯克从3月底开始推行"办公室住宿"工作模式[20]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-06-30 13:51
自动驾驶与具身智能行业趋势 - 自动驾驶和具身智能公司对人才要求较高,倾向于招聘实力强、背景好的同学[2] - 行业技术方向正从传统方法向端到端、大模型、VLA、强化学习、3DGS等前沿领域转型[3] - 机器人初创公司融资活跃,未来几年发展前景可观[3] 职业发展建议 - 双非背景同学可考虑SLAM和ROS方向,从事机器人/具身智能相关的优化、集成类工作[3] - 建议关注机器人公司,虽然工作较苦但能学习到实打实的技术栈[4] - 具身智能是最前沿方向,但传统机器人仍是产品主线[4] 技术社区资源 - 知识星球提供自动驾驶视频课程、硬件及代码学习资料,以及全栈学习路线图和招聘信息[5] - 社区已形成学术+产品+招聘的完整链路,包含课程、硬件和问答闭环[5] - 社区关注行业技术动态、技术分享、讨论和求职信息,聚焦具身智能与自动驾驶结合等前沿话题[5] 前沿技术方向 - 四大前沿技术方向包括视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[7] - 视觉大语言模型领域有多篇CVPR 2024论文,涉及预训练、迁移学习等方向[11][12] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强等方向[38][39] 数据集资源 - VLM预训练数据集规模从百万级到百亿级不等,最大达12B样本[15] - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等任务,时间跨度从2009到2024年[21] - 语言增强的自动驾驶数据集支持文本解释、视觉问答等任务[22] 应用领域进展 - 智能交通领域主要研究语言引导的车辆检索和视觉问答技术[23] - 自动驾驶感知方向聚焦行人检测、目标指代等任务[24] - 定位规划领域探索语言引导导航和运动规划技术[25] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[26] 端到端自动驾驶 - 端到端方法整合感知、预测和规划模块,实现自动驾驶全流程[27] - 相关研究关注模型可解释性、行为规划和场景生成等方向[45] - 世界模型在端到端驾驶中发挥重要作用,支持场景理解和生成[30][50]
下半年CCF会议“僧多粥少”?如何做到“一发入魂”?大佬早都玩明白了
自动驾驶之心· 2025-06-29 19:33
核心观点 - 文章主要介绍了一项针对自动驾驶和具身智能研究者的1v1科研论文指导服务,旨在帮助研究者把握下半年CCF推荐会议的投稿机会,解决论文撰写过程中的核心挑战 [2] - 服务提供从选题、实验、写作到投稿的全流程个性化指导,由资深导师介入,帮助提升论文竞争力 [2][5][7][9][11] - 课程面向计算机专业本硕博学生、科研人员及职场人士,解决导师放养、缺乏体系化科研方法等问题 [6] 课程内容 选题阶段 - 导师根据学员需求和实际情况引导构思论文idea或直接提供建议 [5] - 协助完成文献调研,确保研究方向具有前瞻性和创新性 [13] 实验阶段 - 全程指导实验设计、模型搭建、调参及验证idea可行性 [7] - 协助数据收集与分析,确保实验代码实现与结果呈现符合预期 [14] 论文写作阶段 - 指导搭建论文框架,包括模块包装、结果呈现及故事线设计 [15] - 提供优秀论文案例剖析,帮助学员掌握高质量写作技巧 [15] 投稿阶段 - 根据学员研究内容推荐合适期刊或会议,提供精准投稿策略 [11][16] 面向人群 - 计算机专业本硕博学生(尤其导师放养情况) [6] - 有科研需求或职称提升需求的在职人员 [6] - 计划考研、申博、留学者 [6] 课程亮点 - 主讲导师为顶会审稿人,提供经典与前沿论文讲解+写作方法论 [22] - 专属私人群支持实时答疑,班主任督学跟进进度 [22][25] - 线上1v1会议+微信群沟通,灵活解决修改或退稿问题 [21][25] 指导周期 - 总周期3-18个月,核心指导期6-9个月(按论文区位分级) [23] - CCF A/SCI 1区:核心期9个月(36次课)+维护期9个月 [23] - EI会议/期刊:核心期6个月(24次课)无维护期 [23] 交付成果 - 产出一篇目标区位的高质量论文 [22] - 掌握科研全流程方法论(选题、实验、写作、投稿) [22] - 提升领域前沿技术认知及Coding实践能力 [22]
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 19:33
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统多为"小脑"模型,缺乏长期规划与记忆管理能力 [7] - 提出RoboCerebra基准,专注于评估大小脑协同能力,包含长时序(平均2,972步)、多扰动、强记忆约束的任务场景 [8] - 配套发布Hierarchical Planning & Execution (HPE)框架,实现大脑VLM与小脑VLA的高效协同 [22] 数据集构建 - 数据生成采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重验证后人工标注 [13] - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 引入六类代表性子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 评测体系 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 采用锚点同步机制确保不同方法在子计划切换上的时序一致性 [21] - 在Memory任务中新增探索成功率、探索效率、决策准确率等细分指标 [32] 实验发现 - 层次化框架在Memory Execution场景提升幅度超70%,验证协同机制有效性 [26] - GPT-4o表现最优,平均成功率16.04%,但较人工最优计划仍有9%差距 [28][29] - 当前VLM在探索阶段成功率可达80%,但执行阶段决策准确率仅30%,显示记忆保持能力不足 [31] 技术框架 - HPE框架实现认知层与执行层解耦:VLM-Planner低频处理观测生成子目标,VLA-Controller高频执行动作 [24] - 通过共享Memory Bank实现状态共享与自适应replanning [24] - 支持多模态大模型接入,包括GPT-4o、Qwen2.5-VL、LLaVA-Next-Video等 [24]
大会预告!无人驾驶专用车技术与产业发展大会
自动驾驶之心· 2025-06-29 19:33
无人驾驶专用车技术与产业发展大会 - 大会拟于2025年10月23日~24日在重庆召开 [1] - 由中国汽车工程学会指导 [1][3] - 汽车智能交通分会主办 [1][5] - 上海自主智能无人系统科学中心与同济大学汽车学院合办 [1][7][8] 组织机构 - 指导单位:中国汽车工程学会 [3] - 主办单位:汽车智能交通分会 [5] - 合办单位:上海自主智能无人系统科学中心 [7] - 合办单位:同济大学汽车学院 [8] - 承办单位:无人驾驶专用车标准研究工作组 [10] - 承办单位:同济汽车设计研究院有限公司 [10]
当下自动驾驶的技术发展,重建还有哪些应用?
自动驾驶之心· 2025-06-29 16:19
4D标注之静态元素 - 自动驾驶技术发展推动重建应用从SLAM转向4D标注 静态元素标注只需在重建3D场景中标注一次 大幅提升效率[1] - 静态元素标注输入为Lidar或多摄像头重建的3D图 输出为矢量车道线(由N个有序xyz坐标点组成)和类别[5] - 地面重建获取2D BEV车道线 静态点云重建获取3D障碍物信息[6] 重建技术流程 - 激光/视觉里程计获取自车位姿 地面语义分割采用SAM等开源模型[7] - 地面重建采用RoME方法 将语义投影到网格化点云 静态场景点云重建完成整体构建[7] 4D自动标注核心难点 - 时空一致性要求高 需连续帧精准追踪动态目标运动轨迹[8] - 多模态数据融合复杂 需解决激光雷达 相机 雷达的坐标对齐和时延补偿[8] - 动态场景泛化难度大 交通参与者行为不确定性和环境干扰增加模型挑战[8] - 标注效率与成本矛盾 高精度标注依赖人工校验但海量数据导致周期长[8] - 量产场景泛化要求高 需适应不同城市 道路 天气等复杂条件[8] 4D标注课程体系 - 动态障碍物标注涵盖3D检测算法(SAFDNet) 多目标跟踪(DetZero)及数据质检[12] - 激光&视觉SLAM重建讲解Graph-based算法和评价指标[13] - 静态元素标注基于全局clip道路信息实现自动化[15] - 通用障碍物OCC标注解析特斯拉Occupancy Network方案及稠密化优化[16] - 端到端真值生成打通动态障碍物 静态元素 可行驶区域和自车轨迹[17] - 数据闭环专题涵盖scaling law验证 架构痛点及岗位面试要点[19] 行业技术趋势 - 4D标注算法向端到端发展 实现动静态元素 可行驶区域的全流程自动化[17] - OCC技术成为感知标配 基于Lidar和视觉的方案持续优化[16] - 数据闭环能力成为企业核心竞争力 涉及算法研发和工程化落地[19][21]