自动驾驶之心

搜索文档
自动驾驶之心端到端VLA技术交流群成立了~
自动驾驶之心· 2025-08-08 07:32
自动驾驶技术交流群成立 - 自动驾驶之心大模型VLA技术交流群正式成立,旨在促进端到端VLA技术的交流与合作 [1] - 交流内容涵盖VLA数据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地及求职等多个领域 [1] - 感兴趣者可添加小助理微信AIDriver005,备注昵称+VLA加群以加入交流群 [2]
自动驾驶之心内容运营实习生招聘!合伙人1v1培养(仅限一人)
自动驾驶之心· 2025-08-07 20:00
公司介绍 - 公司致力于通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,覆盖数十万AI开发者和创业者 [3] - 公司聚焦自动驾驶、具身智能、大模型等AI前沿技术领域,涵盖学术论文解读、量产方案分析、大模型评测、商业动态、行业招聘、开源项目等 [3] - 公司已与业内主流公司及相关高校建立深度合作,大模型方向正在快速搭建 [3] - 公司通过公众号、社群、视频号、知乎、小红书、B站等平台进行内容分享、粉丝交流及企业联系 [3] 岗位信息 - 招聘内容运营实习生,工作内容包括学术论文选题解读、知识星球搭建、原创视频制作、稿件撰写策划等 [5][6] - 岗位要求自驾、大模型、具身智能相关研究方向,本科及以上学历,硕士优先 [6] - 加分项包括技术背景、独立解读学术论文、运行部署开源项目、撰写代码demo等 [6] - 工作地点为杭州市余杭区,支持线下办公和线上远程 [10] - 工作时间要求每周四天及以上,实习三个月以上者优先 [7] - 待遇包括实习工资、合伙人1v1新人培养、行业资源推荐、岗位内推等 [8]
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]
这个2000人的具身社区,有点料......
自动驾驶之心· 2025-08-07 17:52
具身智能社区核心价值 - 提供具身智能领域全栈技术解决方案,覆盖机器人调试、数据采集、模型部署等实际问题[1][3] - 构建产业-学术-求职闭环生态,实时对接前沿研究与企业需求[3][11] - 汇集30+技术路线图谱,缩短学习路径检索时间[5][17] 社区资源体系 学术与产业网络 - 成员来自斯坦福、ETH、清华等顶尖高校及优必选、小米等40+头部企业[17] - 邀请数十位产业界/学术界嘉宾提供一线指导[5][77] 技术资料库 - 整合40+开源项目、60+数据集、20+仿真平台[17] - 汇总30家具身机器人公司资料及行业研报[22][24] - 收录机器人导航、动力学等专业书籍PDF[27] 学习路线 - 开发25条专项学习路径,涵盖VLA+RL、Diffusion Policy等前沿方向[17][41][61] - 提供感知/交互/导航等细分领域技术栈[45][47][49] 职业发展支持 - 与头部企业建立内推机制,直接对接招聘需求[11] - 分析行业薪资趋势,自动驾驶转具身智能存在窗口期[83] - 针对SLAM等传统领域从业者提供转型建议[81][82] 行业动态与趋势 - 具身智能处于探索期,类比自动驾驶2017-2018阶段[83] - 技术重心向大模型、端到端方案迁移,传统SLAM工程化需求仍存[82][84] - 多模态大模型在视觉语言导航、机械臂控制等场景加速应用[53][55][70] 社区活动形式 - 定期举办圆桌论坛、技术直播[5][77] - 成员可自由提问工作选择与技术难题[79] - 提供仿真环境项目案例指导实战训练[80]
万字长文!RAG实战全解析:一年探索之路
自动驾驶之心· 2025-08-07 17:52
背景介绍 - RAG(检索增强生成)方法结合了检索模型和生成模型的能力,以提高生成文本的质量和相关性 [1] - 该方法由Meta在2020年提出,让语言模型能够获取内化知识之外的信息,并以更准确的方式回答问题 [1] - 在大模型时代,RAG用于解决幻觉问题、知识时效问题和超长文本问题等大模型本身的制约或不足 [1] RAG的挑战 - 主要面临三个方面的挑战:检索质量、增强过程和生成质量 [2] - 检索质量方面存在语义歧义、用户输入变复杂、文档切分和多模内容提取等挑战 [5] - 增强过程面临上下文集成、冗余和重复、排名和优先级等挑战 [5] - 生成质量方面存在过度依赖检索内容、无关性、毒性或偏见等问题 [5] 整体架构 产品架构 - 包含模型层、离线理解层、在线问答层和场景层四层 [11] - 模型层支持自研序列猴子、开源大模型和第三方模型,并优化跨语言Embedding模型 [11] - 离线理解层包括智能知识库和搜索增强模块,负责非结构化文本处理和检索精准度 [11] - 在线问答层支持多文档、多轮次、多模态及安全性与拒识等功能 [11] - 场景层针对不同行业特点预制多种场景类角色 [11] 技术架构 - 分为query理解、检索模型和生成模型三个主要组成部分 [10] - query理解模块包括query改写、扩写和意图识别等,旨在提高召回率 [12] - 检索模型从文档集或知识库中检索相关信息,使用信息检索或语义搜索技术 [12] - 生成模型根据Prompt或上下文生成新内容,包括chat系统和Prompt优化等 [13] Query理解 - 引入query理解模块解决用户query措辞不利于检索和生成结构化查询的问题 [14] - 意图识别模块利用LLM实现决策功能,可应用于选择器模块或查询引擎 [15] - query改写模块利用LLM重新措辞用户query,提高检索效果 [16] - HyDE技术生成假设答案并转换为嵌入,从数据库中检索最接近的实际文档 [17] - query扩写模块将复杂问题拆解为子问题,采用分而治之的方法处理 [22] - Step-Back Prompting通过抽象和推理两步处理复杂任务 [23] - CoVe技术通过验证和完善回答提高大型语言模型答案的可靠性 [25] - RAG-Fusion生成多个query并行执行搜索,使用倒数排名融合重新排序 [27] - ReAct将复杂查询分解成更简单的子查询,结合思维链提示和Action计划生成 [29][31] - query重构模块通过一次请求实现改写、拆解和拓展用户输入 [32] 检索模型 挑战 - 依赖于Embedding模型的向量化是否准确 [33] - 相关信息出现在输入上下文开头或结尾时性能最高,中间性能明显下降 [34] 架构 - 包括文档加载器、文本转换器、文本嵌入模型、向量数据库和索引等组件 [35][37] 文档加载器 - 从配置源加载文档数据,支持懒加载和多种来源如txt文件、网页和YouTube视频 [38] 文本转换器 - 将大型文档分割成较小块,适应模型上下文窗口 [39] - 递归分割文本保持相关文本片段在一起 [40] - 常见类型包括HTML、Markdown、Code、Token和Character等 [43] - 使用Chunkviz工具评估文本转换器工作情况 [44] 文本嵌入模型 - 创建文本的向量表示,捕捉语义并支持语义搜索 [45] - 应具备跨语种检索、长原文和短摘要关联、不同表述相同语义关联等能力 [45] 向量数据库 - 支持嵌入式的高效存储和搜索,检索与嵌入查询最相似的嵌入向量 [47] 索引 - 摘要索引将节点存储为顺序链,支持顺序遍历或基于关键词过滤 [51] - 树索引构建层级树状结构,父节点是子节点的摘要 [53] - 关键词表索引提取关键词并构建多对多映射 [55] - 向量索引利用文本嵌入模型将文本块映射成向量并存储在向量数据库中 [57] 排序和后处理 - 基于相似度分数、关键词、LLM重新排序或时间进行过滤和排序 [59] 生成模型 - 回复生成策略包括依次结合相关文本块修正回复或在Prompt中填充多个文本块 [66] - prompt拼接策略包括字符串提示和聊天提示 [61] - 字符串提示连接模板,聊天提示由消息列表组成 [62][63] 插件 - 基于混合演示检索的上下文学习方法融合文本检索和语义检索进行多路召回 [64] - 检索模块包括文本检索和语义检索,分别采用BM25和双塔模型 [70] - 重排模块使用倒序排序融合算法和两端填充排序策略 [71] - 生成模块设计prompt组装模块,融入长期和短期对话记录 [72] 引用或归因生成 - 归因让模型生成内容与参考信息对齐,提供证据来源确保信息准确性 [73] - 模型生成方法直接让模型生成归因信息,依赖模型能力 [75] - 动态计算方法在流式生成时匹配语义单元和参考源 [76] 评估 - Faithfulness评测生成的回答是否忠实于contexts,避免幻觉 [79] - Answer Relevance评测生成的答案是否解决实际问题 [79] - Context Relevance评测检索的上下文是否重点突出且少含无关信息 [79] - RGB基准研究RAG对大型语言模型的影响,分析噪声鲁棒性、拒答等能力 [77] - RAGAS框架对RAG pipeline进行无参考评估,考虑检索系统和LLM能力 [81] - LlamaIndex提供衡量生成结果质量和检索质量的模块 [81] 总结 - RAG技术需要不断实践和研究才能打磨出符合企业应用的精品 [82] - 本文总结了过去一年在RAG实践的关键模块,属于大纲式技术普及文章 [82]
自动驾驶运动规划发展到了什么阶段?
自动驾驶之心· 2025-08-07 07:34
自动驾驶规划技术研究 - 当前端到端自动驾驶技术中BEV已成为标准范式 但规划模块进展缓慢 主要由于交互建模涉及博弈和不确定性 监督学习难以有效描述此类问题[2] - 交互规划本质上属于世界模型范畴 核心在于推理其他交通参与者的未来行为[4] - 关键技术挑战包括:如何在规划流程中融入交互 如何将交互转化为数学约束 如何高效求解 以及参数调优问题[5] 交互规划框架比较 - TPP框架采用轨迹树结构 通过动态规划获取最优策略 其损失函数包含预测误差 自车轨迹碰撞和交通参与者碰撞三项[6][7][9] - IJP框架采用MPC联合优化 通过同伦理论大幅减少轨迹采样数量 使16个交通参与者场景下达到125Hz处理速度[12][15][19] - DIPP框架引入可微分规划 使用Transformer编码历史信息 通过非线性最小二乘优化轨迹 支持端到端训练权重参数[21][22][27] 关键技术实现 - 同伦理论应用安培定律原理 将障碍物视为电流 通过磁场线积分相同特性归类轨迹 使车道变换等场景采样效率提升[13][14][15] - ADMM算法替代传统SQP 将840维优化问题分解为可并行计算子集 实现毫秒级实时响应[19][23] - 可微分规划采用双层优化结构 内层求解最优轨迹 外层优化损失函数 结合Theseus库实现参数自动调优[34][35][36] 现存技术局限 - 预测导向方法本质是反应式规划 无法处理反事实安全问题 如车辆主动并道场景[41] - 固定权重损失函数难以匹敌规则方法的场景自适应能力 静态场景下预测模块效用有限[44] - 模块化方案依赖预测质量 端到端方案网络设计复杂 两者均面临真实交互效果验证挑战[45]
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心· 2025-08-07 07:34
视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]
喧嚣过后, 理想i8后续口碑会非常高
自动驾驶之心· 2025-08-07 07:34
核心观点 - i8市场口碑与反应会较好且等待时间明显短于MEGA口碑发酵时间 [5] - i8将促进MEGA订单但会分流部分L789订单 下一代增程车将重新吸引部分纯电订单 今年L系列订单表现一般 [5] - 公众对i8超短期爆单预期落空后产生大量吐槽 本质是未满足立即购买冲动 而非SKU设置等表面原因 [5][7] 根基前提 - 人类决策由潜意识主导 意识仅为既有决策寻找合理化解释 [9] - 裂脑人实验证明左脑会为右脑行动编造逻辑解释 类比公众对i8舆论反应 [9][12] - 公众对i8超短期爆单预期源于三点:YU7首日锁单冲击/理想过往销量成绩/i8延期一年发布 [9] i8产品设计逻辑 - 刻意避免超短期爆单设计:锁单时间规则不提供早提车激励 选择周二开启锁单分散热度 [10] - 产品亮点需深度体验:5C超充+双腔空悬+VLA交互等难以一句话传达 对比YU7激光雷达/续航等直观卖点 [10][11] - SKU设置引导理性选择:顶配车型性价比显著(较L9降价升级/较MEGA差价达15-18万) 二排电视强化面子属性 [15][16][17] 卡车事件分析 - 事件本质为安全性能展示 双方车辆均安全 情绪发酵源于偶然因素 [14] - 中长期影响有限:理想与卡车司机存在利益共生关系 舆情攻击属智能车产业变革期常态 [14] 技术前瞻 - 卡片大师交互系统:实现AI实时生成个性化界面 突破传统APP设计妥协 符合软件3.0理念 [19][20][23] - 记忆功能创造情绪价值:如主动询问用户上周工作进展 提升产品生命感与用户粘性 [24][25] 市场竞争定位 - i8顶配产品力对标:纯电党视角全面优于L9 价格低于L8顶配但面子属性更强 [16][17] - 细分市场卡位:35万预算区间在舒适/智驾/空间等维度仅MEGA可超越 形成差异化竞争力 [15][17]
具身智能数采方案:全身动捕工作一览
自动驾驶之心· 2025-08-07 07:34
全身动捕技术方案 - OpenWBC项目实现对Unitree G1机器人的全身控制 使用Apple Vision Pro结合avp_teleoperate控制上半身 使用OpenHomie算法控制下半身运动 支持全身数据采集功能 [3] - TWIST系统由斯坦福大学团队开发 通过全双模式控制实现上半身远程操控+下半身自主行走 基于Apple Vision Pro实现低延迟控制 支持模块化部署和跨平台通信 [4] - TWIST结合强化学习与行为克隆技术 引入特权未来运动帧和真实动作捕捉数据 显著提升跟踪精度 实现多功能协调的全身运动技能 [5] 自适应运动优化框架 - AMO框架由加州大学圣迭戈分校团队提出 结合仿真到现实的强化学习与轨迹优化 解决高自由度和非线性动力学挑战 [8] - AMO构建混合型数据集训练网络 对分布外指令进行鲁棒适应 在29自由度的Unitree G1上验证稳定性 扩展工作空间 [10] 人形机器人遥操作系统 - 清华大学&银河通用团队开发系统支持对Unitree G1/H1的全身遥操作 通过摇杆控制下半身 VR设备捕捉数据驱动上半身逆向运动学 [13] - R²S²框架构建现实可用基础技能库 形成结构化先验知识 实现零样本仿真-现实迁移 解决大范围触达控制问题 [15] 闭环纠错系统 - CLONE系统由北京理工大学等团队开发 基于混合专家机制实现全身操作保真度 通过实时反馈抑制误差累积 完成复杂协调动作 [19] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线 包含前沿学术内容 开源代码方案 求职信息和产业界嘉宾资源 [25][31] - 社区建立企业内推机制 为不同阶段从业者提供技术栈和产业体系支持 [32][34]
这几个方向,从自驾转大模型会比较丝滑......
自动驾驶之心· 2025-08-06 19:25
大模型技术方向 - 大模型技术分为四大模块:大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化 [1] - 多模态大模型方向包括视觉语言模型、预训练数据集、PEFT、微调及部署推理优化 [2] 大模型RAG - RAG核心组件包括检索器、增强器和生成器 如何利用知识库提升性能是重点 [1] - RAG子领域快速发展:Graph RAG、视觉理解应用、Knowledge-Oriented RAG、多模态RAG、Reasoning Agentic RAG [1] - 业内已建立多种评测方法和数据集用于RAG性能评估 [1] AI Agent - AI Agent是当前最热门方向 涵盖单智能体、多智能体、智能体强化学习 [1] - 研究方向包括Agent通信效率优化、自进化Agent、RAG与Agent结合 [1] 技术社区 - 大模型之心Tech社区致力于构建国内最大大模型技术社区 持续输出产业学术信息 [3] - 社区通过知识星球平台培养人才 快速搭建技术模块 [3]