自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

世界模型深入浅出 | VQ家族论文整理（VQ-VAE/VQ-GAN/RQ-VAE等）

自动驾驶之心· 2025-10-21 08:06

编辑 | 自动驾驶之心点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线约了知乎大佬@论文推土机，整理下世界模型技术栈下VQ家族的相关论文，分享给大家！ >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球为什么要离散化：作者 | 论文推土机离散化直接应用到像素级ar：像素级 AR 的困境：直接在像素空间做自回归步数过大（256×256 需约 20 万步），难以落地。 "先压缩后生成"的主流与隐患：VQ-VAE/VQ-GAN/FSQ 等"图像 tokenizer"在 32×32 或 16×16 网格上生成，再解码回像素；但这是强压缩，会引入信息损失（SEED 可视化重构示例：语义对，但细节走样）。信息论下的下界估算：以 ImageNet-64 平均熵估算，一个长度为V的词表，信息容量是log2(V), 若想在 L=32×32 或 16×16 的长度上"无损"承载图像信息，词表规模需夸张到甚至，远超现有 codebook 能力—— 强压缩必然有损。然而，直接在像素空间上操作的最大问题是——序列太长，生成太慢。在多数应用场景中，图片 ...

相约杭州！具身智能之心首次赞助IROS并现场颁奖

自动驾驶之心· 2025-10-20 14:30

挑战赛概述 - 挑战赛旨在系统性评估机器人在真实场景下的感知与理解能力以应对动态人群恶劣天气传感器故障等复杂环境条件[1] - 挑战赛致力于推动多模态感知模型的稳健性研究鼓励跨模态融合与任务泛化方向的创新探索[1] - 该赛事由新加坡国立大学南洋理工大学香港科技大学密歇根大学机器人研究院等多家研究机构联合主办并作为IROS 2025官方认证竞赛项目[4][5] 赛道二：社交智能导航 - 赛道核心目标是打造具备"社交智能"的自主导航机器人使其能安全高效且符合社会规范地在动态室内环境中穿行[8][9] - 任务要求机器人在无地图无特权信息的前提下仅基于RGBD视觉与里程计输入完成目标导航任务且不影响人类行为[9][10] - 关键挑战包括动态行为建模社交规则编码不确定性处理评测维度涵盖成功率路径效率及路径社会性指标等[12] 技术方向与活动 - 推荐技术方向包括使用Transformer-based社交轨迹预测模块引入行为分类器进行风险判断以及多主体地图编码与图神经网络[15] - 挑战赛重要日期包括第一阶段截止日期为2025年8月15日第二阶段截止日期为2025年9月15日获奖决定将于2025年10月19日在IROS 2025公布[3] - 联合主办方将在IROS 2025大会期间于中国杭州举办线下展示与颁奖并提供与学术创业投资领域专家交流的after party活动[5][16][18]

手撕大模型，KVCache 原理及代码解析

自动驾驶之心· 2025-10-20 14:30

KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术，通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景，在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键（Key）和值（Value）矩阵，避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n)，极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵，后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存，结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长，直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列，如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例，每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存，批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制，将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储，大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存，平衡速度和内存[22]

Large Language Model (LLM)

Transformer

Self-attention

Artificial Intelligence

KV Cache

Large Language Model (LLM)

Transformer

Self-attention

Artificial Intelligence

KV Cache

今日开课！清华团队带队梳理自动驾驶VLA学习路线：算法+实践

自动驾驶之心· 2025-10-20 07:32

自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术，旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法，并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战，包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示，Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline，而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展，将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]

9篇NeurIPS工作，我们读出了「3D渲染与重建」的三个确定方向

自动驾驶之心· 2025-10-20 07:32

以下文章来源于深蓝AI ，作者深蓝学院深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。作者 | 深蓝学院来源 | 深蓝AI 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文导读作为机器学习领域最顶级的学术会议之一， NeurIPS 每年都会释放出下一阶段研究与应用的风向。相比只看单点"模型刷新 SOTA"，系统层面的范式变化更值得关注：表示的选择、优化的思路、数据与评价的演进，最终会落到产业与具身智能的落地能力上。 2025年的NeurIPS的论文list刚刚公布，我们一起来尝尝鲜，本次盘点聚焦 3D Rendering & Reconstruction（3D 渲染与重建）的相关工作，原因很简单：今年该方向投稿很多，我们筛选出 9 篇工作，按三类组织： 1 — 动态场景与时序重建让 3D 世界"动"起来这类研究是什么？不仅重建静态几何与外观，还要表达、压缩和实时渲染时间维度的变化（4D）。为什么重要？机器人、AR ...

3D渲染与重建

具身智能

高斯 splatting

Artificial Intelligence

Artificial Intelligence

3D渲染与重建技术

4000人的自动驾驶技术社区，日常提供这些咨询......

自动驾驶之心· 2025-10-20 07:32

社区定位与愿景 - 社区致力于让AI与自动驾驶技术普及化，成为连接企业与高校的桥梁 [1] - 目标是打造涵盖产业、学术、求职、问答交流的完整闭环生态 [1] - 社区定位为培养未来行业领袖的技术交流平台 [4] 社区资源规模 - 已梳理超过40种自动驾驶技术路线 [2] - 汇总近40个开源项目和近60个自动驾驶相关数据集 [15] - 邀请数十位来自产业界和学术界的领域专家担任嘉宾 [2] 技术内容覆盖范围 - 基础入门板块包含数学基础、计算机视觉、深度学习、编程等学习资料 [5] - 算法进阶板块涵盖BackBone、2D/3D目标检测、分割、跟踪、BEV感知等17个技术方向 [5] - 实战落地板块包括模型压缩、部署优化等工程化内容 [5] - 专门设置自动驾驶100问系列，覆盖TensorRT部署、毫米波雷达融合等7个专题领域 [5] 学习路线体系 - 感知学习路线包含VLA、多模态大模型、占用网络等8个方向 [15] - 仿真学习路线涵盖Carla、Apollo等平台及闭环仿真等6个模块 [15] - 规划控制学习路线包括基于搜索、采样、优化等7种方法 [15] 行业资源整合 - 汇总国内外知名自动驾驶高校实验室，供升学参考 [24] - 整理RoboTaxi、重卡、造车新势力等各类自动驾驶公司信息 [26] - 提供计算机视觉和自动驾驶相关经典书籍资源 [28] 前沿技术专题 - 端到端自动驾驶板块涵盖一段式、二段式方案及VLA算法 [34] - 3DGS与NeRF专题包含算法原理、场景重建与仿真应用 [36] - 世界模型板块聚焦技术前沿和业界应用 [38] - VLM专题汇总最新综述、开源数据集及量产方案 [40] - VLA板块梳理2025年最新综述、数据集及量产讨论 [42] 专业活动体系 - 已举办超过100场专业技术直播分享会 [79] - 直播内容涵盖VLA、V2X、3D检测、扩散模型等前沿话题 [79] - 提供行业大佬实时答疑和工作机会对接服务 [19][80]

自动驾驶之心· 2025-10-20 07:32

OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型，功能为压缩人类已知数字知识，类比人类从小学到大学的知识积累过程[19] - 推理者阶段具备思维链和连续性任务能力，依赖SFT和RLHF训练，类比人类读研或师傅带徒弟的经验传授[20][21] - 智能体阶段AI开始实际工作，能使用工具完成长任务，对专业性和可靠性要求极高，需达到80-90分合格标准，类比人类胜任专业岗位[22][23] - 创新者阶段通过出题解题进行强化训练，需要世界模型和RLAIF模拟真实环境，类比职业选手通过上万小时实战成为专家[25][26] - 组织者阶段负责管理大量智能体和创新，防止失控，类比企业管理者的角色[27] 算力需求与技术布局 - 未来5年推理算力需求可能扩大100倍，训练算力需求扩大10倍[29] - 不同阶段需要不同类型算力：智能体阶段主要需要推理算力，机器人设备需要端侧推理，世界模型阶段需要海量云端推理[28][29] - 公司自研技术包括推理模型（MindVLA/MindGPT）、智能体（司机Agent/理想同学Agent）和世界模型[31] - 2026年将为自动驾驶配备自研端侧芯片，实现车与AI深度融合[33] 机器人发展路径与训练方法论 - 机器人发展有两条路径：将现有工具改造为机器人（如自动驾驶车辆），或开发人形机器人操作万物[34][35] - 训练的核心目标是提高成功率，参考人类"一万小时"专业训练理念[36][38] - 专业训练聚焦三大能力：信息处理能力（筛选有效信息）、出题解题能力（定义和解决问题）、资源分配能力（优化有限资源使用）[39][40][41] 行业技术观察与应用实践 - 特斯拉FSD V14证明其采用与VLA相同技术，具备空间完整理解能力和长任务多任务处理能力[44] - 公司内部已实现全面AI化，特别是在VLA技术应用后[45] - 行业领先的AI工具应具备简洁干脆的对话风格，避免过多铺垫性内容[46] - AI资讯获取渠道包括关键账号订阅、B站UP主内容跟踪以及内部多领域研究团队每周同步会议[48]

过去一个月高强度RL的实践和思考 - 如何涨点？

自动驾驶之心· 2025-10-20 07:32

作者 | Jason@知乎转自 | 纯干货！VLM RL如何涨点的实践和思考原文链接： https://zhuanlan.zhihu.com/p/1952370307714220903 点击下方卡片，关注" 大模型之心Tech "公众号戳我-> 领取大模型巨卷干货本文只做学术分享，如有侵权，联系删文，欢迎添加小助理微信AIDriver004做进一步咨询前言过去的一个月在比较高强度做RL，最近终于有了一些阶段性成果，整理了一下整体的迭代思路和最近踩过的坑，分享出来，与各位共勉。结果上，部分Benchmark取得了同size 模型1-2个点的涨幅，最高的单项能有8-10个点的涨幅。这个过程最大的感触是 2. 没做好数据基础就开始研究新算法的，要小心了，很可能长期做不出结果； 3. 基础的RL算法，就能有较为明确的涨点，即使目标是做开源SOTA，也可以从最简单但正确的事情做起，千里之行，始于足下。 RL的目标关于RL，我们不是第一批吃螃蟹的人，有很多前人的工作可以追溯，所以是站在巨人的肩膀上做事，对结果有一定预期。因此，基于开源tech report的结果和认知，我认为RL至少应该达成以下两个 ...

自动驾驶之心· 2025-10-19 00:03

文章核心观点 - 文章分享了作者在强化学习（RL）领域优化GRPO（Generalized Reinforcement Policy Optimization）算法的研究历程，重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下，极简化的采样策略（如2-GRPO）可能与传统认知相悖但依然有效，并将GRPO与DPO（Direct Preference Optimization）联系起来 [4][5] 研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满，旨在进行效率优化 [2] - 初始尝试方向为树状采样，希望借鉴TreePO的思路，通过预填充减少生成时间，但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子，存在不平衡问题，因此放弃 [2][3] - 第二次尝试基于投机采样思想，即采到正确样本就停止，但工程实现中引入过多CPU操作可能导致气泡，未能实现时间优化 [3] 方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率，并基于贝叶斯方法（Beta分布和Thompson采样）动态分配采样预算，实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现，在保持总采样量不变的情况下，将每个提示的采样次数从16降至8，性能几乎无差异 [4] - 进一步实验扩展到不同采样次数（32, 16, 8, 4）和模型规模（7B, 1.5B, deepseek-distill），均发现性能差异不大，挑战了常规认知 [4] - 受到与同行讨论启发，将GRPO与DPO及对比学习联系起来，提出了2-GRPO有效的理论依据，即其奖励归一化机制与对比学习原理相似 [5] 社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”，这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线，覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]

自动驾驶之心· 2025-10-19 00:03

公司核心人员变动 - 蔚来智能驾驶产品负责人黄鑫于国庆节前离职，其于2022年加入公司并担任副总裁，直接向首席执行官汇报，负责智驾产品体验业务[4][6] - 人工智能平台负责人白宇利与世界模型负责人马宁宁于近期离职，白宇利2020年入职，职级为资深总监，马宁宁团队主导了世界模型1.0版本的全量推送[4][7][8] - 算法核心负责人樊昊阳已于四月份离职，其主导研发的端到端Planner模型显著提升了公司NOP+系统的实时决策能力[4][9] 公司组织架构与战略调整 - 公司回应此次人员变动为主动的组织架构调整，旨在强化对通用人工智能技术的吸收并加速智能驾驶体验交付[11] - 调整后构建了预研、量产、平台复制、车型复制的「4×100接力棒」模式，将智能驾驶组织与通用人工智能组织并轨[11] - 组织架构调整旨在全力冲刺世界模型2.0版本的开发与交付，预计从今年底到明年一季度陆续在多个平台推出迭代版本[11][13] 公司技术发展方向 - 公司技术战略以世界模型为主，旨在打通自动驾驶时空认知能力，认为真正的技术上限在于以视频为核心，学习时空和物理规律的世界模型[11] - 世界模型2.0的开发将引入语言能力，目标是实现像人一样的开放式交互，构建Open-set智能引擎[11] - 行业层面，近期多家主机厂与新势力公司在组织架构上均有大动作，预示下一轮智能驾驶质变时刻的前兆[14]