Workflow
自动驾驶之心
icon
搜索文档
世界模型深入浅出 | VQ家族论文整理(VQ-VAE/VQ-GAN/RQ-VAE等)
自动驾驶之心· 2025-10-21 08:06
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 约了知乎大佬@论文推土机,整理下世界模型技术栈下VQ家族的相关论文,分享给大家! >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 为什么要离散化: 作者 | 论文推土机 离散化直接应用到像素级ar: 像素级 AR 的困境 :直接在像素空间做自回归步数过大(256×256 需约 20 万步),难以落地。 "先压缩后生成"的主流与隐患 :VQ-VAE/VQ-GAN/FSQ 等"图像 tokenizer"在 32×32 或 16×16 网格上生成,再解码回像素;但这是 强压缩 ,会引入信息损失 (SEED 可视化重构示例:语义对,但细节走样)。 信息论下的下界估算 :以 ImageNet-64 平均熵估算,一个长度为V的词表,信息容量是log2(V), 若想在 L=32×32 或 16×16 的长度上"无损"承载图像信息,词表规模 需夸张到 甚至 ,远超现有 codebook 能力—— 强压缩必然有损。 然而,直接在像素空间上操作的最大问题是——序列太长,生成太慢。在多数应用场景中,图片 ...
相约杭州!具身智能之心首次赞助IROS并现场颁奖
自动驾驶之心· 2025-10-20 14:30
挑战赛概述 - 挑战赛旨在系统性评估机器人在真实场景下的感知与理解能力 以应对动态人群 恶劣天气 传感器故障等复杂环境条件[1] - 挑战赛致力于推动多模态感知模型的稳健性研究 鼓励跨模态融合与任务泛化方向的创新探索[1] - 该赛事由新加坡国立大学 南洋理工大学 香港科技大学 密歇根大学机器人研究院等多家研究机构联合主办 并作为IROS 2025官方认证竞赛项目[4][5] 赛道二:社交智能导航 - 赛道核心目标是打造具备"社交智能"的自主导航机器人 使其能安全 高效且符合社会规范地在动态室内环境中穿行[8][9] - 任务要求机器人在无地图 无特权信息的前提下 仅基于RGBD视觉与里程计输入完成目标导航任务 且不影响人类行为[9][10] - 关键挑战包括动态行为建模 社交规则编码 不确定性处理 评测维度涵盖成功率 路径效率及路径社会性指标等[12] 技术方向与活动 - 推荐技术方向包括使用Transformer-based社交轨迹预测模块 引入行为分类器进行风险判断 以及多主体地图编码与图神经网络[15] - 挑战赛重要日期包括第一阶段截止日期为2025年8月15日 第二阶段截止日期为2025年9月15日 获奖决定将于2025年10月19日在IROS 2025公布[3] - 联合主办方将在IROS 2025大会期间于中国杭州举办线下展示与颁奖 并提供与学术 创业 投资领域专家交流的after party活动[5][16][18]
手撕大模型,KVCache 原理及代码解析
自动驾驶之心· 2025-10-20 14:30
KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术,通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景,在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键(Key)和值(Value)矩阵,避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n),极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵,后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存,结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长,直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列,如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例,每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存,批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制,将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储,大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存,平衡速度和内存[22]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-20 07:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
9篇NeurIPS工作,我们读出了「3D渲染与重建」的三个确定方向
自动驾驶之心· 2025-10-20 07:32
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 导读 作为机器学习领域最顶级的学术会议之一, NeurIPS 每年都会释放出下一阶段研究与应用的风向。相比只看单点"模型刷新 SOTA", 系统层面的范式变 化 更值得关注:表示的选择、优化的思路、数据与评价的演进,最终会落到产业与具身智能的落地能力上。 2025年的NeurIPS的论文list刚刚公布,我们一起来尝尝鲜,本次盘点 聚焦 3D Rendering & Reconstruction(3D 渲染与重建) 的相关工作, 原因很简 单: 今年该方向投稿很多,我们 筛选出 9 篇 工作,按三类组织: 1 — 动态场景与时序重建 让 3D 世界"动"起来 这 类研究是什么 ? 不仅重建静态几何与外观,还要 表达、压缩和实时渲染时间维度 的变化(4D)。 为什么重要? 机器人、AR ...
4000人的自动驾驶技术社区,日常提供这些咨询......
自动驾驶之心· 2025-10-20 07:32
社区定位与愿景 - 社区致力于让AI与自动驾驶技术普及化,成为连接企业与高校的桥梁 [1] - 目标是打造涵盖产业、学术、求职、问答交流的完整闭环生态 [1] - 社区定位为培养未来行业领袖的技术交流平台 [4] 社区资源规模 - 已梳理超过40种自动驾驶技术路线 [2] - 汇总近40个开源项目和近60个自动驾驶相关数据集 [15] - 邀请数十位来自产业界和学术界的领域专家担任嘉宾 [2] 技术内容覆盖范围 - 基础入门板块包含数学基础、计算机视觉、深度学习、编程等学习资料 [5] - 算法进阶板块涵盖BackBone、2D/3D目标检测、分割、跟踪、BEV感知等17个技术方向 [5] - 实战落地板块包括模型压缩、部署优化等工程化内容 [5] - 专门设置自动驾驶100问系列,覆盖TensorRT部署、毫米波雷达融合等7个专题领域 [5] 学习路线体系 - 感知学习路线包含VLA、多模态大模型、占用网络等8个方向 [15] - 仿真学习路线涵盖Carla、Apollo等平台及闭环仿真等6个模块 [15] - 规划控制学习路线包括基于搜索、采样、优化等7种方法 [15] 行业资源整合 - 汇总国内外知名自动驾驶高校实验室,供升学参考 [24] - 整理RoboTaxi、重卡、造车新势力等各类自动驾驶公司信息 [26] - 提供计算机视觉和自动驾驶相关经典书籍资源 [28] 前沿技术专题 - 端到端自动驾驶板块涵盖一段式、二段式方案及VLA算法 [34] - 3DGS与NeRF专题包含算法原理、场景重建与仿真应用 [36] - 世界模型板块聚焦技术前沿和业界应用 [38] - VLM专题汇总最新综述、开源数据集及量产方案 [40] - VLA板块梳理2025年最新综述、数据集及量产讨论 [42] 专业活动体系 - 已举办超过100场专业技术直播分享会 [79] - 直播内容涵盖VLA、V2X、3D检测、扩散模型等前沿话题 [79] - 提供行业大佬实时答疑和工作机会对接服务 [19][80]
李想:特斯拉V14也用了VLA相同的技术
自动驾驶之心· 2025-10-20 07:32
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的知识积累过程[19] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带徒弟的经验传授[20][21] - 智能体阶段AI开始实际工作,能使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准,类比人类胜任专业岗位[22][23] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手通过上万小时实战成为专家[25][26] - 组织者阶段负责管理大量智能体和创新,防止失控,类比企业管理者的角色[27] 算力需求与技术布局 - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍[29] - 不同阶段需要不同类型算力:智能体阶段主要需要推理算力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理[28][29] - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[31] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[33] 机器人发展路径与训练方法论 - 机器人发展有两条路径:将现有工具改造为机器人(如自动驾驶车辆),或开发人形机器人操作万物[34][35] - 训练的核心目标是提高成功率,参考人类"一万小时"专业训练理念[36][38] - 专业训练聚焦三大能力:信息处理能力(筛选有效信息)、出题解题能力(定义和解决问题)、资源分配能力(优化有限资源使用)[39][40][41] 行业技术观察与应用实践 - 特斯拉FSD V14证明其采用与VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[44] - 公司内部已实现全面AI化,特别是在VLA技术应用后[45] - 行业领先的AI工具应具备简洁干脆的对话风格,避免过多铺垫性内容[46] - AI资讯获取渠道包括关键账号订阅、B站UP主内容跟踪以及内部多领域研究团队每周同步会议[48]
过去一个月高强度RL的实践和思考 - 如何涨点?
自动驾驶之心· 2025-10-20 07:32
作者 | Jason@知乎 转自 | 纯干货!VLM RL如何涨点的实践和思考 原文链接: https://zhuanlan.zhihu.com/p/1952370307714220903 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 前言 过去的一个月在比较高强度做RL,最近终于有了一些阶段性成果,整理了一下整体的迭代思路和最近踩过的坑,分享出来,与各位共勉。结果 上,部分Benchmark取得了同size 模型1-2个点的涨幅,最高的单项能有8-10个点的涨幅。这个过程最大的感触是 2. 没做好数据基础就开始研究新算法的,要小心了,很可能长期做不出结果; 3. 基础的RL算法,就能有较为明确的涨点,即使目标是做开源SOTA,也可以从最简单但正确的事情做起,千里之行,始于足下。 RL的目标 关于RL,我们不是第一批吃螃蟹的人,有很多前人的工作可以追溯,所以是站在巨人的肩膀上做事,对结果有一定预期。因此,基于开源tech report的结果和认知,我认为RL至少应该达成以下两个 ...
对比学习视角,GRPO即DPO?
自动驾驶之心· 2025-10-19 00:03
文章核心观点 - 文章分享了作者在强化学习(RL)领域优化GRPO(Generalized Reinforcement Policy Optimization)算法的研究历程,重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下,极简化的采样策略(如2-GRPO)可能与传统认知相悖但依然有效,并将GRPO与DPO(Direct Preference Optimization)联系起来 [4][5] 研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满,旨在进行效率优化 [2] - 初始尝试方向为树状采样,希望借鉴TreePO的思路,通过预填充减少生成时间,但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子,存在不平衡问题,因此放弃 [2][3] - 第二次尝试基于投机采样思想,即采到正确样本就停止,但工程实现中引入过多CPU操作可能导致气泡,未能实现时间优化 [3] 方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率,并基于贝叶斯方法(Beta分布和Thompson采样)动态分配采样预算,实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现,在保持总采样量不变的情况下,将每个提示的采样次数从16降至8,性能几乎无差异 [4] - 进一步实验扩展到不同采样次数(32, 16, 8, 4)和模型规模(7B, 1.5B, deepseek-distill),均发现性能差异不大,挑战了常规认知 [4] - 受到与同行讨论启发,将GRPO与DPO及对比学习联系起来,提出了2-GRPO有效的理论依据,即其奖励归一化机制与对比学习原理相似 [5] 社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”,这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线,覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]
某新势力多位智驾高管离职......
自动驾驶之心· 2025-10-19 00:03
公司核心人员变动 - 蔚来智能驾驶产品负责人黄鑫于国庆节前离职,其于2022年加入公司并担任副总裁,直接向首席执行官汇报,负责智驾产品体验业务[4][6] - 人工智能平台负责人白宇利与世界模型负责人马宁宁于近期离职,白宇利2020年入职,职级为资深总监,马宁宁团队主导了世界模型1.0版本的全量推送[4][7][8] - 算法核心负责人樊昊阳已于四月份离职,其主导研发的端到端Planner模型显著提升了公司NOP+系统的实时决策能力[4][9] 公司组织架构与战略调整 - 公司回应此次人员变动为主动的组织架构调整,旨在强化对通用人工智能技术的吸收并加速智能驾驶体验交付[11] - 调整后构建了预研、量产、平台复制、车型复制的「4×100接力棒」模式,将智能驾驶组织与通用人工智能组织并轨[11] - 组织架构调整旨在全力冲刺世界模型2.0版本的开发与交付,预计从今年底到明年一季度陆续在多个平台推出迭代版本[11][13] 公司技术发展方向 - 公司技术战略以世界模型为主,旨在打通自动驾驶时空认知能力,认为真正的技术上限在于以视频为核心,学习时空和物理规律的世界模型[11] - 世界模型2.0的开发将引入语言能力,目标是实现像人一样的开放式交互,构建Open-set智能引擎[11] - 行业层面,近期多家主机厂与新势力公司在组织架构上均有大动作,预示下一轮智能驾驶质变时刻的前兆[14]