Workflow
自动驾驶之心
icon
搜索文档
理想VLA到底是不是真的VLA?
自动驾驶之心· 2025-08-22 07:34
文章核心观点 - 理想MindVLA是机器人领域基于大语言模型(LLM)作为主干网络的狭义VLA(Vision-Language-Action)模型,通过多模态信息整合编码和决策输出实现更优的自动驾驶能力,其核心优势包括防御性驾驶、场景理解能力和轨迹稳定性 [2][5][7] 技术架构与原理 - VLA基于LLM作为主干网络,串行整合多模态信息(视觉、激光雷达、语言、地图、定位),输出决策并转换为轨迹及控制细节 [2] - 模型通过扩散模型生成轨迹,相比端到端(E2E)模型更收敛,具备稳定的中短时序轨迹生成能力 [10] - 语音功能是LLM的附加能力,具备基础语音和记忆功能 [11] 场景性能对比(VLA vs E2E+VLM) 防御性驾驶 - 在无遮挡十字路口行驶快速稳健,在有遮挡路口基于剩余距离丝滑减速,减速G值根据距离动态调整,无漏检或虚惊情况 [4][5] - E2E模型难以学会丝滑减速,VLM模块在丁字路口需强制减速但体感为急刹 [3] 拥堵场景决策 - VLA在拥堵高架场景中,让行2辆Cut-in车辆后主动向左变道,避免持续加塞,体现深度场景理解能力 [7] - E2E+VLM通常触发绕行逻辑,缺乏真实场景理解能力 [7] 非标准车道行驶 - VLA在1.5-2.5倍宽闸道轻微减速并居中行驶,无画龙现象 [9][11] - E2E+VLM在该场景100%出现轻微画龙轨迹 [10] 复杂路径规划 - VLA在路口右转后需短距离左转时选择直行并触发导航重规划,决策坚决 [11] - E2E+VLM大概率直接变道或小概率直行 [11] 能力边界与局限性 - 当前版本为辅助驾驶而非自动驾驶,需随时接管 [11] - 行车场景(地面/高架/高速)为完整技术栈,但偶发异常如绿灯不走或误判红绿灯 [11] - 部分场景控车细节仍逊于FSD,但选路能力在杭州优于FSD [11] 迭代与工程优化 - VLA因MoE(混合专家模型)和工程巧思,分场景、能力、细节并行优化,迭代速度快于E2E模型 [11] - 关键信息提取COT(Chain-of-Thought)延迟可接受,在路口15-20米触发防御性减速 [11] 硬件与部署 - 模型运行于2022年双OrinX计算芯片平台 [12]
没有高效的技术和行业信息渠道,很多时间浪费了。。。
自动驾驶之心· 2025-08-22 07:34
社区定位与规模 - 社区定位为自动驾驶技术交流平台,集学术与工程问题讨论于一体,成员来自国内外知名高校实验室和头部公司[16] - 社区规模已超过4000人,提供视频、图文、学习路线、问答和求职交流等综合内容[1] - 社区目标为培养未来领袖,提供高效信息收集渠道,解决行业信息不对称问题[1][3] 技术资源覆盖范围 - 提供近40+开源项目、近60+自动驾驶相关数据集及行业主流仿真平台汇总[16] - 涵盖数学基础、计算机视觉、深度学习、编程等入门资料[4] - 包含感知、规划控制、仿真、端到端、VLA、多模态大模型等完整学习路线[16][17] 企业合作与就业服务 - 与多家自动驾驶公司建立岗位内推机制,可第一时间将简历送至心仪公司[5] - 提供国内外自动驾驶公司汇总,涉及RoboTaxi、重卡业务、造车新势力等企业[28] - 汇集学术界和工业界大佬分享,包括超过100场专业技术直播[81] 技术领域细分内容 - 感知技术包括2D/3D检测、分割、跟踪、BEV感知、Occupancy Network等[4][19][49][56] - 规划控制涵盖轨迹预测、模型预测控制、强化学习等算法[4][17][58] - 仿真技术包含Carla、Apollo、Autoware等仿真平台及闭环仿真方法[4][16][77] - 前沿技术覆盖端到端自动驾驶、VLA、扩散模型、世界模型、3DGS与NeRF等[36][38][40][44][47] 数据集与工具资源 - 提供自动驾驶数据集汇总,包括通用CV数据集、感知数据集、轨迹预测数据集等[34] - 汇总标注工具、仿真框架、传感器标定开源工具等实用资源[4] - 包含多模态大模型预训练数据集、微调数据集、思维链数据集等专项数据[34] 实战应用与问题解答 - 提供模型压缩、部署优化、CUDA加速等实战落地内容[4][66][68] - 包含自动驾驶100问系列,涵盖TensorRT部署、毫米波雷达融合、规划控制等问题[4] - 支持成员自由提问工作选择、研究方向等问题,并获得行业解答[82][85] 学术研究与工业应用结合 - 汇总国内外高校自动驾驶团队及研究方向,供读研、申博参考[25] - 梳理学术界和工业界研究热点,如端到端自动驾驶兼顾量产方案与学术算法[36] - 分析行业技术发展路线、量产挑战及未来前景[85]
师兄自己发了篇端到端VLA,申博去TOP2了。。。
自动驾驶之心· 2025-08-21 19:24
文章核心观点 - 该公众号文章推广第二期VLA论文指导班 旨在通过系统化培训帮助学员在视觉-语言-行动模型领域发表高水平论文 课程提供从理论到实践的全流程支持 包括论文选题 代码实现 实验设计和写作投稿 [2][4][36] - 课程针对自动驾驶感知方向的研究生和学者 特别是资源有限但希望发表顶会论文的群体 通过提供idea 数据集和baseline代码降低研究门槛 [2][4][16] - 采用"2+1"多师制教学团队 包括主导师和科研班主任 提供14周结构化课程和后续论文维护支持 确保学员产出论文初稿 [15][23][25] 课程结构与内容 - 课程为期14周 每周1-1.5小时直播课 涵盖传统端到端自动驾驶 VLA端到端自动驾驶 模块化模型 统一模型和推理增强模型等核心主题 [10][12][32] - 具体课程安排包括:先导课和课题概览(Week1-2) 选题讨论(Week3) 传统端到端自动驾驶介绍(Week4-5) VLA端到端自动驾驶介绍(Week6-7) 模块化VLA模型(Week8-9) 统一端到端模型(Week10-11) 推理增强模型(Week12) 论文写作和投稿指导(Week13-14) [10][12][32] - 提供公开数据集如nuScenes Waymo和Argoverse 以及多个开源baseline代码库包括VAD UniAD DiffusionDrive OccNet OpenDriveVLA SimLingo和Senna [27][28][29] 招生与要求 - 每期限招6人 最多8人 目标学员包括VLA与自动驾驶方向的本硕博学生 申硕申博申请者 以及自动驾驶与AI领域从业者 [13][16] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好有8张4090显卡或以上算力设备 最低要求4张4090 也可租赁云服务器 [17][19][22] - 要求每周课前阅读资料并完成作业 全勤参与讨论 晚交作业或请假需提前1日通知 并保持学术诚信 [20][24] 课程产出与价值 - 学员将获得经典和前沿论文分析方法 理解算法原理和优劣势 激发研究idea思考 即使没有自选idea 导师会为每位学员提供一个研究idea [21][36] - 提升编码能力 在提供的baseline代码和数据集上高效开展实验 掌握论文写作 自查 修改的方法论和投稿建议 [21][36] - 最终产出包括论文初稿 项目结业证书 以及根据优秀程度提供的推荐信 [25][35] 教学支持与资源 - 采用"2+1"师资团队:主导师由名校教授 研究员或行业导师担任 科研班主任全程跟踪进度 解决非学术问题 [23][25][33] - 提供全学习周期服务 包括前期基础测试和学术准备 中期个性化教学和评估跟踪 后期知识复习和报告指导 [25] - 课程有效期3.5-4个月 答疑周期6个月 通过腾讯会议直播和小鹅通回放授课 [33][35]
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
自动驾驶之心· 2025-08-21 17:04
招生项目与导师背景 - 宁波东方理工大学联合上海交通大学和中国科学技术大学招收机器人方向联培直博生 学生学籍注册于上海交大或中科大 第一年课程学习与科研工作在上海交大或中科大进行 之后科研工作在东方理工开展 双导师指导 毕业后获得上海交大或中科大的博士学位和毕业证书 [1] - 导师李晓聪为宁波东方理工大学助理教授 副研究员和博士生导师 兼任新加坡国立大学客座助理教授及哈佛大学工程与应用科学学院客座研究员 2013年和2017年分别获得新加坡国立大学学士和博士学位 曾任哈佛大学博士后以及新加坡科研局制造技术研究院科学家 研究方向为控制 学习与机器人交叉领域 累计获得千万级别科研资助 担任IEEE Transactions on Automation Science and Engineering和IEEE Robotics & Automation Magazine副主编 [1] - 实验室提供充足助研津贴和实验设备支持 关注学生身心健康和长期职业发展 学生主导科研工作 导师不抢占一作 课题组无横向项目 学生可专心基础研究 有专职行政助理处理行政事务 鼓励体育锻炼 为继续深造学生推荐国外博后机会包括新国立 南洋理工和哈佛等 [2] - 研究方向包括接触丰富机器人操作 具身智能 敏捷机器人控制和机器人学习等 [2] 具身智能之心知识星球社区 - 社区为国内首个具身智能全栈技术社区 集视频 图文 学习路线 问答和求职交流为一体 近2000人规模 目标未来2年内达到近万人规模 [3] - 社区提供技术问题解答包括设备使用 数据采集和VA VLA模型部署等 解决数据采集背景复杂或数据dirty问题 [3] - 社区完成产业 学术 求职和问答交流等多个领域闭环 分享前沿研究解决方案和求职岗位对接 [5] - 社区梳理近30+技术路线 包括benchmark 综述和学习入门路线 缩短检索时间 邀请数十个一线产业界和学术界大佬嘉宾答疑解惑 [5] - 社区与多家具身公司建立岗位内推机制 第一时间将简历送至心仪公司 [11] - 社区成员来自斯坦福大学 加州大学 清华大学 西湖大学 上海交大 上海人工智能实验室 港科大 港大 南洋理工 新加坡国立 ETH 南京大学等高校 以及智元机器人 有鹿机器人 云深处 优必选 傅里叶机器人 开普勒机器人 小米 星海图 银河通用 星尘智能 逐际动力等公司 [17] - 社区汇总近40+开源项目 近60+具身智能相关数据集 行业主流具身仿真平台以及各类技术学习路线 [17] - 社区福利包括第一时间掌握学术进展和工业落地应用 与行业大佬交流工作与求职问题 结识同行业伙伴 专属学习视频 工作岗位推荐和行业机会挖掘 [18] - 社区汇总国内外具身智能高校和公司 涉及教育 宠物 工业 救援 物流 交互和医疗等方向 [19][21][22] - 社区汇总大模型和人形机器人等行业研报 机器人相关书籍PDF 机器人零部件制造厂商 开源项目 ToF与3D相机 数据采集与开源数据 具身智能仿真平台 强化学习 VLA+RL 具身智能感知学习路线 具身智能交互 视觉语言导航 触觉感知 多模态大模型理解与生成 大模型微调与量化推理 VLA/VA相关 Diffusion Policy 机器人导航与规划 大模型部署 sim2real 机械臂抓取 双足与四足机器人以及四足/轮式+机械臂等内容 [24][27][29][31][33][35][37][39][41][43][45][47][49][51][53][55][57][59][61][62][64][66][68][71][73][75][76] - 社区不定期邀请行业大佬直播分享 直播内容可反复观看 [78] - 社区成员可自由提问工作选择或研究方向问题并得到解答 [80] 行业技术趋势与职业发展 - 自动驾驶领域人员逐渐转向具身智能相关 技术栈基本通用 视觉语言导航和大模型方向可作为转型选择 需具备深度学习和Transformer基础 或关注基于深度学习的SLAM方向如替代ORB算子的方法 端到端导航利用大模型思路也可切入 目前仍采用传统方法兜底 [82] - 具身智能行业处于探索期 对标自动驾驶17/18年阶段 窗口期尚未饱和 技术重点在大模型和端到端 非SLAM SLAM在消费级机器人中主要满足基本定位建图需求 精度打磨收益受边界递减效应影响 [84][85] - 具身智能平均薪资较高 初创公司一两年工作经验总包可达70-80 但稳定性较差 第一份工作需权衡技术积累与薪资导向 [84] - 转型建议选择具身头部大厂以获取更多技术和行业资源 [84]
蔚来招聘大模型-端到端算法工程师!
自动驾驶之心· 2025-08-21 07:33
招聘职位 - 智能辅助驾驶端到端算法设计与研发 涵盖BEV感知、Lidar感知、占据网络、目标检测跟踪与预测、多模态大模型及强化学习算法 [1] - 算法开发、迭代、优化与部署在智能辅助驾驶应用中的具体实施 [1] - 职位要求包括深度学习、目标检测、多模态大模型、强化学习算法等相关领域项目经验 计算机或电子专业背景 精通PyTorch框架 [2] 求职社区 - AutoRobo知识星球专注于自动驾驶、机器人、具身智能和大模型求职 成员近1000名 涵盖社招和校招人群 [4][5] - 社区成员来自智元机器人、宇树科技、地平线、理想汽车、华为、小米汽车、momenta、元戎启行等行业公司 [4][5] - 社区提供面试题目、面经、行业研报、谈薪技巧、内推公司及简历优化服务 [5] 面试资源 - 自动驾驶领域面试一百问覆盖毫米波视觉融合、3D&4D毫米波雷达量产、车道线检测、规划控制、BEV感知、多传感器标定及多模态目标检测 [10] - 具身智能领域面试一百问包括Nerf、轨迹预测、Occupancy感知、相机标定、端到端自动驾驶、VLA及VLN视觉语言导航 [11][14] - 面经涵盖自动驾驶决策规划、滴滴出行、英伟达、上海AI Lab、美团、小米汽车及华为等公司的算法岗位经验 [17] 行业研究 - 星球内部汇总行业研报 包括世界机器人报告、中国具身智能创投报告、具身智能产业发展研究及人形机器人发展蓝皮书 [15] - 研报内容涉及行业发展趋势、市场机遇、技术路线及上下游产业分析 [15] 职业发展支持 - 提供谈薪技巧、HR面常见问题汇总及岗位谈薪关键回答 [19][21] - 分享专业基础书籍 如机器人、自驾、AI类相关书籍 以及转行自动驾驶行业的心得和面试官建议 [20][21] - 社区每日更新算法、开发、产品等岗位招聘信息 包括校招、社招和实习机会 [6]
VisionTrap: VLM+LLM教会模型利用视觉特征更好实现轨迹预测
自动驾驶之心· 2025-08-21 07:33
文章核心观点 - 提出VisionTrap方法 通过引入环视摄像头视觉输入和文本描述监督 显著提升轨迹预测精度 同时保持53毫秒低延迟实现实时处理 [3][4][5] - 创建nuScenes文本数据集 利用VLM和LLM生成精细化文本标注 为每个场景中的每个智能体提供丰富的行为描述 [6][37][40] - 视觉语义编码器与文本驱动引导模块结合 使模型能捕捉人类凝视、手势、转向信号等关键视觉线索 较基线模型提升预测精度20%以上 [5][17][46] 技术方法创新 - 视觉语义编码器采用BEV特征与可变形注意力机制 将环境信息注入智能体特征 计算效率较全局注意力提升显著 [14][16] - 文本驱动模块通过多模态对比学习 使同一智能体的视觉与文本特征在嵌入空间中对齐 正负样本相似度阈值设为0.8 [19][21][24] - 轨迹解码器引入变换模块学习旋转不变性 输出采用高斯混合模型建模 损失函数包含轨迹负对数似然与InfoNCE对比损失 [26][32][36] 实验验证结果 - 在nuScenes数据集上测试 完整模型达到ADE10指标0.368 较仅使用地图编码器的基线模型提升9.6% [46][47] - 视觉输入使预测误差降低27.56% 文本引导模块进一步将误报率(MR10)从0.36降至0.32 [46] - UMAP可视化显示引入文本语义后 相似行为智能体的特征嵌入呈现明显聚类效应 [48][49] 数据集构建 - 微调VLM生成初始标注后经GPT细化 消除冗余信息并增强动作描述准确性 流程涉及边界框拼接与提示词优化 [37][42] - 数据集包含动态文本描述 能随智能体行为变化实时更新 如"行人停止交谈并开始过马路"等场景化表述 [40][51] - 相较DRAMA数据集单智能体单标题的局限性 新数据集提供多智能体多维度描述 更适配预测任务需求 [37]
英伟达新研究:小模型才是智能体的未来?
自动驾驶之心· 2025-08-21 07:33
核心观点 - 英伟达最新论文指出小语言模型在Agent任务中比大语言模型更具经济性和灵活性 [3][4] - 实测数据显示6 7B参数的Toolformer调用API后性能超越175B的GPT-3 [6] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3 5和GPT-4o [7] 性能优势 - 小模型通过优化GPU资源和任务设计实现高效执行 [9] - 小模型体积小巧 可在GPU上并行运行多个工作负载并保持性能隔离 [11] - 更低的显存占用使超分配机制成为可能 提升并发能力 [12] - GPU资源可灵活划分 实现异构负载弹性调度和整体资源优化 [13] 成本优势 - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [24] - 小模型计算资源占用低 更适合本地或边缘部署 [24] - 大模型依赖中心化云计算 需要更高计算成本 [24] 任务适配性 - Agent任务多为重复性 可预测 范围明确 适合小模型处理 [17] - 专业微调的小模型执行子任务可避免大模型资源浪费 [20][23] - 小模型在较小数据量和资源条件下可高效微调 迭代更快 [24] 争议与挑战 - 反对观点认为大模型通用理解能力更强 在专业任务中表现更佳 [26] - 小模型单次推理成本低 但大规模部署时规模经济可能更重要 [30] - 当前GPU架构主要为大模型优化 不完全适配多模型并发 [33] - 小模型缺乏市场认知度和通用评估标准 [33] 实施路径 - 通过数据采集识别常见子任务 选择合适小模型进行微调 [36][37][38] - 构建持续反馈闭环机制优化模型性能和资源利用率 [39] - 结合不同规模语言模型 与查询复杂度级别相匹配 [32] 行业讨论 - 网友实测显示在简单任务中小模型更具成本效益 [41][42] - 小模型专业性可能导致应对复杂情况时不够鲁棒 [43] - 小模型遵循Unix"一个程序只做好一件事"的设计哲学 [44] - 需在功能多样性和操作复杂度之间作出取舍 [45][46]
VLM还是VLA?从现有工作看自动驾驶多模态大模型的发展趋势~
自动驾驶之心· 2025-08-21 07:33
基于LLM的自动驾驶决策方法 - 利用大语言模型的推理能力描述自动驾驶场景,处于自动驾驶与大模型结合的早期阶段 [4] - Distilling Multi-modal Large Language Models for Autonomous Driving 论文发表于arXiv [4] - LearningFlow 提出自动化策略学习工作流用于城市驾驶场景 [4] - CoT-Drive 使用思维链提示技术实现高效运动预测 [4] - PADriver 探索个性化自动驾驶解决方案 [4] - LanguageMPC 将大语言模型作为自动驾驶决策者 [6] - Driving with LLMs 融合对象级矢量模态实现可解释自动驾驶 [5] - A Language Agent for Autonomous Driving 项目主页位于USC-GVL实验室 [7] 基于VLM的自动驾驶决策方法 - 视觉语言模型成为当前主流范式,视觉是自动驾驶最依赖的传感器类型 [8] - Drive-R1 通过强化学习桥接VLM中的推理与规划能力 [8] - FutureSightDrive 使用时空调维思维链实现轨迹规划可视化 [8] - Generative Planning 利用3D视觉语言预训练进行端到端自动驾驶 [9] - ORION 通过视觉语言指令生成实现整体端到端自动驾驶框架 [12] - DriveVLM 实现自动驾驶与大视觉语言模型的融合 [12] - DriveGPT4 通过大语言模型实现可解释的端到端自动驾驶 [12] - LightEMMA 是轻量级端到端多模态自动驾驶模型 [12] 基于VLA的自动驾驶决策方法 - AutoVLA 结合自适应推理和强化微调的视觉-语言-动作模型 [17] - DiffVLA 使用视觉语言引导扩散规划进行自动驾驶 [18] - Impromptu VLA 提供开放权重和开放数据的驾驶视觉-语言-动作模型 [20] - DriveMoE 为端到端自动驾驶设计专家混合模型 [21] - OpenDriveVLA 致力于基于大视觉语言动作模型的端到端自动驾驶 [21] - AlphaDrive 通过强化学习和推理释放VLM在自动驾驶中的潜力 [17] - X-Driver 使用视觉语言模型实现可解释自动驾驶 [17] 研究机构与会议分布 - 多数研究以arXiv预印本形式发布,部分发表于ICLR 2024、ECCV 2024、NeurIPS 2024等顶级会议 [7][13][15] - 项目代码多开源在GitHub平台,包括PJLab-ADG、wayveai、USC-GVL等实验室仓库 [7][13][18] - 研究机构包括密歇根交通实验室、清华大学Mars实验室、上海交通大学ThinkLab等知名院校 [12][15][21]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-08-20 17:15
理想VLA司机大模型技术 - 理想VLA司机大模型具备四大核心能力:空间理解能力、思维能力、沟通与记忆能力以及行为能力,其中思维能力和沟通与记忆能力由语言模型提供,记忆能力采用RAG技术 [2] - VLA结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出,代表自动驾驶领域最前沿方向 [2] - VLA技术整合端到端、轨迹预测、视觉语言模型和强化学习等多个前沿技术栈,正在成为学术界和工业界关注焦点 [4] 自动驾驶技术发展趋势 - 传统BEV感知、车道线和Occupancy等技术在顶会中占比下降,工业界仍在优化传统方案但学术界已转向大模型与VLA方向 [4] - VLA技术站在VLM和端到端技术基础上,具备更类人的思考推理能力,是当前最前沿研究方向 [2] - 模块化VLA自动驾驶模型和统一的端到端VLA模型成为重点研究方向,涉及OpenDriveVLA、CoVLA-Agent等算法 [30] 科研培训课程内容 - 课程为期14周,包含先导课、课题概览、选题讨论、传统/VLA端到端自动驾驶技术讲解等模块 [8][10] - 提供经典论文分析、创新点挖掘、baseline代码实现、数据集使用等全流程科研支持 [13][19] - 学员可获得论文初稿、结业证书及推荐信,课程采用"2+1"多师制教学团队,包含名校教授和行业导师 [23] 技术资源支持 - 提供多个开源代码库包括基于模仿学习的VAD、基于扩散模型的DiffusionDrive以及VLA方向的OpenDriveVLA等 [26] - 使用nuScenes、Waymo、Argoverse等公开自动驾驶数据集,VLA任务可结合大语言模型生成数据 [27] - 重点论文包括《A Survey on Vision-Language-Action Models for Autonomous Driving》等5篇核心文献 [28][29] 学员培养目标 - 帮助学员系统掌握VLA理论体系,解决知识碎片化问题,形成完整科研方法论 [5] - 通过baseline代码实践和论文写作指导,使学员具备独立完成科研论文能力 [5][19] - 针对不同基础学员提供先修课程,要求掌握Python和PyTorch,建议配备4-8张4090显卡 [20]
自动驾驶一周论文精选!端到端、VLA、感知、决策等~
自动驾驶之心· 2025-08-20 11:28
自动驾驶技术研究进展 核心观点 - 近期自动驾驶领域涌现大量创新研究成果 涉及端到端驾驶 感知 VLM Benchmark等多个方向 [2] - 自动驾驶之心知识星球已构建产业 学术 求职 问答的闭环生态 提供40+技术路线梳理和数十位行业专家资源 [4] 端到端自动驾驶 - 中科大GMF-Drive提出门控Mamba融合与空间感知BEV表征的端到端方案 [8] - 清华与比亚迪合作开发ME³-BEV框架 结合Mamba架构增强BEV感知的深度强化学习 [8] - 博世联合清华等提出IRL-VLA方案 通过免仿真器强化学习训练VLA驾驶模型 获CVPR亚军 [8] 感知与VLM技术 - VISTA模型实现基于视觉语言模型的驾驶员注意力时空预测及自然语言解释 [7] - 清华团队开发VLM-3D框架 实现开放世界端到端视觉语言模型驱动的3D感知 [10] - 慕尼黑工业大学Dream-to-Recon方案利用扩散-深度蒸馏实现单目图像三维重建 [10] 决策规控领域 - 安全关键型自动驾驶BEV感知技术获系统性综述 [10] - 清华CBDES MoE架构首创模块级动态路由 实现功能解耦专家混合 [10] - 加拿大温莎大学RMT-PPAD模型通过Transformer实现实时多任务全景感知 [10] 仿真测试与数据集 - 北大ReconDreamer-RL框架结合扩散场景重建增强强化学习 [11] - STRIDE-QA数据集提供城市驾驶场景时空推理的大规模视觉问答资源 [12]