Workflow
自动驾驶之心
icon
搜索文档
阿里AgentScope发布,掀翻了国产Agent的餐桌
自动驾驶之心· 2025-09-10 07:33
行业背景与趋势 - 人工智能正从单一模型向多模态、从AI Agent向Agentic AI过渡 形成由智能体驱动的新生态 [1] - 大语言模型快速发展推动智能体将内在知识与动态工具使用相结合 大幅提升处理现实任务的能力 [3] AgentScope 1.0框架定位 - 阿里通义实验室推出的企业级智能体开发框架 对标LangGraph [1] - 集成了阿里在Mobile-Agent、Qwen-Agent和Qwen-code等智能体框架方面的经验 是全面稳定的企业级解决方案 [2] - 深度融合消息驱动与分层架构 提供开箱即用、可扩展且易维护的企业级应用方案 [1] 核心架构设计 - 基于ReAct范式构建智能体行为 具备三大核心功能:Reply(推理行动生成响应)、Observe(处理外部信息更新状态)、Handle Interrupt(处理中断支持人机协作) [9] - 提供三大关键特性:实时控制(通过asyncio取消机制暂停循环)、并行工具调用与动态工具供应(单步骤生成多并行调用)、状态持久化与非侵入式定制(基于StateModule) [9] - 系统化异步设计提供高级智能体层基础设施 丰富人机交互与智能体间交互模式 提升执行效率 [3] 内置智能体能力 - 包含三类场景化智能体:深度研究智能体(集成Tavily搜索MCP 支持查询扩展分层反思过程总结)、浏览型智能体(集成Playwright MCP 支持视觉文本融合多标签浏览)、元规划智能体(支持分层任务分解动态实例化) [9] - 支持多智能体协作两种范式:"智能体作为工具"(主智能体调用专业智能体处理子任务)、"智能体对话"(通过Pipeline封装交互模式 MsgHub实现消息广播) [9] 开发者支持体系 - 提供分层评估模块:Task(单个评估单元)、SolutionOutput(标准化输出)、Metric(分类数值指标)、Benchmark(聚合任务suite) [9] - 包含两类评估器:GeneralEvaluator(单进程顺序执行适合调试)、RayEvaluator(基于Ray分布式适合大规模评估) 支持结果持久化与中断续跑 [9] - Studio可视化平台提供聊天机器人式对话追踪、评估结果可视化(性能分布图表置信区间)、内置副驾驶Friday(检索技术资源展示高级功能) [9] - Runtime运行时系统采用双核心架构:Engine(部署为FastAPI服务支持A2A协议)、Sandbox(提供隔离环境统一接口) 简化部署保障安全 [9] 典型应用场景 - 用户-助手对话:通过ReAct智能体与UserAgent构建 支持OpenAI、DashScope等多模型提供商 [9] - 多智能体对话:用MsgHub管理参与者 SequentialPipeline控制发言顺序 支持动态移除参与者 [9] - 深度研究智能体:自动分解研究任务补充知识缺口 生成结构化分析报告适用于学术市场研究 [9] - 浏览型智能体:集成Playwright处理网页快照分块长网页 响应查询股票价格等自动化指令 [9] - 元规划智能体:支持复杂任务分解(如Meta股票分析报告)和工作智能体动态管理 具备状态持久化能力适合多步骤工作流 [9]
自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
自动驾驶之心· 2025-09-10 07:33
核心技术创新 - 提出IRL-VLA闭环强化学习框架 通过逆向强化学习构建轻量级奖励世界模型(RWM) 取代高计算成本的仿真器奖励计算[3][9][15] - 采用三阶段训练范式:模仿学习预训练VLA策略、逆向强化学习构建RWM、RWM引导的PPO强化学习微调策略[3][15][26] - 在NAVSIM v2基准测试达到SOTA性能 EPDMS得分74.9 并在CVPR2025自动驾驶大奖赛以45.0 EPDMS获得亚军[3][15][48] 模型架构设计 - VLA模型包含语义推理模块(基于Senna-VLM的多图像编码)、3D推理模块(BEV编码器+向量化token)、统一扩散规划器(多模态轨迹生成)[18] - 扩散规划器采用分层去噪机制 整合BEV特征、地图标记和检测标记 确保轨迹符合环境约束[19] - 奖励世界模型以多视角图像和预测轨迹为输入 输出EPDMS综合评分 包含9项子指标加权计算[21][22][23] 性能表现对比 - 预训练模型(IRL-VLA-PT)在Navhard基准测试EPDMS达74.4 优于DiffusionDrive(63.2)、WOTE(66.7)和GTRS-Aug(74.3)[44] - 在安全指标(NC 98.3)接近GTRS-Aug(98.9)同时 显著提升舒适性指标(EC 76.0 vs 54.2)和进度指标(EP 83.9 vs 76.1)[44] - 强化学习微调后(IRL-VLA-RL)EPDMS进一步提升至74.9 证明闭环训练有效性[44][47] 技术实现细节 - 使用V2-99主干网络 处理256×704分辨率多视角图像输入[36] - 模仿学习阶段采用AdamW优化器(学习率10⁻⁴ 批量32)训练100周期[36] - RWM训练结合二元交叉熵、均方误差和交叉熵损失 使用专家演示数据与模拟器反馈[36] - 强化学习阶段采用PPO算法(截断参数0.2 折扣因子0.99 GAE参数0.95)在8块A100 GPU训练[36] 消融实验验证 - 完整模型(3D+语义推理+扩散规划器)比仅3D推理模型EPDMS提升4.4(74.4 vs 70.0)[47] - 模仿学习损失权重λ=0.5时取得最佳平衡 EPDMS达74.9 过高(λ=1.0)或过低(λ=0.1)均导致性能下降[47] - 扩散规划器单独贡献3.0 EPDMS提升 语义推理模块贡献1.4提升[47]
花了很久,才整理好的自动驾驶学习路线......
自动驾驶之心· 2025-09-10 07:33
最近秋招大规模开启了,很多业内公司联系我们发布招聘岗位,也感叹满足需求需求的同学越来越少。。。 因为一直在做自驾自媒体,我们也分析了自动驾驶的从业同学,主要有几类:机械/通信出身转码(算法接触 少)、自动化/计算机/电子信息专业、传统机器人领域。自动驾驶行业发展太快了,在学校里面学的东西根本跟 不上业界的发展,培养根本跟不上。22年入学的刚接触BEV,25年毕业就都是端到端、大模型了,好多入门的 同学都是野路子。这也不怪他们,毕竟很多高校老师转向也没那么快。 根因就是没有系统的培养体系,导致这方面的高质量人才严重不足。前面我们在社区内给大家梳理了很多自动驾 驶技术子领域的学习路线,大家可以好好学习下,助力成为一个真正懂自驾的从业者。 如果您还不是我们的成 员,欢迎加入我们和近4000名星球成员一起交流。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社 区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是 许多初学者和进阶的同学经常逛的地方。 社区内部还经常为大家解答各类实用问题:端到端如何入门? ...
超越GPT-4o!AgentThink: 清华&小米融合推理&工具调用的自动驾驶框架(EMNLP25)
自动驾驶之心· 2025-09-10 07:33
近年来,视觉语言模型(VLM)在自动驾驶领域展现出巨大潜力。凭借出色的场景理解与推理能力,VLM有望显著简化传统自动驾驶系统中依赖人工设计的感 知、预测与决策模块。然而,现有方法仍在不确定性建模、泛化性能与可解释性等方面存在明显局限。如何让自动驾驶VLM不仅"看得懂",更能像人类一样"思 考"——在复杂的自动驾驶环境中自主调用工具、进行推理与判断? 近日,由 清华大学、小米、麦吉尔大学 等团队联合提出的AgentThink框架,被自然语言处理顶会EMNLP 2025 Findings接收。该工作首次将动态工具调用与思维链 推理深度融合,极大提升了VLM在自动驾驶任务中的推理可靠性和泛化能力。目前,代码与项目网站均已开源。 现状与挑战 随着小米等车企在自动驾驶技术上的快速迭代,行业突破点正从基础感知与控制层面向 高阶语义场景理解 与 复杂拓扑关系 等问题收敛。比如一些大路口的复杂 红绿灯问题,以及一些复杂标牌的语义理解问题。此外,在探索和使用VLM的过程中,我们发现VLM模型存在严重的幻觉问题 (即模型给出的答案格式是对的, 但答案内容都是错的)。这就如同一个看似聪明的导航员,却总是给出错误的路线,让人哭笑不得 ...
自动驾驶论文速递 | 端到端、Diffusion、VLM、OCC等方向~
自动驾驶之心· 2025-09-09 15:51
端到端自动驾驶扩散策略KDP-AD - 同济大学与北卡罗来纳大学教堂山分校提出知识驱动扩散策略KDP 在匝道合并 交叉路口和环形交叉路口场景中分别实现100% 94%和90%成功率 显著优于强化学习 规则基和模仿学习基线方法[3] - 框架将混合专家重塑为抽象驾驶知识单元 实现模块化组合式策略学习 支持跨场景知识复用与新行为生成 融合扩散建模与专家路由机制 通过条件去噪生成时序连贯多模态动作序列 保障长时域一致性[5] - 在汇入匝道场景中成功率100% 零碰撞率 平均奖励197.52 平均速度8.61米/秒 在交叉路口场景成功率94% 碰撞率6% 平均奖励121.54 在环形交叉路口场景成功率90% 碰撞率10% 平均奖励177.85[12] 3D语义占用预测SliceSemOcc - 南京航空航天大学提出垂直切片多模态3D语义占用预测框架 在nuScenes-SurroundOcc数据集上将mIoU从24.7%提升至28.2% 相对提升14.2% 尤其在小型物体类别表现显著提升[16] - 采用双尺度垂直切片策略 提取全高度范围全局切片与聚焦小目标高度区间局部切片 通过双向交叉注意力机制融合特征 设计SEAttention3D通道注意力模块保留高度轴分辨率 生成高度层专属通道权重[17][19] - 在nuScenes-SurroundOcc和nuScenes-OpenOccupancy数据集分别实现28.2%和22.9%整体mIoU 较基线模型相对提升14.2%和13.9% 小目标类别障碍物 自行车 行人等增益显著[19][22] 交互式世界生成LatticeWorld - 网易与清华大学提出基于多模态大语言模型LLaMA-2-7B与Unreal Engine 5的交互式3D世界生成框架 实现90倍以上工业级场景生成效率提升 从55天缩短至0.6天以内 支持多模态输入与高保真物理仿真[27] - 设计32×32符号矩阵作为场景布局中间表示 将空间信息编码为LLM可处理序列形式 基于LoveDA和Wild数据集构建多模态数据集 包含文本描述 视觉指令 符号布局和环境配置[29] - 在场景布局准确性和视觉保真度上优于GPT-4o Claude 3.7 Sonnet等模型 较传统人工生产流程效率提升超90倍 保持高创作质量[29][35] 视觉语言模型空间推理Ego3D-Bench - 华为科技加拿大公司与华为云提出Ego3D-Bench基准和Ego3D-VLM后训练框架 提升视觉语言模型在自我中心多视角场景中三维空间推理能力 实现多选题准确率平均提升12%和绝对距离估计RMSE平均提升56%[37] - 基于nuScenes Waymo Open Dataset Argoverse 1构建8600+高质量问答对 覆盖绝对距离测量 相对距离测量 定位 运动推理 行驶时间5类任务 提出文本认知地图提升VLMs 3D空间推理能力[38] - 在16个SOTA VLMs上实验显示Ego3D-VLM平均提升多选项QA准确率12% 绝对距离估计RMSE相对改善56% 在All-Angle Bench VSI-Bench等其他多视图基准具适应性[38][42]
π0.5开源了!!!
自动驾驶之心· 2025-09-09 15:51
模型升级与开源 - π0.5模型通过知识隔离训练实现更强的开放世界泛化能力 是π0的升级版本 [3] - 项目开源并提供基于超1万小时机器人数据预训练的base模型 [5] 模型性能与基准测试 - π0.5模型在LIBERO基准测试中获得最先进性能 [9] - 模型在DROID数据集上通过知识隔离微调实现快速推理和良好语言跟随能力 [9] 框架支持与功能 - OpenPI同时提供π0和π0.5模型的PyTorch实现版本及原始JAX版本 [10] - PyTorch版本已在LIBERO基准测试中完成验证 涵盖推理与微调 [10] - 当前暂不支持π₀-FAST模型 混合精度训练 全分片数据并行训练 低秩自适应训练和训练期间的指数移动平均权重 [12]
当老师给我指了个VLA作为研究方向后.......
自动驾驶之心· 2025-09-09 11:42
小林是某C9高校的研二同学,目前实验室主要是做自动驾驶和机器人方向的。这两周刚开学,忙完 了寝室和班里里面杂七杂八的事情,该去实验室和老板Meeting一下了。老板这个暑假没闲着啊,看 了企业不少VLA都量产上车了,说咱们实验室也可以搞搞看,发发论文。 确实自动驾驶最近的热点都在大模型和VLA靠拢,然而VLA并不是那么好做的,对于一个新手或者 转行的同学,开展研究蛮难受的。踩了一年坑,也不一定能有效果。这时候,峰哥给他推荐了自动 驾驶之心的1v6论文辅导。 ⼀、VLA科研论文辅导课题来啦⭐ 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的开启。 1. 传统模块化架构的时代: 早期的自动驾驶系统(L2-L4级)普遍采用模块化设计。每个模块(如 物体检测、轨迹预测、路径规划)被独立开发和优化。 优势: 逻辑清晰,各模块可独立调试和 验证,具有较好的可 ...
悄悄搞了个大模型技术社区......
自动驾驶之心· 2025-09-09 11:42
大模型技术社区发展现状 - 社区核心关注领域包括大模型RAG、AI Agent、多模态大模型(预训练/微调/强化学习)以及部署推理优化等技术方向 [1] - 平台定位为国内最大的大模型技术社区 持续为行业输送技术人才和产业学术信息 [1] - 社区正在快速搭建技术模块 旨在吸引对大模型技术感兴趣的专业人士加入 [1] 社区价值主张 - 强调内容质量与人才培养 自称"认真做内容的社区"和"培养未来领袖的地方" [2] - 通过知识星球形式提供进阶学习机会 形成技术交流与知识共享的生态体系 [1]
强化学习真的很适用于自动驾驶吗?
自动驾驶之心· 2025-09-09 07:33
核心观点 - 论文提出GigaFlow强化学习框架 通过self-play方式在虚拟环境中训练自动驾驶策略 无需真实数据即可在CARLA nuPlan Waymax等基准测试中实现SOTA性能 [3][8][22] - 该方法使用纯虚拟数据训练 等效驾驶距离达16亿公里 训练成本低于每百万公里5美元 在8块A100 GPU上10天内完成训练 [21][25] - 模型参数规模较小(actor和critic各300万参数) 推理速度达每秒740万次决策 比实时快360,000倍 [21][25] 技术框架 - 环境设计采用8张地图的随机增强(伸缩/旋转/镜像) 最多支持150个交通参与者并行交互 所有参与者共享策略但具有不同驾驶风格参数 [14][17][21] - 观测空间包含静态道路点(黄色稀疏点)、道路边界(红色密集点)、动态交通参与者状态(尺寸/位置/方向/速度)及交通信号信息 [16] - 动作空间离散化为12个组合(横向jerk取值{-4,0,4} 纵向jerk取值{-15,-4,0,4}) [18] 奖励函数设计 - 包含目的地到达奖励 碰撞惩罚(公式:-Ocollision + 0.1v) 车道居中激励 闯红灯惩罚 加速度限制惩罚等10个组件 [12][15] - 奖励权重采用随机分布初始化(如碰撞惩罚权重U(0,3) 舒适性权重U(0.0,0.1))以模拟不同驾驶风格 [15][17] - 最终奖励为各组件加权和 权重参数作为agent条件输入 [18] 训练算法 - 使用PPO算法配合优势过滤(Advantage Filtering) 动态计算优势阈值(EMA衰减系数β=0.25)并丢弃低价值经验数据 [19][20] - 在8块A100 GPU上并行38,400个环境 批量大小260万 经验收集时带宽达740万决策/秒 [21] - 训练数据包含1万亿状态转移 等效9,500年主观驾驶经验(16亿公里) [25] 性能表现 - 在nuPlan测试中取得92%路线完成率 99%无碰撞率 93%进度得分 显著超过IDM、PlanCNN等基线方法 [26] - CARLA基准测试中碰撞率仅0.43% 违规率0.11% 进度完成率99.16% 接近专家演示水平 [28] - 模型能泛化到真实噪声环境 价值函数与人类直觉对齐(如转弯速度高时价值降低 靠近前车时价值下降) [22][32][34] 局限性 - 纯虚拟训练可能面临sim-to-real差异 依赖感知抽象结果而非原始传感器数据 [37] - 未融合真实数据模仿学习 传感器模拟可能降低训练效率 [36][37]
清华最新综述!200+文献全面凝练Agentic RAG最新进展~
自动驾驶之心· 2025-09-09 07:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 检索增强生成(Retrieval-Augmented Generation, RAG)通过注入外部知识提升了大语言模型的事实性,但在需要多步推理的问题上表现欠佳;反 之,纯推理导向的方法则常出现生成幻觉内容(hallucination)或事实依据不足的问题。本综述从"推理-检索协同"这一统一视角,整合了上述两大 研究方向。首先,本文梳理了先进推理技术如何优化RAG的各个阶段(即"推理增强型RAG");其次,阐述了不同类型的检索知识如何为复杂推理 补充缺失前提并扩展上下文(即"RAG增强型推理");最后,重点聚焦新兴的"协同式RAG-推理框架"——在这类框架中,具备智能体能力 (agentic)的LLM会迭代交替执行搜索与推理操作,从而在各类知识密集型基准测试中实现当前最优性能。本文对相关方法、数据集及开放挑战进 行了分类梳理,并勾勒出未来研究方向,旨在构建更高效、多模态适配、可信且以人为本的深度RAG-推理系统。 汇总链接:https://github.com/DavidZWZ/Awesome-RAG-Reasoning ...