Workflow
OmniDrive
icon
搜索文档
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 11:30
文章核心观点 - 2025年是自动驾驶从“感知驱动”向“空间智能”全面转型的分水岭[3] - 空间智能是对空间信息进行感知、表征、推理、决策与交互的综合能力,是将三维物理空间信息转化为可计算模型的核心基础[3] - 当前空间智能技术更多停留在感知和表征层面,在深层次的推理决策和交互能力上仍有待突破,因此存在大量发展机会[3] 世界模型在重构物理世界的“预演能力” - **GAIA-2 (Wayve)**: 一种面向自动驾驶的多视图生成式世界模型,通过潜在扩散技术,以自车动力学、道路语义及多智能体交互为控制条件,生成符合物理规律且时空一致的驾驶视频,为破解长尾效应提供数据闭环方案[5] - **GAIA-3 (Wayve)**: 模型规模较GAIA-2提升5倍,旨在通过捕获细粒度时空上下文来表征现实世界的物理因果结构[9] - **GAIA系列空间突破**: 通过潜在扩散模型和超高空间压缩比,实现了多相机视角下的时空一致性,构建了具备物理常识的“沙盒”,解决了空间扭曲问题[10] - **ReSim**: 通过将真实世界专家轨迹与模拟器生成的非专家/危险行为数据进行异构融合,利用扩散Transformer架构实现了对极端与罕见驾驶行为的高保真、强可控模拟[11] - **ReSim空间突破**: 解决了AI对极端空间状态的认知缺失,让AI学会“撞车瞬间的空间演变”,实现了对高风险物理交互的高保真模拟[12] 多模态推理实现从“语义描述”到“几何推理” - **SIG**: 提出“空间智能网格”结构化图谱方案,通过将场景布局、物体关系及物理先验显式编码为网格语义,替代传统纯文本提示,并建立SIGBench基准,旨在解决多模态大模型依赖语言捷径、缺乏真实几何推理能力的难题[16] - **OmniDrive**: 通过引入“反事实推理”生成大规模3D问答数据集,并配合Omni-L/Q代理模型,实现了视觉语言模型从2D认知向3D空间理解与规划的深度对齐[19] - **OmniDrive空间突破**: 引入“反事实推理”,弥补了语言逻辑与物理轨迹之间的鸿沟,让VLM能够真正理解三维环境下的风险评估[19] - **SimLingo**: 一款基于通用视觉语言模型且仅依赖摄像头的闭环自动驾驶系统,通过引入“动作梦境”任务解决了言行不一的难题,实现了驾驶行为与语义指令的高度对齐[21] - **SimLingo空间突破**: 提出“动作梦境”任务,AI必须预测出精确的物理执行信号,证明了通用大模型在理解复杂城市空间后的实时决策潜力[24] 三维物理实体的“实时数字孪生” - **DrivingRecon**: 一款通用型4D高斯重建大模型,通过直接从环视视频中预测4D高斯参数,并结合创新的PD-Block空间优化与动静解耦技术,实现了高效、高保真的自动驾驶场景动态重建与多任务仿真[26] - **DrivingRecon空间突破**: 实现了端到端4D高斯重建,通过“动静解耦”技术精准捕捉路面背景与动态障碍物的几何特征,提供了近乎实时的物理环境数字孪生[26] - **VR-Drive**: 通过引入“前馈3D高斯泼溅”作为辅助任务,实现了无需逐场景优化的在线新视角合成,显著增强了智驾系统在不同相机配置和视角偏差下的鲁棒性[29] - **VR-Drive空间突破**: 解决了硬件适配痛点,即使相机安装角度偏了5度,AI也能通过空间想象力补齐偏差,确保感知与规划在不同物理配置下的稳定性[29] 具身融合——打破“车”与“人”的空间隔阂 - **MiMo-Embodied (小米)**: 全球首个开源跨具身通用大模型,通过多阶段学习、思维链及强化学习微调,首次实现了自动驾驶与具身智能两大领域的深度融合[31] - **MiMo-Embodied空间突破**: 实验证明车辆对宏观交通流的空间感知可增强机器人导航,而机器人对微观物体交互的理解能反哺车辆决策,标志着自动驾驶被纳入“具身智能”版图[32] - **DriveGPT4-V2**: 一款基于多模态大语言模型的闭环端到端自动驾驶框架,通过多视角视觉标记器融合环视图像与车辆状态,并引入专家LLM进行在线模仿学习,实现了能够直接输出底层控制信号的高性能、可解释驾驶决策系统[36] - **DriveGPT4-V2空间突破**: 从“看图说话”进化到“闭环控制”,AI在环视视野中保持高局部空间细节,直接输出转向、加速等底层物理指令,实现了端到端空间智能的闭环落地[37] 工业界架构演进与共识 - **行业共识**: 2025年工业界在自动驾驶架构设计上达成高度共识,即从传统的模块化架构向端到端的VLA架构演进,旨在利用大语言模型的常识推理能力辅助驾驶决策[40] - **Waymo的EMMA与通用基础模型**: Waymo展示了其端到端多模态模型EMMA,该模型构建在Gemini等大规模预训练模型之上,直接将原始摄像头传感器数据映射为驾驶轨迹、感知对象和道路图元素,其核心理念是将所有非传感器输入和输出均表示为自然语言文本[41] - **Waymo的快速与慢速思考架构**: 提出“快速思考与慢速思考”架构,传感器融合编码器负责快速反应性动作,驾驶VLM负责处理复杂的语义推理,例如能通过语义分析命令车辆绕行路面起火等罕见场景[41] - **DeepRoute.ai与可解释的VLA**: 元戎启行推出的DeepRoute IO 2.0架构核心优势在于引入思维链推理,有效解决了端到端模型的“黑盒”问题[43] - **DeepRoute IO 2.0能力**: 系统不仅能执行驾驶动作,还能通过语言模型解释其决策路径,具备强大的空间意识和光学字符识别能力,能实时解读复杂路牌和临时交通指令[44] - **统一具身智能趋势**: MiMo-Embodied的出现标志着自动驾驶与具身机器人在空间智能层面的合流,该模型在12项自动驾驶基准测试及17项机器人基准测试中均创造了新记录[45] - **理想汽车的MindVLA**: 引入了空间智能概念,主要体现在3D Feature上,视觉和Lidar经由3D Encoder得到时序融合后的特征,再经由3D projector传递到下游的MindGPT中[45]
从点工具到全流程,思尔芯的突围之路
半导体芯闻· 2025-12-09 18:36
文章核心观点 - 随着芯片设计复杂度的提升(规模增大、Chiplet架构、3D布局),整个半导体供应链面临重大挑战,EDA厂商思尔芯分享了其应对策略与产品布局[2] - 思尔芯作为一家拥有超过20年历史的EDA公司,正从专注于原型验证的厂商,向提供覆盖架构设计到验证调试的“全流程”数字EDA解决方案供应商迈进[4][6][8] - 公司通过持续的产品迭代、技术革新(如RCF流程)以及对新兴领域(如AI、RISC-V)的生态布局来应对市场挑战,并采用“乡村包围城市”的策略服务预算有限的芯片初创公司[5][6][10] 行业背景与挑战 - 芯片设计复杂度激增:芯片规模越来越大,架构从单芯片走向Chiplet,布局从2D走向3D,给芯片设计师和供应链带来前所未有的挑战[2] - AI发展加剧验证挑战:AI算法快速变化,设计日益复杂且迭代迅速,给硬件仿真和原型验证带来巨大挑战[5] - 市场竞争激烈:国内EDA市场竞争加剧,公司需要同时应对国外三大巨头和国内厂商的竞争[10] 公司发展历程与战略聚焦 - 创立背景:公司于2003年由林俊雄在美国硅谷创立,2004年在上海设立总部和首个研发中心,创立灵感源于EDA学术界对行业大变革时代的判断[4] - 长期聚焦原型验证:过去20多年,公司主要聚焦于解决芯片功能验证问题,通过FPGA原型验证帮助客户加速验证、设计、开发,降低流片风险和成本[4][5] - 产品迭代迅速:自2005年推出第一代原型验证系统以来,公司已推出八代产品,持续升级以满足客户需求[5] - 战略扩展:从两年前开始,公司从提供点工具向提供“全流程”数字EDA解决方案迈进,产品线已覆盖架构设计、软件仿真、硬件仿真、原型验证、数字调试及EDA云[8] 核心技术、产品与解决方案 - **原型验证核心价值**:通过将RTL移植到FPGA原型进行ASIC功能验证,可并行启动驱动开发,大幅缩短项目周期,降低芯片风险和成本[5] - **应对大规模设计的技术革新**:公司在分割软件上大量投入,推出RCF(RTL Compile Flow)最新技术,在RTL层面进行分割,实现多并行处理,加速大型设计(尤其是AI相关的大数据需求)的开发流程[5][10] - **针对RISC-V的解决方案**:针对RISC-V指令集可自定义扩展、版本多样的特点,公司提供原型验证系统作为载体,帮助IP厂商向客户演示和测试最新IP,例如开芯院团队已在其S8-100系统上成功完成从双核到十六核的关键系统验证[6] - **全流程产品组合**: - 架构设计工具:Genesis芯神匠[8] - 软件仿真工具:PegaSim芯神驰[8] - 硬件仿真系统:OmniArk芯神鼎(支持双模式)[8] - 原型验证系统:Prodigy芯神瞳[8] - 数字调试工具:Claryti芯神觉[8] - EDA云工具[8] - **近期核心新品**: - OmniDrive:灵活高效的双模式硬件仿真系统,支持硬件仿真和原型验证模式,为不同设计阶段提供最优性价比和效率选择[8] - RTL Compile Flow:实现更智能、更快速的大规模设计分割与编译流程,提升设计处理效率与质量[10] 市场合作与竞争策略 - **广泛的市场合作**:作为国内首家数字EDA供应商,公司已与超过600家国内外企业建立合作,服务领域涵盖人工智能、高性能计算、图像处理、数据存储、信号处理等,最终应用于物联网、云计算、5G通信、智慧医疗、汽车电子等领域[10] - **差异化竞争策略**:采用“乡村包围城市”的方法,主要服务预算较低的芯片初创公司,为其提供硬件产品作为评估载体,满足其向客户演示的需求[10] 未来发展方向 - 产品线补齐与丰富:一方面继续聚焦补齐验证产品线,另一方面继续丰富全流程产品线[11] - 生态提前布局:在RISC-V、AI等产品生态上提前进行布局[11] - 构建应用与生态:公司的目标不仅是提供产品,还包括构建应用和生态,服务好客户和IP伙伴[11]
快慢双系统评测!Bench2ADVLM:专为自动驾驶VLM设计(南洋理工)
自动驾驶之心· 2025-08-08 07:32
视觉-语言模型在自动驾驶中的应用 - 视觉-语言模型(VLMs)成为自动驾驶领域的新范式,因其强大的泛化能力和可解释性受到关注 [3][4] - 当前基于VLM的自动驾驶系统(ADVLMs)评估主要局限于开环设置,无法反映真实交互行为 [3][4] - BENCH2ADVLM首次提出闭环评估框架,通过双系统架构实现仿真与物理平台的实时交互测试 [3][6] BENCH2ADVLM框架设计 - 采用双系统适应架构:快系统(目标ADVLMs)生成高级驾驶命令,慢系统(通用VLMs)转换为可执行控制动作 [14][16][17] - 物理控制抽象层将中级动作映射到真实车辆执行信号,支持Jetbot和LIMO平台的硬件在环测试 [19][20] - 自反性场景生成模块基于220条标准路线自动创建威胁场景,针对性暴露模型缺陷 [14][22][24] 实验验证与性能分析 - 测试四种主流ADVLMs:OmniDrive表现最优(成功率12.99%,驾驶分数43.75),其余模型闭环性能有限 [25][26] - LLaMA-3-8B与LLaVA-1.5-13B解析模型各具优势:LLaMA侧重成功率(10.45 vs 5.00),LLaVA提升驾驶分数(42.06 vs 38.79) [26][28] - 真实世界测试中,OmniDrive路线完成率达82%(Jetbot)和86%(LIMO),但整体性能较仿真下降26.1% [31][32][34] 技术改进方向 - 细粒度控制改进使DriveLM成功率从9.09%提升至12.52%,验证控制信号优化的必要性 [35] - 混合模式切换策略结合LLaMA与LLaVA优势,同步提升成功率(9.23)和效率(131.29) [36] - 当前局限包括真实场景复杂度不足(仅测试小型车辆)和缺乏多智能体交互评估 [38] 行业技术发展趋势 - 行业正从模块化流水线转向端到端系统,并进一步探索视觉-语言模型的集成 [4] - 闭环评估成为新需求,需解决语义决策与物理执行的接口问题 [5][6] - 轻量化设计(如EM-VLM4AD)与鲁棒性(如OmniDrive)是ADVLMs两大发展方向 [26][32]