OmniDrive - 财报，业绩电话会，研报，新闻

OmniDrive

搜索文档

自动驾驶之心· 2025-12-28 11:30

文章核心观点 - 2025年是自动驾驶从“感知驱动”向“空间智能”全面转型的分水岭[3] - 空间智能是对空间信息进行感知、表征、推理、决策与交互的综合能力，是将三维物理空间信息转化为可计算模型的核心基础[3] - 当前空间智能技术更多停留在感知和表征层面，在深层次的推理决策和交互能力上仍有待突破，因此存在大量发展机会[3] 世界模型在重构物理世界的“预演能力” - **GAIA-2 (Wayve)**: 一种面向自动驾驶的多视图生成式世界模型，通过潜在扩散技术，以自车动力学、道路语义及多智能体交互为控制条件，生成符合物理规律且时空一致的驾驶视频，为破解长尾效应提供数据闭环方案[5] - **GAIA-3 (Wayve)**: 模型规模较GAIA-2提升5倍，旨在通过捕获细粒度时空上下文来表征现实世界的物理因果结构[9] - **GAIA系列空间突破**: 通过潜在扩散模型和超高空间压缩比，实现了多相机视角下的时空一致性，构建了具备物理常识的“沙盒”，解决了空间扭曲问题[10] - **ReSim**: 通过将真实世界专家轨迹与模拟器生成的非专家/危险行为数据进行异构融合，利用扩散Transformer架构实现了对极端与罕见驾驶行为的高保真、强可控模拟[11] - **ReSim空间突破**: 解决了AI对极端空间状态的认知缺失，让AI学会“撞车瞬间的空间演变”，实现了对高风险物理交互的高保真模拟[12] 多模态推理实现从“语义描述”到“几何推理” - **SIG**: 提出“空间智能网格”结构化图谱方案，通过将场景布局、物体关系及物理先验显式编码为网格语义，替代传统纯文本提示，并建立SIGBench基准，旨在解决多模态大模型依赖语言捷径、缺乏真实几何推理能力的难题[16] - **OmniDrive**: 通过引入“反事实推理”生成大规模3D问答数据集，并配合Omni-L/Q代理模型，实现了视觉语言模型从2D认知向3D空间理解与规划的深度对齐[19] - **OmniDrive空间突破**: 引入“反事实推理”，弥补了语言逻辑与物理轨迹之间的鸿沟，让VLM能够真正理解三维环境下的风险评估[19] - **SimLingo**: 一款基于通用视觉语言模型且仅依赖摄像头的闭环自动驾驶系统，通过引入“动作梦境”任务解决了言行不一的难题，实现了驾驶行为与语义指令的高度对齐[21] - **SimLingo空间突破**: 提出“动作梦境”任务，AI必须预测出精确的物理执行信号，证明了通用大模型在理解复杂城市空间后的实时决策潜力[24] 三维物理实体的“实时数字孪生” - **DrivingRecon**: 一款通用型4D高斯重建大模型，通过直接从环视视频中预测4D高斯参数，并结合创新的PD-Block空间优化与动静解耦技术，实现了高效、高保真的自动驾驶场景动态重建与多任务仿真[26] - **DrivingRecon空间突破**: 实现了端到端4D高斯重建，通过“动静解耦”技术精准捕捉路面背景与动态障碍物的几何特征，提供了近乎实时的物理环境数字孪生[26] - **VR-Drive**: 通过引入“前馈3D高斯泼溅”作为辅助任务，实现了无需逐场景优化的在线新视角合成，显著增强了智驾系统在不同相机配置和视角偏差下的鲁棒性[29] - **VR-Drive空间突破**: 解决了硬件适配痛点，即使相机安装角度偏了5度，AI也能通过空间想象力补齐偏差，确保感知与规划在不同物理配置下的稳定性[29] 具身融合——打破“车”与“人”的空间隔阂 - **MiMo-Embodied (小米)**: 全球首个开源跨具身通用大模型，通过多阶段学习、思维链及强化学习微调，首次实现了自动驾驶与具身智能两大领域的深度融合[31] - **MiMo-Embodied空间突破**: 实验证明车辆对宏观交通流的空间感知可增强机器人导航，而机器人对微观物体交互的理解能反哺车辆决策，标志着自动驾驶被纳入“具身智能”版图[32] - **DriveGPT4-V2**: 一款基于多模态大语言模型的闭环端到端自动驾驶框架，通过多视角视觉标记器融合环视图像与车辆状态，并引入专家LLM进行在线模仿学习，实现了能够直接输出底层控制信号的高性能、可解释驾驶决策系统[36] - **DriveGPT4-V2空间突破**: 从“看图说话”进化到“闭环控制”，AI在环视视野中保持高局部空间细节，直接输出转向、加速等底层物理指令，实现了端到端空间智能的闭环落地[37] 工业界架构演进与共识 - **行业共识**: 2025年工业界在自动驾驶架构设计上达成高度共识，即从传统的模块化架构向端到端的VLA架构演进，旨在利用大语言模型的常识推理能力辅助驾驶决策[40] - **Waymo的EMMA与通用基础模型**: Waymo展示了其端到端多模态模型EMMA，该模型构建在Gemini等大规模预训练模型之上，直接将原始摄像头传感器数据映射为驾驶轨迹、感知对象和道路图元素，其核心理念是将所有非传感器输入和输出均表示为自然语言文本[41] - **Waymo的快速与慢速思考架构**: 提出“快速思考与慢速思考”架构，传感器融合编码器负责快速反应性动作，驾驶VLM负责处理复杂的语义推理，例如能通过语义分析命令车辆绕行路面起火等罕见场景[41] - **DeepRoute.ai与可解释的VLA**: 元戎启行推出的DeepRoute IO 2.0架构核心优势在于引入思维链推理，有效解决了端到端模型的“黑盒”问题[43] - **DeepRoute IO 2.0能力**: 系统不仅能执行驾驶动作，还能通过语言模型解释其决策路径，具备强大的空间意识和光学字符识别能力，能实时解读复杂路牌和临时交通指令[44] - **统一具身智能趋势**: MiMo-Embodied的出现标志着自动驾驶与具身机器人在空间智能层面的合流，该模型在12项自动驾驶基准测试及17项机器人基准测试中均创造了新记录[45] - **理想汽车的MindVLA**: 引入了空间智能概念，主要体现在3D Feature上，视觉和Lidar经由3D Encoder得到时序融合后的特征，再经由3D projector传递到下游的MindGPT中[45]

半导体芯闻· 2025-12-09 18:36

文章核心观点 - 随着芯片设计复杂度的提升（规模增大、Chiplet架构、3D布局），整个半导体供应链面临重大挑战，EDA厂商思尔芯分享了其应对策略与产品布局[2] - 思尔芯作为一家拥有超过20年历史的EDA公司，正从专注于原型验证的厂商，向提供覆盖架构设计到验证调试的“全流程”数字EDA解决方案供应商迈进[4][6][8] - 公司通过持续的产品迭代、技术革新（如RCF流程）以及对新兴领域（如AI、RISC-V）的生态布局来应对市场挑战，并采用“乡村包围城市”的策略服务预算有限的芯片初创公司[5][6][10] 行业背景与挑战 - 芯片设计复杂度激增：芯片规模越来越大，架构从单芯片走向Chiplet，布局从2D走向3D，给芯片设计师和供应链带来前所未有的挑战[2] - AI发展加剧验证挑战：AI算法快速变化，设计日益复杂且迭代迅速，给硬件仿真和原型验证带来巨大挑战[5] - 市场竞争激烈：国内EDA市场竞争加剧，公司需要同时应对国外三大巨头和国内厂商的竞争[10] 公司发展历程与战略聚焦 - 创立背景：公司于2003年由林俊雄在美国硅谷创立，2004年在上海设立总部和首个研发中心，创立灵感源于EDA学术界对行业大变革时代的判断[4] - 长期聚焦原型验证：过去20多年，公司主要聚焦于解决芯片功能验证问题，通过FPGA原型验证帮助客户加速验证、设计、开发，降低流片风险和成本[4][5] - 产品迭代迅速：自2005年推出第一代原型验证系统以来，公司已推出八代产品，持续升级以满足客户需求[5] - 战略扩展：从两年前开始，公司从提供点工具向提供“全流程”数字EDA解决方案迈进，产品线已覆盖架构设计、软件仿真、硬件仿真、原型验证、数字调试及EDA云[8] 核心技术、产品与解决方案 - **原型验证核心价值**：通过将RTL移植到FPGA原型进行ASIC功能验证，可并行启动驱动开发，大幅缩短项目周期，降低芯片风险和成本[5] - **应对大规模设计的技术革新**：公司在分割软件上大量投入，推出RCF（RTL Compile Flow）最新技术，在RTL层面进行分割，实现多并行处理，加速大型设计（尤其是AI相关的大数据需求）的开发流程[5][10] - **针对RISC-V的解决方案**：针对RISC-V指令集可自定义扩展、版本多样的特点，公司提供原型验证系统作为载体，帮助IP厂商向客户演示和测试最新IP，例如开芯院团队已在其S8-100系统上成功完成从双核到十六核的关键系统验证[6] - **全流程产品组合**： - 架构设计工具：Genesis芯神匠[8] - 软件仿真工具：PegaSim芯神驰[8] - 硬件仿真系统：OmniArk芯神鼎（支持双模式）[8] - 原型验证系统：Prodigy芯神瞳[8] - 数字调试工具：Claryti芯神觉[8] - EDA云工具[8] - **近期核心新品**： - OmniDrive：灵活高效的双模式硬件仿真系统，支持硬件仿真和原型验证模式，为不同设计阶段提供最优性价比和效率选择[8] - RTL Compile Flow：实现更智能、更快速的大规模设计分割与编译流程，提升设计处理效率与质量[10] 市场合作与竞争策略 - **广泛的市场合作**：作为国内首家数字EDA供应商，公司已与超过600家国内外企业建立合作，服务领域涵盖人工智能、高性能计算、图像处理、数据存储、信号处理等，最终应用于物联网、云计算、5G通信、智慧医疗、汽车电子等领域[10] - **差异化竞争策略**：采用“乡村包围城市”的方法，主要服务预算较低的芯片初创公司，为其提供硬件产品作为评估载体，满足其向客户演示的需求[10] 未来发展方向 - 产品线补齐与丰富：一方面继续聚焦补齐验证产品线，另一方面继续丰富全流程产品线[11] - 生态提前布局：在RISC-V、AI等产品生态上提前进行布局[11] - 构建应用与生态：公司的目标不仅是提供产品，还包括构建应用和生态，服务好客户和IP伙伴[11]

快慢双系统评测！Bench2ADVLM：专为自动驾驶VLM设计（南洋理工）

自动驾驶之心· 2025-08-08 07:32

视觉-语言模型在自动驾驶中的应用 - 视觉-语言模型（VLMs）成为自动驾驶领域的新范式，因其强大的泛化能力和可解释性受到关注 [3][4] - 当前基于VLM的自动驾驶系统（ADVLMs）评估主要局限于开环设置，无法反映真实交互行为 [3][4] - BENCH2ADVLM首次提出闭环评估框架，通过双系统架构实现仿真与物理平台的实时交互测试 [3][6] BENCH2ADVLM框架设计 - 采用双系统适应架构：快系统（目标ADVLMs）生成高级驾驶命令，慢系统（通用VLMs）转换为可执行控制动作 [14][16][17] - 物理控制抽象层将中级动作映射到真实车辆执行信号，支持Jetbot和LIMO平台的硬件在环测试 [19][20] - 自反性场景生成模块基于220条标准路线自动创建威胁场景，针对性暴露模型缺陷 [14][22][24] 实验验证与性能分析 - 测试四种主流ADVLMs：OmniDrive表现最优（成功率12.99%，驾驶分数43.75），其余模型闭环性能有限 [25][26] - LLaMA-3-8B与LLaVA-1.5-13B解析模型各具优势：LLaMA侧重成功率（10.45 vs 5.00），LLaVA提升驾驶分数（42.06 vs 38.79） [26][28] - 真实世界测试中，OmniDrive路线完成率达82%（Jetbot）和86%（LIMO），但整体性能较仿真下降26.1% [31][32][34] 技术改进方向 - 细粒度控制改进使DriveLM成功率从9.09%提升至12.52%，验证控制信号优化的必要性 [35] - 混合模式切换策略结合LLaMA与LLaVA优势，同步提升成功率（9.23）和效率（131.29） [36] - 当前局限包括真实场景复杂度不足（仅测试小型车辆）和缺乏多智能体交互评估 [38] 行业技术发展趋势 - 行业正从模块化流水线转向端到端系统，并进一步探索视觉-语言模型的集成 [4] - 闭环评估成为新需求，需解决语义决策与物理执行的接口问题 [5][6] - 轻量化设计（如EM-VLM4AD）与鲁棒性（如OmniDrive）是ADVLMs两大发展方向 [26][32]

基于视觉-语言模型的自动驾驶系统（ADVLMs）

基于视觉-语言模型的自动驾驶系统（ADVLMs）