VLM - 财报，业绩电话会，研报，新闻

VLM

搜索文档

理想TOP2· 2025-10-18 16:44

技术架构差异 - VLM采用外挂式架构，作为视觉语言动作模型向端到端模型输出减速等指令，例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构，其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感，所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态，不同道路盲区减速的G值差异显著，更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制，其作用层级和稳定性存在不确定性，完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型，通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流，直接进行综合判断并输出动作 [2]

【汽车智能化10月投资策略】先发优势稳固，后发发力追赶，继续看好智能化主线！

东吴汽车黄细里团队· 2025-10-17 17:20

文章核心观点 - 市场预计在第四季度将重新重视智能化的投资机会，认为智能化是AI在物理世界的重要应用，未来3-5年有望超预期发展 [2] - 2026年被预计为Robotaxi大年，核心玩家将加速入局L4级别自动驾驶 [2] - 当前智能化产业的投资逻辑为“港股>A股且软件>硬件且B端>C端”，推荐组合包括小鹏汽车-W、地平线机器人-W、曹操出行 [4][9] Q4智能化投资机会分析 - 与去年Q4相比，今年Q4的智能化逻辑更强调AI本身的演绎，而非与汽车逻辑的共振，产业兑现能力因玩家能力上台阶而变强 [3][9] - 投资焦点从去年的硬件机会和C端销量带动，转向今年的软件机会和B端突破 [3][9] - Q4存在多项重要催化剂，包括特斯拉V14版本发布、小鹏科技日披露Robotaxi计划、小马智行新增500台无人车且有望毛利转正、地平线HSD上市等 [2][8] 智能化市场回顾与展望（8-10月） - 8月智能化关键词为新一代底层架构迭代，理想VLA、小鹏P7 VLA+VLM、元戎启行方案相继上车，城市NOA级智能化渗透率达23.3% [10] - 9月智能化关键词为梯队间体验绝对差异缩小，小鹏/华为/理想稳居第一梯队，蔚来/小米快速跟进，城市NOA渗透率维持在23.0% [10] - 10月展望关键词为智驾战略调整，重点关注特斯拉FSD V14、小鹏人事变动、极氪9X及小鹏P7的VLA+VLM落地效果 [10] 消费者买单意愿与市场预测 - 2025-2027年，汽车智能化的核心任务是推动国内新能源渗透率从50%向80%+突破，商业模式以帮助车企卖车的硬件为主 [20] - 2028-2030年，Robotaxi有望实现大规模商业化落地，开启汽车出行革命的质变 [20] - 预测显示，国内新能源乘用车城市NOA智驾销量将从2024年的118万辆增长至2027年的1001万辆，渗透率从11%提升至65% [21] 车企智能化能力与竞争格局 - 2025年Q3，新势力自研方阵智驾表现亮眼，小鹏/华为/理想稳居第一梯队，蔚来/小米快速跟进达到类第一梯队水平 [48] - 各车企技术路径分化，特斯拉/小鹏坚持纯视觉方案，华为全栈自研能力领先，国内其他车企紧密追赶 [51][52] - 8月分品牌数据显示，问界、智界、特斯拉等品牌的城市NOA智驾渗透率接近100%，小鹏为76.1%，理想为63.2% [27][28] 智能化产业链与标的梳理 - 产业链覆盖感知、决策、执行等环节，核心公司包括舜宇光学、速腾聚创、英伟达、德赛西威、伯特利等 [14] - 下游应用可分为Robotaxi视角（一体化、技术提供商+运营分成、网约车转型）、Robovan视角和C端卖车视角 [4] - 第三方智驾供应商积极推出新方案，如华为ADS 4.0、地平线J6系列、小马智行第七代robotaxi等，域控制器和底盘赛道玩家增多 [59] 新车智能化亮点汇总 - 小鹏G7 Ultra版全球首发图灵AI芯片，车端有效算力达2250TOPS，并行业首发本地端VLA+VLM大模型 [71] - 理想i8搭载VLA司机大模型，实现防御驾驶、三点掉头等功能，并计划年底向AD Pro车型全量推送城市NOA [72] - 小米YU7全系标配英伟达Thor芯片，支持城市NOA；小鹏MONA M03 Max首次将城市NOA下沉至15万元区间 [65][68]

Waymo自动驾驶最新探索：世界模型、长尾问题、最重要的东西

自动驾驶之心· 2025-10-11 07:32

Waymo自动驾驶技术框架 - 公司开发名为Waymo基础模型的大规模AI模型，该模型支持车辆感知环境、预测其他车辆行为、模拟场景并做出驾驶决策[5] - 模型功能类似于ChatGPT等大型语言模型，基于海量数据集训练学习模式并进行预测，能够整合多源传感器数据理解周围环境[5] - 车端部署较小模型，通过知识蒸馏技术从云端大型教师模型提炼而来，针对速度和效率优化，在每辆车上实时运行[5] - 感知和行为任务包括物体感知、行为预测和行动规划均可实时在车上执行[7] - 云端大模型可模拟真实驾驶环境，在部署前进行虚拟测试和验证决策[7] 世界模型技术特性 - 世界模型能够编码所有传感器数据（摄像头、雷达、激光雷达）并内置世界知识，解码所有驾驶相关任务[11] - 通过蒸馏缩小后放置在车端进行感知和控制，在云端进行虚拟仿真，实现强大泛化能力和快速适应不同平台[11] - 该模型基本解决自动驾驶日常问题，重点转向解决长尾问题[11] 长尾问题解决方案天气挑战 - 雨后路况水坑及不常发生洪水需要算法判断水深和大量上下文信息，对精确度和召回率要求极高[12] - 采用视觉语言模型解法，但需要大量此类语料库支持[12] - 雪地驾驶对硬件要求高，传感器需加热和清洁功能应对堵塞，挑战包括行驶路线决策、车辙识别和摩擦力估计[14] 能见度与遮挡处理 - 极端低能见度情况下如夜间高速公路，需要多模态传感器协同检测[15] - 凤凰城沙尘暴环境中激光雷达可在尘暴中清晰看到行人[15] - 遮挡推理需解决视线不佳区域物体存在状态判断，挑战包括定义不明确、非确定性、缺乏真值基准等[18] - 解决方案包括估计不确定物体先验信息（通过驾驶数据统计和微弱传感器线索）以及准确估计自车速度先验[21] 复杂场景理解 - 施工场景需识别标志、推理驾驶几何形状，根据锥筒等物体调整路线[24] - 动态场景如交通警官手势需要实时响应动态信号[24] - 活跃事故现场涉及大量应急车辆和路况堵塞，需要整体场景理解而非单个物体识别[24] - 复杂场景需使用大语言模型理解场景内容并做出决策，公司表示仍在探索阶段[24] 自动驾驶核心要素 - 自动驾驶作为人工智能落地场景，核心要素为数据、算法、算力三大件[25] - 公司特别强调数据重要性，认为大量数据是基础，但数据筛选和整理更为关键[25] - 高效高质数据能确保模型专注于解决正确问题[25] - 数据挖矿中视频搜索能力对理解事件含义至关重要，如汽车碰撞、漂移等[30] 系统响应性能要求 - 快速实时决策被强调为安全性和流畅性关键，算法到执行链路用时越短越优[30] - 响应速度拆解为传感器输入响应、算法运算结论输出、底盘执行机构三个环节[30] - 当前快速响应决策主要受限于各家算法处理输出响应频率[31] - 摄像头帧率大于24Hz，算法输出帧率需达到10Hz或20Hz，底盘刹车ESP响应频率达上百Hz[36] 运营基础设施 - Depots运营停车场和改装工厂被公司视为L4运营最重要设施[33] - 车辆可自动进入停车场寻找充电空位，充完电拔枪后自动驶出运营[33] - 改装车间完成传感器安装后，车辆可自动驶出生产线，直接进入运输卡车或开始运营[33] 行业发展趋势 - 辅助驾驶与自动驾驶产业最终将交叉融合，因算法软件底层逻辑相同[4] - 中国辅助驾驶算法公司如Momenta、元戎、大疆与L4公司共同在欧洲和中东市场拓展[4] - 工程落地是行业较大壁垒，需要协同汽车开发与测试运营，优秀自动驾驶公司多挖角传统汽车工程师[34]

李想目前对AI兴趣远大于汽车硬件维度产品细节打磨

理想TOP2· 2025-09-01 15:50

李想个人兴趣与产品方向 - 李想个人兴趣明显偏向AI而非汽车硬件产品细节打磨 [1][4] - 李想强烈要求双Orin芯片运行VLA（视觉语言行动模型）并推动技术突破实现Orin芯片运行VLM（视觉语言模型）和VLA [5] - 理想团队与英伟达合作魔改CUDA底层并重写PTX底层指令实现Orin芯片运行大模型 [5] 产品开发决策细节 - L9二排电视与冰箱交互逻辑由李想主导提出理想ONE产品细节几乎全部由李想主导定义 [3] - 焕新L9双腔双阀由产品线负责人老汤哥坚持李想本人倾向双腔单阀方案 [3] - MEGA Home二排21.4寸LCD屏幕由老汤哥坚持李想倾向更小画质更好的OLED屏 [3] - MEGA Home座椅旋转方案中李想主张45度旋转老汤哥主张90度旋转并坚持二排同时具备旋转与零重力功能 [3] 技术突破与硬件规划 - 理想已实现Orin芯片运行VLM和VLA模型突破英伟达最初认为不可能的技术限制 [5] - 搭载Thor芯片的车型均可更换理想自研自动驾驶芯片 Orin芯片更换可能性尚未明确 [5] - 技术团队通过重构PTX底层指令（类比汇编语言）和魔改CUDA底层实现芯片算力突破 [5] 产品策略调整 - i8车型后续可能改为单一配置加少量选配该调整可能由李想主导 [3] - i8砍SKU策略属于减法式产品调整与硬件增量细节打磨形成对比 [3] 市场与产品价值定位 - 短期3个月内AI产品使用价值难以跨越鸿沟至早期大众仍处于早期采用者阶段 [1] - 理想产品情绪价值当前在大众层面处于较低水平 [1] - AI模型即产品好的AI产品等同于好的AI模型构成长期产品价值根基 [1]

何小鹏回应：与特斯拉市值差50倍合理吗？劝雷军造车是“害”他吗？

36氪· 2025-08-28 17:43

产品战略与定位 - 新P7全系标配Ultra配置定位为品牌图腾产品强调简单纯粹和尖端特性[3] - 新P7驾控体验突出试驾中驾驶比例最高具备肾上腺素分泌级别的操控加速感[5] - 销量目标设定为纯电动轿车市场前三产能准备按前三标准推进重点在于三个月后销量稳定性[4][13] - 产品定义侧重颜值与科技属性 MONA 03在价格区间具备断档领先的智能辅助驾驶能力[15] 技术研发与投入 - VLA（视觉语言行动）技术仅小鹏实现真正落地需多维非结构化数据建模年投入约50亿元[16][18] - VLA与VLM（视觉语言模型）协同发展 VLA为快模型（小脑） VLM为慢模型（大脑）年底将形成双模型共识[20][22] - 端到端方案为二维结构化逻辑 VLA要求体验提升10倍才达标技术分化将导致明年阵营重组[18][19][22] - GPU总量超3万个混合使用英伟达与国产芯片云端与本地端推理算力大幅提升[24] 成本结构与盈利展望 - 新能源汽车三电系统占成本40%-50% 传统10万台年销量盈利模型不适用[7] - 软硬全栈自研与跨域融合构成差异化优势预计一至两年内收回历史亏损[10] - 五年后汽车公司将厚积薄发实现高盈利现阶段积累研发制造与质量能力[7][10] 市场竞争与估值 - 与特斯拉产品相似但市值差50倍中国科技公司估值普遍为美国同行的1/7[26] - Robotaxi计划半年内上线预计将改变市场价值认知[26] - 硬件叠加软件的实体科技公司具备规模效应挑战高于纯软件企业[27] 技术演进路径 - 智能驾驶从单体智能向2026年群体智能演进当前布局已延伸至2027-2028年规划[10] - VLM增强隐私保护数据可完全不上网保障网络异常或公司退出后的车辆正常运行[24][25] - 技术投入需长期基础性投入短期取巧方案无法持续领先[22] 产能与供应链 - 模块化提升产能能力后续造车企业产能准备更充分[4] - 一代P7销量约20万辆模具与研发费用通过互联网式一次性摊销[7] 产品差异化逻辑 - 电车与油车成本结构差异 SUV因风阻与质量导致电池成本增加[11] - 同平台车型定价差异源于产品定位而非成本倒挂[11] 行业生态认知 - 造车被形容为永不停止的马拉松需应对全方位竞争与互联网行业天然壁垒形成对比[30][32] - 小米造车具备互联网软硬件基因与智能汽车高度关联[35]

理想TOP2· 2025-07-21 22:36

自动驾驶技术发展现状 - BEV感知方案已完全成熟并广泛应用于量产车型基于BEV的动态感知、静态感知、OCC感知均实现技术落地 [16][24] - 端到端方案仍处于验证阶段实际效果未显著超越传统两阶段模型存在数据收集难度大、训练成本高等实操问题 [11][31] - 行业面临的核心挑战是corner case处理能力非结构化道路、复杂路口等场景通过率不足99% [16][24] 新兴技术路线争议 VLA/VLM技术 - **看好派**：认为VLA通过大模型推理能力实现场景理解可突破传统规则引擎的迭代瓶颈是下一代技术重点方向 [2][28] - **质疑派**：指出当前VLA基座多依赖开源模型魔改缺乏专用预训练体系且车端算力限制导致性能与延迟难以平衡 [1][27] - **中立派**：认为对话功能仅提供情绪价值控车逻辑需独立设计量产可行性存在但效果待验证 [3][18] 关键技术突破方向 - **世界模型**：三大应用场景包括预训练、仿真数据生成、端侧推理目前数据生成领域已取得阶段性成果 [6][33] - **强化学习**：仿真精度是核心瓶颈若能解决sim2real域差距配合端到端架构将实现性能飞跃 [6][32] - **扩散模型**：适配多模态轨迹生成特性地平线DiffusionDrive方案已实现实时性突破 [7][26] 行业竞争格局演变 - 数据闭环能力成为竞争焦点头部公司重点构建AI驱动的数据流水线涵盖采集、清洗、标注全流程自动化 [20][22] - 仿真技术呈现两极分化：L4企业侧重世界模型构建安全验证体系 L2+厂商聚焦VLA提升泛化能力 [18][30] - 芯片算力制约技术落地 7B参数以下模型成主流量化加速与轻量化算法需求迫切 [27][28] 学术与产业协同 - 学术界研究滞后于产业落地 BEV从论文发表到量产应用耗时2年当前VLA等技术尚未形成理论共识 [31][9] - 产学研割裂问题突出工业界数据壁垒导致学术界缺乏真实场景验证数据集 [13][31] - 3D高斯等新型表征方法有望重构世界模型架构球谐函数替换等基础研究具备潜力 [6][33] 技术路线选择建议 - 短期优先完善一站式端到端方案长期需突破鲁棒性瓶颈以实现L4 [18][26] - 平价车型可采用BEV+蒸馏方案过渡等待芯片成本下降支撑大模型部署 [24][26] - 自动驾驶与具身智能技术互通建议选择迁移性强的研究方向 [34][22]

师兄自己发了篇自动驾大模型，申博去TOP2了。。。

自动驾驶之心· 2025-07-09 20:56

大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化，理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算：研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展：探索检索增强生成（RAG）和参数高效微调（PEFT）技术 [3] - 复杂推理优化：研究链式思维（CoT）和强化学习优化（GRPO）等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法，包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT，结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论，形成清晰知识体系 [8] - 提升Coding能力，实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象：大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数：6人/期，至多8人 [5] - 要求：具备深度学习基础，熟悉Python和PyTorch，有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿，具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码，涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡，建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea，目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月，确保后续研究支持 [22]

大模型在自动驾驶后期的落地与研究方向有哪些？

自动驾驶之心· 2025-07-08 07:31

大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化，理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点，VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法，聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成（RAG）和参数高效微调（PEFT）技术 [2] - 推理优化方面研究链式思维（CoT）和强化学习优化（GRPO）等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程，涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系，解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力，掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础，建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码，包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]