Workflow
VLM
icon
搜索文档
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
【汽车智能化10月投资策略】先发优势稳固,后发发力追赶,继续看好智能化主线!
文章核心观点 - 市场预计在第四季度将重新重视智能化的投资机会,认为智能化是AI在物理世界的重要应用,未来3-5年有望超预期发展 [2] - 2026年被预计为Robotaxi大年,核心玩家将加速入局L4级别自动驾驶 [2] - 当前智能化产业的投资逻辑为“港股>A股且软件>硬件且B端>C端”,推荐组合包括小鹏汽车-W、地平线机器人-W、曹操出行 [4][9] Q4智能化投资机会分析 - 与去年Q4相比,今年Q4的智能化逻辑更强调AI本身的演绎,而非与汽车逻辑的共振,产业兑现能力因玩家能力上台阶而变强 [3][9] - 投资焦点从去年的硬件机会和C端销量带动,转向今年的软件机会和B端突破 [3][9] - Q4存在多项重要催化剂,包括特斯拉V14版本发布、小鹏科技日披露Robotaxi计划、小马智行新增500台无人车且有望毛利转正、地平线HSD上市等 [2][8] 智能化市场回顾与展望(8-10月) - 8月智能化关键词为新一代底层架构迭代,理想VLA、小鹏P7 VLA+VLM、元戎启行方案相继上车,城市NOA级智能化渗透率达23.3% [10] - 9月智能化关键词为梯队间体验绝对差异缩小,小鹏/华为/理想稳居第一梯队,蔚来/小米快速跟进,城市NOA渗透率维持在23.0% [10] - 10月展望关键词为智驾战略调整,重点关注特斯拉FSD V14、小鹏人事变动、极氪9X及小鹏P7的VLA+VLM落地效果 [10] 消费者买单意愿与市场预测 - 2025-2027年,汽车智能化的核心任务是推动国内新能源渗透率从50%向80%+突破,商业模式以帮助车企卖车的硬件为主 [20] - 2028-2030年,Robotaxi有望实现大规模商业化落地,开启汽车出行革命的质变 [20] - 预测显示,国内新能源乘用车城市NOA智驾销量将从2024年的118万辆增长至2027年的1001万辆,渗透率从11%提升至65% [21] 车企智能化能力与竞争格局 - 2025年Q3,新势力自研方阵智驾表现亮眼,小鹏/华为/理想稳居第一梯队,蔚来/小米快速跟进达到类第一梯队水平 [48] - 各车企技术路径分化,特斯拉/小鹏坚持纯视觉方案,华为全栈自研能力领先,国内其他车企紧密追赶 [51][52] - 8月分品牌数据显示,问界、智界、特斯拉等品牌的城市NOA智驾渗透率接近100%,小鹏为76.1%,理想为63.2% [27][28] 智能化产业链与标的梳理 - 产业链覆盖感知、决策、执行等环节,核心公司包括舜宇光学、速腾聚创、英伟达、德赛西威、伯特利等 [14] - 下游应用可分为Robotaxi视角(一体化、技术提供商+运营分成、网约车转型)、Robovan视角和C端卖车视角 [4] - 第三方智驾供应商积极推出新方案,如华为ADS 4.0、地平线J6系列、小马智行第七代robotaxi等,域控制器和底盘赛道玩家增多 [59] 新车智能化亮点汇总 - 小鹏G7 Ultra版全球首发图灵AI芯片,车端有效算力达2250TOPS,并行业首发本地端VLA+VLM大模型 [71] - 理想i8搭载VLA司机大模型,实现防御驾驶、三点掉头等功能,并计划年底向AD Pro车型全量推送城市NOA [72] - 小米YU7全系标配英伟达Thor芯片,支持城市NOA;小鹏MONA M03 Max首次将城市NOA下沉至15万元区间 [65][68]
Waymo自动驾驶最新探索:世界模型、长尾问题、最重要的东西
自动驾驶之心· 2025-10-11 07:32
Waymo自动驾驶技术框架 - 公司开发名为Waymo基础模型的大规模AI模型,该模型支持车辆感知环境、预测其他车辆行为、模拟场景并做出驾驶决策[5] - 模型功能类似于ChatGPT等大型语言模型,基于海量数据集训练学习模式并进行预测,能够整合多源传感器数据理解周围环境[5] - 车端部署较小模型,通过知识蒸馏技术从云端大型教师模型提炼而来,针对速度和效率优化,在每辆车上实时运行[5] - 感知和行为任务包括物体感知、行为预测和行动规划均可实时在车上执行[7] - 云端大模型可模拟真实驾驶环境,在部署前进行虚拟测试和验证决策[7] 世界模型技术特性 - 世界模型能够编码所有传感器数据(摄像头、雷达、激光雷达)并内置世界知识,解码所有驾驶相关任务[11] - 通过蒸馏缩小后放置在车端进行感知和控制,在云端进行虚拟仿真,实现强大泛化能力和快速适应不同平台[11] - 该模型基本解决自动驾驶日常问题,重点转向解决长尾问题[11] 长尾问题解决方案 天气挑战 - 雨后路况水坑及不常发生洪水需要算法判断水深和大量上下文信息,对精确度和召回率要求极高[12] - 采用视觉语言模型解法,但需要大量此类语料库支持[12] - 雪地驾驶对硬件要求高,传感器需加热和清洁功能应对堵塞,挑战包括行驶路线决策、车辙识别和摩擦力估计[14] 能见度与遮挡处理 - 极端低能见度情况下如夜间高速公路,需要多模态传感器协同检测[15] - 凤凰城沙尘暴环境中激光雷达可在尘暴中清晰看到行人[15] - 遮挡推理需解决视线不佳区域物体存在状态判断,挑战包括定义不明确、非确定性、缺乏真值基准等[18] - 解决方案包括估计不确定物体先验信息(通过驾驶数据统计和微弱传感器线索)以及准确估计自车速度先验[21] 复杂场景理解 - 施工场景需识别标志、推理驾驶几何形状,根据锥筒等物体调整路线[24] - 动态场景如交通警官手势需要实时响应动态信号[24] - 活跃事故现场涉及大量应急车辆和路况堵塞,需要整体场景理解而非单个物体识别[24] - 复杂场景需使用大语言模型理解场景内容并做出决策,公司表示仍在探索阶段[24] 自动驾驶核心要素 - 自动驾驶作为人工智能落地场景,核心要素为数据、算法、算力三大件[25] - 公司特别强调数据重要性,认为大量数据是基础,但数据筛选和整理更为关键[25] - 高效高质数据能确保模型专注于解决正确问题[25] - 数据挖矿中视频搜索能力对理解事件含义至关重要,如汽车碰撞、漂移等[30] 系统响应性能要求 - 快速实时决策被强调为安全性和流畅性关键,算法到执行链路用时越短越优[30] - 响应速度拆解为传感器输入响应、算法运算结论输出、底盘执行机构三个环节[30] - 当前快速响应决策主要受限于各家算法处理输出响应频率[31] - 摄像头帧率大于24Hz,算法输出帧率需达到10Hz或20Hz,底盘刹车ESP响应频率达上百Hz[36] 运营基础设施 - Depots运营停车场和改装工厂被公司视为L4运营最重要设施[33] - 车辆可自动进入停车场寻找充电空位,充完电拔枪后自动驶出运营[33] - 改装车间完成传感器安装后,车辆可自动驶出生产线,直接进入运输卡车或开始运营[33] 行业发展趋势 - 辅助驾驶与自动驾驶产业最终将交叉融合,因算法软件底层逻辑相同[4] - 中国辅助驾驶算法公司如Momenta、元戎、大疆与L4公司共同在欧洲和中东市场拓展[4] - 工程落地是行业较大壁垒,需要协同汽车开发与测试运营,优秀自动驾驶公司多挖角传统汽车工程师[34]
李想目前对AI兴趣远大于汽车硬件维度产品细节打磨
理想TOP2· 2025-09-01 15:50
李想个人兴趣与产品方向 - 李想个人兴趣明显偏向AI而非汽车硬件产品细节打磨 [1][4] - 李想强烈要求双Orin芯片运行VLA(视觉语言行动模型)并推动技术突破 实现Orin芯片运行VLM(视觉语言模型)和VLA [5] - 理想团队与英伟达合作魔改CUDA底层并重写PTX底层指令 实现Orin芯片运行大模型 [5] 产品开发决策细节 - L9二排电视与冰箱交互逻辑由李想主导提出 理想ONE产品细节几乎全部由李想主导定义 [3] - 焕新L9双腔双阀由产品线负责人老汤哥坚持 李想本人倾向双腔单阀方案 [3] - MEGA Home二排21.4寸LCD屏幕由老汤哥坚持 李想倾向更小画质更好的OLED屏 [3] - MEGA Home座椅旋转方案中 李想主张45度旋转 老汤哥主张90度旋转并坚持二排同时具备旋转与零重力功能 [3] 技术突破与硬件规划 - 理想已实现Orin芯片运行VLM和VLA模型 突破英伟达最初认为不可能的技术限制 [5] - 搭载Thor芯片的车型均可更换理想自研自动驾驶芯片 Orin芯片更换可能性尚未明确 [5] - 技术团队通过重构PTX底层指令(类比汇编语言)和魔改CUDA底层实现芯片算力突破 [5] 产品策略调整 - i8车型后续可能改为单一配置加少量选配 该调整可能由李想主导 [3] - i8砍SKU策略属于减法式产品调整 与硬件增量细节打磨形成对比 [3] 市场与产品价值定位 - 短期3个月内AI产品使用价值难以跨越鸿沟至早期大众 仍处于早期采用者阶段 [1] - 理想产品情绪价值当前在大众层面处于较低水平 [1] - AI模型即产品 好的AI产品等同于好的AI模型 构成长期产品价值根基 [1]
何小鹏回应:与特斯拉市值差50倍合理吗?劝雷军造车是“害”他吗?
36氪· 2025-08-28 17:43
产品战略与定位 - 新P7全系标配Ultra配置 定位为品牌图腾产品 强调简单纯粹和尖端特性[3] - 新P7驾控体验突出 试驾中驾驶比例最高 具备肾上腺素分泌级别的操控加速感[5] - 销量目标设定为纯电动轿车市场前三 产能准备按前三标准推进 重点在于三个月后销量稳定性[4][13] - 产品定义侧重颜值与科技属性 MONA 03在价格区间具备断档领先的智能辅助驾驶能力[15] 技术研发与投入 - VLA(视觉语言行动)技术仅小鹏实现真正落地 需多维非结构化数据建模 年投入约50亿元[16][18] - VLA与VLM(视觉语言模型)协同发展 VLA为快模型(小脑) VLM为慢模型(大脑) 年底将形成双模型共识[20][22] - 端到端方案为二维结构化逻辑 VLA要求体验提升10倍才达标 技术分化将导致明年阵营重组[18][19][22] - GPU总量超3万个 混合使用英伟达与国产芯片 云端与本地端推理算力大幅提升[24] 成本结构与盈利展望 - 新能源汽车三电系统占成本40%-50% 传统10万台年销量盈利模型不适用[7] - 软硬全栈自研与跨域融合构成差异化优势 预计一至两年内收回历史亏损[10] - 五年后汽车公司将厚积薄发 实现高盈利 现阶段积累研发制造与质量能力[7][10] 市场竞争与估值 - 与特斯拉产品相似但市值差50倍 中国科技公司估值普遍为美国同行的1/7[26] - Robotaxi计划半年内上线 预计将改变市场价值认知[26] - 硬件叠加软件的实体科技公司具备规模效应 挑战高于纯软件企业[27] 技术演进路径 - 智能驾驶从单体智能向2026年群体智能演进 当前布局已延伸至2027-2028年规划[10] - VLM增强隐私保护 数据可完全不上网 保障网络异常或公司退出后的车辆正常运行[24][25] - 技术投入需长期基础性投入 短期取巧方案无法持续领先[22] 产能与供应链 - 模块化提升产能能力 后续造车企业产能准备更充分[4] - 一代P7销量约20万辆 模具与研发费用通过互联网式一次性摊销[7] 产品差异化逻辑 - 电车与油车成本结构差异 SUV因风阻与质量导致电池成本增加[11] - 同平台车型定价差异源于产品定位而非成本倒挂[11] 行业生态认知 - 造车被形容为永不停止的马拉松 需应对全方位竞争 与互联网行业天然壁垒形成对比[30][32] - 小米造车具备互联网软硬件基因 与智能汽车高度关联[35]
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 22:36
自动驾驶技术发展现状 - BEV感知方案已完全成熟并广泛应用于量产车型 基于BEV的动态感知、静态感知、OCC感知均实现技术落地 [16][24] - 端到端方案仍处于验证阶段 实际效果未显著超越传统两阶段模型 存在数据收集难度大、训练成本高等实操问题 [11][31] - 行业面临的核心挑战是corner case处理能力 非结构化道路、复杂路口等场景通过率不足99% [16][24] 新兴技术路线争议 VLA/VLM技术 - **看好派**:认为VLA通过大模型推理能力实现场景理解 可突破传统规则引擎的迭代瓶颈 是下一代技术重点方向 [2][28] - **质疑派**:指出当前VLA基座多依赖开源模型魔改 缺乏专用预训练体系 且车端算力限制导致性能与延迟难以平衡 [1][27] - **中立派**:认为对话功能仅提供情绪价值 控车逻辑需独立设计 量产可行性存在但效果待验证 [3][18] 关键技术突破方向 - **世界模型**:三大应用场景包括预训练、仿真数据生成、端侧推理 目前数据生成领域已取得阶段性成果 [6][33] - **强化学习**:仿真精度是核心瓶颈 若能解决sim2real域差距 配合端到端架构将实现性能飞跃 [6][32] - **扩散模型**:适配多模态轨迹生成特性 地平线DiffusionDrive方案已实现实时性突破 [7][26] 行业竞争格局演变 - 数据闭环能力成为竞争焦点 头部公司重点构建AI驱动的数据流水线 涵盖采集、清洗、标注全流程自动化 [20][22] - 仿真技术呈现两极分化:L4企业侧重世界模型构建安全验证体系 L2+厂商聚焦VLA提升泛化能力 [18][30] - 芯片算力制约技术落地 7B参数以下模型成主流 量化加速与轻量化算法需求迫切 [27][28] 学术与产业协同 - 学术界研究滞后于产业落地 BEV从论文发表到量产应用耗时2年 当前VLA等技术尚未形成理论共识 [31][9] - 产学研割裂问题突出 工业界数据壁垒导致学术界缺乏真实场景验证数据集 [13][31] - 3D高斯等新型表征方法有望重构世界模型架构 球谐函数替换等基础研究具备潜力 [6][33] 技术路线选择建议 - 短期优先完善一站式端到端方案 长期需突破鲁棒性瓶颈以实现L4 [18][26] - 平价车型可采用BEV+蒸馏方案过渡 等待芯片成本下降支撑大模型部署 [24][26] - 自动驾驶与具身智能技术互通 建议选择迁移性强的研究方向 [34][22]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]