Workflow
自动驾驶之心
icon
搜索文档
某头部智驾公司离职员工被判大额竞业赔偿...
自动驾驶之心· 2025-12-24 11:29
以下文章来源于蚀刻AiTech ,作者蚀刻团队 蚀刻AiTech . 本文只做学术分享,如有侵权,联系删文 据蚀刻AiTech信息报道,某头部智驾公司近日通过内部全员通告,披露了一起针对前员工违反竞业限制义务的 司法追责结果。通告显示,该前员工离职后隐匿身份加入竞对企业。该公司对此启动司法程序并追查到底。法 院已于近日作出生效判决,认定该员工违反竞业限制义务,需向该公司支付巨额赔偿。该公司强调,这一判决 意味着相关违约行为"将通过该判决永久留在其职业记录里"。 通告措辞严厉,这家头部智驾公司明确表态,对任何违反竞业限制的行为"零容忍"。无论员工级别、时间节点 或去向,公司都将穷尽法律手段追责到底。该公司同时提醒全体员工,竞业违约不仅意味着经济层面的巨额赔 偿,也将对个人职业生涯造成长期影响。 从行业视角看,此事件标志着中国智能驾驶领域头部玩家的竞争烈度显著升级。过去几年,行业竞争焦点主要 集中在技术路线、量产落地速度和融资规模上,是典型的商业与技术竞争。而此次该公司通过法律手段成功 对"跳槽"至直接竞争对手的前员工进行追责并获法院支持,意味着头部玩家之间的博弈,正从单一的商业与技 术维度,迅速延伸至人才保卫、 ...
双SOTA!GenieDrive:物理一致的自动驾驶世界模型(港大&华为诺亚)
自动驾驶之心· 2025-12-24 08:58
文章核心观点 - 香港大学、华为及华中科技大学的研究团队提出了一种名为GenieDrive的新型自动驾驶世界模型框架[2] - 该框架的核心创新在于采用“先生成4D占据、再生成视频”的两阶段路径,以4D Occupancy作为中间表示来提升生成视频的物理一致性与可控性[2][4] - 该方法在模型效率与生成质量上均取得显著突破,参数仅3.47M,推理速度达41 FPS,并在关键性能指标上大幅超越现有方法[5][7] 研究背景与挑战 - 当前自动驾驶世界模型面临两大挑战:一是物理一致性不足,现有视频生成模型难以产生符合真实物理规律的响应;二是高维表示(如4D Occupancy)建模困难[8] 技术架构与创新点 - **两阶段框架**:第一阶段构建4D Occupancy世界模型,第二阶段进行Occupancy引导的视频生成[10] - **以4D Occupancy作为中间世界状态**:将显式物理信息注入框架,为视频生成提供可靠物理约束[11] - **Tri-plane VAE高效压缩**:仅使用现有方法58%的潜在表示数量,即实现高质量的占据重建,显著降低计算与存储开销[4][11] - **控制感知与端到端训练**:通过Mutual Control Attention显式建模驾驶控制对占据演化的影响,并采用端到端联合训练提升预测精度[4][11] - **多视角一致的视频生成**:引入归一化多视角注意力机制,在4D Occupancy引导下提升多视角视频生成质量与一致性[11] - **轻量级设计**:模型整体参数量仅为3.47M[5][7] 实验结果与分析 - **4D占据预测性能**:与此前最新方法I²-World相比,mIoU指标提升7.2%,IoU指标提升4%[13] - **推理效率**:模型推理速度达到41 FPS[5][13] - **视频生成性能**:模型支持生成长达241帧(约20秒)的多视角自动驾驶视频[15] - **生成质量**:在视频生成任务上,将FVD(Frechet Video Distance)指标降低了20.7%[5][7] - **模型规模**:训练了S(8帧/0.7秒)、M(37帧/3秒)、L(81帧/7秒)三种规模的模型,并通过滚动预测扩展生成长视频[15] 主要贡献与价值 - 提出了一条“先生成4D占据、再生成视频”的全新自动驾驶世界模型研究路径[25] - 实现了高度可控、多视角一致且符合物理规律的自动驾驶视频生成[7][23] - 支持通过直接编辑4D占据信息来高效编辑生成视频,这在自动驾驶难例数据生成中具有重要价值[20] - 该框架有望推动自动驾驶闭环评测与仿真技术的发展[23]
最强性价比实景三维激光扫描仪来了......
自动驾驶之心· 2025-12-24 08:58
产品核心定位与价值主张 - 产品旨在解决三维扫描行业在精度、便携性与开放性之间寻求平衡的核心挑战 [2] - 产品以“轻量、智能、开放”为核心,主打高性价比,旨在为专业级三维采集开辟全新可能 [2][5] - 产品由同济大学刘春教授团队与西北工业大学产业化团队合作研发,基于多年科研和上百个项目验证 [9] 产品核心性能与硬件配置 - **实时重建与精度**:具备厘米级实时重建能力,相对精度优于3厘米,绝对精度优于5厘米 [2][21] - **数据采集效率**:每秒生成点云数量达20万点,最远测量距离70米,水平视角覆盖360度 [21][27][28][29] - **大场景处理**:最大扫描面积达5万平米,支持大场景实时扫描与彩色融合 [5][21][31] - **传感器融合**:采用多模态传感器融合算法,集成3D激光雷达、双工业摄像头、RTK、高精度IMU及深度相机,并实现微秒级数据同步 [5][14][21][22][33][34] - **硬件设计**:轻量化一体设计,尺寸为14.2厘米 * 9.5厘米 * 45厘米,含电池重量1.9公斤,续航约3至4小时 [5][21] - **计算单元**:搭载Intel N5095四核处理器,配备16GB内存和256GB存储 [21] 产品功能与软件特性 - **实时建模**:支持三维点云地图动态构建、色彩融合与实时预览 [21][25] - **数据输出**:支持彩色点云输出,可导出为pcd、las、plv等多种通用格式 [21] - **系统环境**:自带Ubuntu 20.04系统,支持ROS,便于开发与集成 [5][21] - **软件功能**:提供快速建图、彩色点云建图、数据录制保存及3D高斯数据采集与处理等功能 [38][39] - **3D高斯模块**:作为可选模块,可实现高保真实景还原,满足专业级建模需求 [5][47] 应用场景与平台适配 - **复杂场景适应性**:适用于写字楼、停车场、工业园区、隧道、森林、矿场等多种室内外复杂环境 [43] - **跨平台集成**:支持与无人机、无人车、机械狗、人形机器人等多种负载平台集成,实现无人化作业 [40] - **目标领域**:解决方案适用于建筑、测绘、科研、数字孪生、城市规划及灾害监测等领域 [49][54] 产品配置与定价 - **GeoScan-S1 标配版**:售价19,800元,包含x86计算单元、3D激光雷达、双工业摄像头、RTK、高精度IMU、微秒同步模组及基础软件手册 [7][8] - **GeoScan-S1 升级版**:售价23,800元,在标配版基础上增加D435i深度相机 [7][8] - **GeoScan-S1 Edu教育版**:售价26,800元,在升级版基础上提供丰富的二次开发接口及技术交流和培训支持 [7][8] - **GeoScan-TGS 在线版**:售价39,800元,包含S1标配版硬件、3D高斯采集配件及两个月云服务(5000元/月) [7][8] - **GeoScan-TGS 离线版**:售价67,800元,包含S1标配版硬件、3D高斯采集配件及本地渲染软件 [7][8] - **所有版本均享受1年售后服务** [8]
Agent元年复盘:架构之争已经结束!?
自动驾驶之心· 2025-12-24 08:58
文章核心观点 - 2025年是Agent技术稳步落地的“Agent元年”,技术已就绪,爆发在局部,行业处于从技术架构探索向业务重塑过渡的中间态 [5][6][10] - Agent技术架构之争已定,收敛至以Claude Agent SDK和LangGraph的Deep Agent为代表的“通用型Agent”形态,其核心特点是主从架构(Main-Sub Agent)、自主规划、独立文件系统和上下文自动压缩 [3][57][58][59] - 构建有价值的“Deep Agent”需要满足两大特征:一是“够垂”,即具备源于行业深度实践的专业知识;二是“Long-running”,即能稳定、长时间运行并执行多步骤复杂任务 [11][12] - 将通用型Agent转化为垂类Agent的关键在于通过“Agent Skills”等优雅方式将业务知识丝滑融入,并通过分层工具调用、精细化的系统提示词工程来管理复杂度和确保稳定性 [22][41][52][62] 技术架构收敛与通用型Agent形态 - 技术架构在2025年10月后已收敛,标志是以Claude Agent SDK和LangGraph的Deep Agent为代表的架构 [57] - 收敛后的通用型Agent架构具备四大支柱:主从架构(Main-Sub Agent)、自主规划能力、独立的文件系统概念以及上下文自动压缩机制 [58][59] - 上下文自动压缩指当Token使用量达到上限(如200k)的80%时,系统会自动调用总结模型进行摘要压缩以释放空间 [59] - 分层工具调用是解决上下文拥挤的关键,例如Manus架构通过原子层、沙箱工具层和代码/包层三层设计,避免一次性灌输超100个工具导致的上下文混淆 [62][66][67] Deep Agent的核心特征与定义 - **特征一:行业性(够“垂”)**:Agent的知识和能力必须源于行业的深度实践和共识,包括业务定义的理想态、过往案例积累以及行业潜规则,其输出应达到或接近高级专家的水准 [11][12] - **特征二:Long-running(稳定性)**:包含两个关键维度,一是能长时间持续运行而不崩溃(如连续运行24小时),二是能连续、保质保量地执行涉及大量工具和API调用的多步骤复杂任务 [12] - **定义**:一个Deep Agent首先是一个Agent,其公认定义是“一个能循环运行工具以实现目标的LLM代理” [13][14] 构建Deep Agent的关键维度与方法 - **维度一:业务知识融合**:传统方法如融入Prompt或使用企业知识库(RAG)不够丝滑,Anthropic提出的“Agent Skills”提供了一种优雅解法,它通过多层级的文件系统封装指令和资源,让Agent能动态发现和加载,实现渐进式披露 [22][26][29][32] - **维度二:实现Long-running**:LangGraph的Deep Agent包提出了四大方法,包括规划、子代理、系统提示和文件系统,它们相辅相成,共同构成核心运作机制 [44][47][48][52][55] - **具体方法**: - **规划**:允许代理将复杂任务分解为步骤,跟踪进度并调整计划,以执行更长时间跨度的任务 [47] - **子代理**:用于实现上下文隔离、并行执行、专业化分工和提升Token效率,架构已收敛为由一个超强主代理按需调用子代理的模式 [48][49][50] - **系统提示**:最优秀的Agent拥有非常复杂详细的系统提示,用于定义规划标准、调用子代理的协议、工具使用规范及文件管理标准,通过提示工程承载应用复杂性 [52][53][54] - **文件系统**:用于上下文卸载、作为共享工作区、存储长期记忆以及封装可执行的技能或脚本 [53] Agent与Workflow的对比及开发范式转变 - **本质区别**:是复杂度的转移,Workflow将业务逻辑显式构建为“有向图”,而Agent将其抽象为自然语言,复杂度从“流程编排”转移到了“Prompt设计” [19] - **核心一致**:无论选择Workflow还是Agent,都在实践“Test-Time Scaling Law”,即通过良好的上下文工程,让模型消耗更多Token以换取更强的能力或更高的准确率 [20] - **开发范式**:相较于传统微调(SFT)动辄两周的周期,Agent模式跳过了耗时的数据准备,将迭代周期从“周级”压缩至“天级”,本质是通过消耗Token来换取效果的快速迭代 [74] 行业落地现状与挑战 - **验证过的成功**:如Deep Research和Claude Code已完全融入日常工作流,成为稳定可靠的生产力工具 [10] - **看不见的繁荣**:在招聘、市场营销、医疗等垂直领域,许多Agent产品早已实现百万美元营收,但由于大量业务集中在出海方向,导致国内体感不强 [10] - **核心瓶颈变化**:当前真正挑战在于“业务重塑”,即需要懂技术的一线从业者将传统SOP和行业知识解构,以Agent友好的方式沉淀为新工作流 [10] 从通用型Agent到垂类Agent的业务实践 - **升级路径**:将现有Workflow升级为Agent主要包括三步:1) 将业务文档、SOP抽象为Skills并存储在文件系统中;2) 将业务API封装为MCP服务;3) 为Main Agent和Sub Agent编写极度详细的系统提示词 [71] - **架构参考**:可模仿Claude Deep Research的主从Agent(Main-Sub Agent)Prompt架构,将复杂业务流程通过详尽的系统提示沉淀到主代理的认知体系中 [72] - **模型依赖**:这种方式的有效性高度依赖最先进的模型(如Claude 4.5、Gemini 3、GPT-5.2),若无法获得,则需降低任务复杂度进行尝试 [73]
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 17:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]
研二上了,想咨询下实验到什么程度可以写小论文?
自动驾驶之心· 2025-12-23 17:29
公司业务与服务模式 - 公司提供针对学术论文发表的辅导服务,旨在帮助用户在有限时间内高效产出科研成果[2] - 服务覆盖期刊论文、会议论文、学位论文以及课题和项目,提供全方位的学术支持[8] - 服务以结果为导向,配套代码提升指导,并提供持续的服务保障,全程陪伴直至论文中稿[8] 目标客户与用户痛点 - 目标客户包括面临论文发表压力的研究生,例如离春节仅剩1个多月,需尽快投稿以确保明年上半年见刊[1] - 用户常见痛点包括:研究方向不清晰、创新点难产、代码复现困难、实验跑不通、论文写作障碍以及缺乏系统科研训练与导师反馈[5] - 用户可能陷入独自钻研的低效状态,例如卡在某个问题上闷头搞两周而无进展[2] 服务方法论与核心理念 - 辅导理念强调论文的完整性重于创新性,认为在现有方法上做改进、解决具体问题并讲好一个完整的故事即可发表[1] - 强调实验扎实和故事清晰是论文能够成功发表的关键[1] - 公司承诺只说实话、做实事,不夸大也不打鸡血,会根据用户具体情况提供可行路径[3] 辅导团队资质 - 所有辅导老师均保证来自全球QS排名前100的院校[6] - 老师人均拥有多篇顶级会议论文,且项目经验丰富[6] - 老师简历真实可查,合作后可要求查验[6] 服务覆盖的技术方向 - 辅导服务覆盖大量前沿人工智能与自动驾驶技术方向,包括:端到端学习、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、BEV感知、占据网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知、车道线/在线高精地图等[3] - 支持用户自带课题或研究方向进行咨询[3] 服务成果与案例 - 公司展示了过往学员的成功案例,涉及不同学历阶段和多种期刊会议[7] - 案例显示,学员从报名到产出成果的周期在2至4个月之间[7] - 成果期刊/会议包括NEUROCOMPUTING (2区)、Data Intelligence (2区)、CONNECTION SCIENCE (3区)、Semantic Web (3区)、emnlp (顶会)、CVPR (顶会)、Information (顶会)等[7] 服务附加价值与承诺 - 除了论文发表,优秀学员可获得清华大学、北京大学、MIT等名校的推荐信,或被推荐至实验室实习[11] - 表现突出的学员可直接获得内推机会,进入如阿里达摩院、华为诺亚方舟等企业的研发岗位[11] - 公司声明发论文只是起点,旨在为用户提供更广阔的发展平台[11] 服务接入与定价 - 公司提供基础课程,声称零基础学员只要踏实跟随导师学习,可在6个月内完成一篇小论文[11] - 服务收费根据目标论文的分区不同而定价,公司会根据用户情况详细介绍并帮助设定目标[11] - 用户需先填写咨询表,之后公司会根据其发文目标提供详细报价[11]
正式开售!面向科研的自动驾驶全栈小车......
自动驾驶之心· 2025-12-23 11:43
产品定位与核心价值主张 - 公司推出一款名为“黑武士001”的教研一体轻量级自动驾驶全栈小车解决方案,旨在解决科研级平台价格高昂(堪比小型车)与教学套件不完整、上手耗时长的市场痛点 [2] - 该产品定位为高性价比、快速上手的方案,售价为36,999元人民币,并宣称“性价比直接拉满”,面向有自动驾驶项目落地需求的学习者和团队 [2] - 产品核心优势在于支持感知、定位、融合、导航、规划等自动驾驶全栈功能,并基于阿克曼底盘,适用于本科生学习比赛、研究生科研发论文与求职、高校及职业院校实验室教具等多种场景 [4] 产品硬件配置与规格 - 主要传感器配置包括:Livox Mid360 3D激光雷达(探测范围0.1-40米,FOV 360°*59°)、镭神智能M10p 2D激光雷达(最大范围25米)、奥比中光Gemini2深度相机(测量范围0.15-5米,深度精度≤2%)以及LPMS-BE2 IMU [22][31] - 计算单元采用NVIDIA Jetson Orin NX核心开发板,配备16GB RAM,AI算力达100 TOPS [34] - 底盘系统为阿克曼转向结构,车体采用钣金件及硬铝发黑处理,整车重量为30公斤,最大载荷也为30公斤 [23][25][26] - 车辆尺寸为长620毫米、宽400毫米、高320毫米,采用24V供电,电池功率50W,续航时间大于4小时,最大运动速度可达2米/秒 [25][26] 软件功能与演示效果 - 软件基于ROS(机器人操作系统)、C++和Python语言框架,支持一键启动并提供完整的开发环境 [28] - 产品支持丰富的软件功能,包括2D/3D目标检测与分割、多种模式的SLAM(如视觉惯性SLAM、2D/3D激光SLAM、多传感器融合SLAM)、点云处理、车辆导航与避障等 [29] - 公司展示了产品在多种场景下的测试效果,包括户外公园行驶、点云3D目标检测、室内外地库2D/3D激光建图、上下坡测试、室外大场景3D建图以及室外夜间行驶,以验证其感知、定位、融合、导航规划等功能的可靠性 [6][8][10][12][14][16][18][20] 产品配套与服务 - 购买产品将直接赠送“模型部署”、“点云3D检测”和“多传感器融合”三门硬核课程 [2] - 产品提供详细的使用说明书,内容涵盖产品概述、规格配置、系统启动、各功能模块使用(如建图、定位、感知、导航)以及注意事项等 [30] - 售后方面,公司提供1年内非人为损坏的保修服务,保修期内因操作失误或修改代码导致的损坏提供免费维修,但邮费需用户自理 [52]
几家新势力都陷入了三万俱乐部的疲态......
自动驾驶之心· 2025-12-23 11:43
2025年11月中国新能源汽车市场及“蔚小理”表现 - 2025年11月全国新能源乘用车零售销量为135.4万辆,同比增长7%,环比增长6% [1] - 同期,理想汽车交付33,181辆,小鹏汽车交付36,728辆(含海外),蔚来公司交付36,275辆(其中蔚来品牌18,393辆,乐道品牌11,794辆,萤火虫品牌6,088辆) [1] - 根据市场公开的分车型数据,“蔚小理”三家国内交付量分别为理想33,190辆、小鹏31,671辆、蔚来35,646辆,与车企外报数据误差不大,小鹏部分销量为出口 [2] - 与零跑汽车单月超7万辆、同比增长75%的业绩相比,“蔚小理”的销量表现相对暗淡 [2] “蔚小理”销量趋势与市场占有率分析 - 小鹏汽车在2025年11月销量为31,671辆,终结了自2025年5月以来的连续单月增长,回到了同年三四月份的水平 [4] - 小鹏汽车市场占有率从近一年最高的2%下降至2025年11月的1.4% [4] - 理想汽车月交付量从曾经超5万辆的水平回落,目前销量在3万辆上下徘徊 [6] - 理想汽车市场占有率在突破2%后,持续掉入1.5%以下的空间 [8] - 蔚来汽车市场占有率从低于1%的水平慢慢向2%冲击,但尽管发布了乐道、萤火虫等新品牌及多款新车型,总体销量规模未出现绝对质的变化 [8] - 2025年11月,小鹏、理想、蔚来的市场占有率分别为1.40%、1.47%、1.58% [5] 各公司销量结构及产品依赖问题 - 小鹏汽车对单一车型依赖严重,2025年11月,MONA M03车型销量为14,846辆,占其总销量的46.88% [9][13] - 小鹏汽车销量对“新车效应”依赖严重,多数产品上市前三个月销量快速拉升后大幅下滑,目前仅有M03能跳出此规律 [12] - 例如,全新P7上市后第三个月销量从顶峰的八千辆跌至三千辆以下,G7上市后第三个月销量腰斩 [12] - 蔚来汽车在售车型多达11款,2025年11月有五款产品月销量不足千辆,其中三款在三位数徘徊 [16] - 蔚来品牌中,2025年11月销量最高的ES8车型交付10,689辆,领先第二名ET5T近七千辆,但面临“新车保护期”过后销量接续的问题 [14][16] - 理想汽车销量结构相对均衡,七款车型中占比最高的L6在2025年11月为28.42%,有两款车型占比在20%左右 [16][17] 第二增长曲线的发展与现状 - 小鹏汽车通过MONA系列(首款产品M03)将智驾能力下放到15万元以下市场,实现了“智能平权”的第二增长曲线 [19] - 蔚来汽车通过发布乐道(独立品牌)和萤火虫品牌,走多元化且更彻底的第二增长曲线 [20] - 理想汽车通过发布纯电i系列(i8、i6)和改款MEGA,完成了增程加纯电的产品拼图,探索第二增长曲线 [19] - 2025年11月,若将各公司主航道视为第一曲线,新品牌/系列视为第二曲线,则小鹏的第一、二曲线销量分别为18,186辆和17,670辆;理想为16,825辆和14,197辆;蔚来为18,993辆和14,846辆,双方均未拉开明显差距 [23] 各公司2026年战略规划与破局方向 - **产品战略**: - 小鹏汽车将实施全面“双能化”战略,为产品配备纯电和增程两种能源类型,并计划推出新的MONA系列SUV及至少两款“大六座”车型 [24] - 蔚来汽车将继续发力纯电大车,聚焦L系列和ES系列构建优势,同时需考虑精简在售车型、聚焦关键产品 [24] - 理想汽车需解决L增程系列产品老旧问题,在2026年开展“尊严之战”,重回“增程一哥”地位 [25] - **AI与智能化战略**: - 理想汽车致力于打造具身智能产品,构建由底层操作系统、AI模型及智能终端(如Livis AI眼镜)组成的AI体系,其专为具身智能定制的M100芯片将于2026年量产交付 [25][26] - 小鹏汽车在智能化领域全力投入,规划了第二代VLA、Robotaxi、人形机器人IRON和飞行汽车,并已交付自研图灵芯片,调整了自动驾驶技术方向以加速AI成果落地 [27] - 蔚来汽车在AI领域低调务实,已推出5nm车规级智驾芯片“神玑NX9031”、智能驾驶世界模型NWM等,但公司明确表示将长期聚焦汽车产品本身 [28] - **经营与盈利战略**: - 理想汽车在2025年Q3结束了连续11个季度的盈利记录,公司决定回归以创始人李想为主导的“创业公司”管理体系,以提升决策效率 [29] - 小鹏汽车全面对标华为流程体系,建立了XPD、XPMS等管理体系,并在出海战略上执行坚决,已逐步建立全球营销与质量运营体系 [30] - 蔚来汽车面临2026年全面盈利的目标,内部推行CBU(基本经营单元)变革,加强供应链成本管理、提高零部件通用化,并通过强化蔚来、乐道、萤火虫的业务联动降低管理成本 [31] - 行业面临新能源购置税减免政策减半、国补地补政策不明朗、传统车企加速转型以及华为、小米等跨界巨头竞争加剧等多重挑战 [31]
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 11:43
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-行动模型在真实世界分布外场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐渐完善[2] 代表性研究方法与框架 - 基于世界模型的在线方案是活跃方向,例如使用世界模型和基于行动的偏好奖励进行训练的NORA-1.5模型[2][5] - 离线强化学习被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调[5] - 工具方面,Rlinf等框架支持的方法越来越多,为VLA+RL训练提供了统一高效的平台[2][11] 近期重要研究成果(2025年) - 2025年11月,NORA-1.5、pi0.6、GR-RL、WMPO、RobustVLA、World-Env、ProphRL等多个工作取得惊艳效果[2][5][8][9] - 2025年10月,DeepThinkVLA、Self-Improving VLA with Data Generation via Residual RL、RLinf-VLA、VLA-RFT等工作发布,专注于增强推理能力、自我改进与在模拟器中的验证奖励微调[8][9][10][11] - 2025年9月及之前,CO-RFT、ReinboT、VLA-Critic、Self-Improving Embodied Foundation Models、Dual-Actor Fine-Tuning、SimpleVLA-RL等工作陆续被会议收录,涉及分块离线强化学习、策略提炼、人机交互等多种方法[5][10][11][12] 早期与中期关键工作(2023-2024年) - 2023年10月,Q-Transformer通过自回归Q函数实现了可扩展的离线强化学习,为后续研究奠定基础[8][9] - 2024年2月,Perceiver Actor-Critic工作发布[7] - 2024年9月至12月,FLaRe、Policy Agnostic RL、RLDG、GRAPE等工作聚焦于大规模强化学习微调、策略无关的RL以及通过偏好对齐实现策略泛化[17][19] 技术细分方向 - **安全与鲁棒性**:例如2025年3月的SafeVLA致力于通过约束学习实现VLA模型的安全对齐[16][19] - **恢复与适应**:例如2025年6月的RLRC专注于基于强化学习的压缩VLA模型恢复,TGRPO通过轨迹组相对策略优化进行微调[13][14] - **实证研究**:例如2025年5月的“What Can RL Bring to VLA Generalization?”对强化学习提升VLA泛化能力进行了实证研究[13][14]
聊聊导航信息SD如何在自动驾驶中落地?
自动驾驶之心· 2025-12-23 08:53
导航信息在自动驾驶中的应用 - 图商提供的导航信息SD/SD Pro已在多个量产方案中使用,为车辆提供车道、粗粒度路径点等全局与局部视野信息,其应用顺理成章 [2] - 导航模块的核心职责之一是提供参考线,这能极大减轻下游规划控制模块的压力,车辆只需在参考线基础上进行细化 [4] - 导航模块还负责提供规划约束与优先级、路径监控和重规划等功能 [5] - 具体应用包括:进行车道级的全局路径规划,搜索目标车道的最优车道序列;为行为规划提供明确语义指导,方便车辆提前准备变道、减速、让行等操作 [6] 端到端自动驾驶算法框架 - 在两段式框架中,导航信息输入到感知模型,输出导航路径,该路径再作为机器学习规划器的输入,用于预测自车行驶轨迹 [16] - 在一段式框架中,SD信息经过专用编码器编码后,与动静态信息一同作为输入,参与后续的模型优化 [20] - 一段式框架相比两段式能做到信息无损传递,因此在性能上更具优势 [30] 行业课程内容概述 - 课程聚焦自动驾驶端到端技术的落地应用,涵盖一段式、两段式、强化学习、导航应用、轨迹优化及量产经验分享 [23] - 课程由工业界算法专家联合开设,讲师为国内顶级一级供应商算法专家,拥有大模型、世界模型等前沿算法的预研和量产落地经验 [25] - 课程面向进阶学员,需自备算力在4090及以上的GPU,并具备BEV感知、视觉Transformer、强化学习等算法基础 [38] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,学习周期预计三个月 [36] 课程核心章节大纲 - 第一章概述端到端任务,介绍感知模型一体化架构、规控算法学习化方案及开源数据集与评测方式 [28] - 第二章详解两段式端到端算法框架,包括其建模方式、感知与规划控制的信息传递,并通过PLUTO算法进行实战 [29] - 第三章讲解一段式端到端算法框架,介绍基于向量逻辑架构和扩散模型等多种方案,并深入学习VAD系列方法 [30] - 第四章专述导航信息的量产应用,涵盖主流导航地图格式、内容信息及其在端到端模型中的编码与嵌入方式 [31] - 第五章介绍自动驾驶中的强化学习算法,旨在弥补纯模仿学习的不足,使系统学习因果关系以实现泛化 [32] - 第六章进行神经网络规划器项目实战,重点涵盖基于扩散模型和自回归模型的模仿学习,并结合强化学习算法 [33] - 第七章讲解量产兜底方案——时空联合规划,介绍多模态轨迹打分搜索及轨迹平滑等后处理优化算法 [34] - 第八章分享端到端量产经验,从数据、模型、场景、规则等多视角剖析如何提升系统能力边界 [35]