世界模型
搜索文档
中国智能驾驶产业的算力巨变
36氪· 2025-12-30 18:36
行业核心观点 - 2025年中国智能驾驶行业迎来前所未有的算力变局,算力成为行业发展的核心要素,无论是在车端还是云端,对算力的需求都越来越高[1][2] - 行业在软件算法路线上出现纷争,以理想、小鹏、元戎启行为代表的玩家选择VLA方案,而华为、蔚来等则更加强调世界模型,但尚无一家在用户体验层面形成碾压性优势[1][7] - 高阶智能驾驶的商业落地呈现K字型分化,导致车端算力落地走向碎片化,同时有玩家正从L2向L4体系的Robotaxi布局,云端算力的作用日益凸显[2] - 自动驾驶技术正处在从量变到质变的前夜,向L4迈进需要车端和云端算力的持续大幅加码,云端算力的角色可能更加重要[26] 技术范式演变与算力需求 - 特斯拉在2023年通过FSD Beta V12直播展示了其端到端自动驾驶系统,并在此框架下持续推进软件更新,如FSD V12.5参数数量是V12.4的五倍,V14参数量更是高达10倍[3][4][5][6] - 中国智能驾驶玩家在2024年集体迈出拥抱端到端的步伐,但进入2025年后,在意识到端到端方案的局限后,开始探索VLA、世界模型等新的算法演进路径[7] - 智能驾驶的技术演进,尤其是在进入端到端体系后,对数据处理和模型训练提出更高要求,在云端掀起了一场算力军备竞赛[20] - 自动驾驶的终极形态被设想为将规则输入大型多模态模型并实时处理传感器数据,这依赖于AI技术的持续发展和算力的双重加持[28] 车端算力格局与流派分化 - 2025年,高阶智能驾驶的车端算力选择主要分为三大流派:车企自研、英伟达系、华为系及其他[12] - **车企自研派**:以蔚来、小鹏、理想为代表。蔚来自研的神玑NX9031芯片,一颗算力水平相当于四颗Orin-X[13]。小鹏自研的图灵AI芯片算力为750 TOPS,并以三颗组合或单颗形式上车[13]。理想已宣布自研M100芯片,预计明年上车,其宣称在运行大模型和视觉模型时性能分别为市场最强芯片的2倍和3倍[13] - **英伟达系**:英伟达最新一代Thor芯片提供数倍于Orin-X的算力,是市场热门选择。2025年在理想、领克900、小米YU7、极氪、智己等多款车型上落地,极氪9X车型还提供双Thor芯片方案[13][14]。英伟达Orin-X平台仍在部分车型上使用,如蔚来乐道品牌车型[15] - **华为系及其他**:华为不倾向于公开其智驾平台算力,更注重软件算法迭代和云端训练,但部分车型如尊界S800采用了算力更高的MDC 810计算平台[15]。地平线在2025年推动其J6芯片系列通过HSD方案上车,已在奇瑞、长安部分车型落地[15] 云端算力的关键作用与竞争 - 云端算力是智能驾驶算法进化的关键基石,也是未来算法迭代的核心支撑,其重要性在行业向L4演进过程中愈发凸显[19][20] - 特斯拉在FSD演进中的优势,部分得益于其更充足的云端算力,为数据闭环、训练和仿真验证提供了巨大优势[20] - 行业在2023-2025年持续进行云端算力军备竞赛。即使在2024年财务状况不佳时,也有新势力车企老板拍板增加云端算力,并在2025年实现了算法的跨越式迭代[20] - 2025年,云端算力依旧不够用,且受限于公司每年的算力预算。解决长尾问题的数据训练、仿真模拟等只能在云端完成,行业共识认为首先要解决的算力瓶颈可能在云端[21][23] - 英伟达推出了开源的Cosmos世界基础模型、3DGRUT等工具来助力自动驾驶在云端的开发[23]
中兴通讯崔丽:AI应用触及产业深水区,价值闭环走向完备
21世纪经济报道· 2025-12-30 18:25
AI行业发展趋势与核心观点 - AI大模型发展将从基础设施向上层应用演进,基座大模型数量将收敛至个位数,但围绕千行百业将衍生丰富的垂域模型与应用,这是引发技术变革的关键[2] - 物理AI成为重要关注窗口,正加速推进具身智能、自动驾驶等领域演进,有望深刻改变未来社会运行方式[2] - 2025年被称为“Agent元年”,AI技术正从以“内容生成”为核心的Copilot辅助模式,向以“自主行动”为核心的Agent模式迈进,企业智能化目标从“效率提升”转向“业务重构”[9] - AI应用正告别“技术炫技”的初级阶段,迈入“价值落地”的关键时期,核心逻辑是从“实验室里的高精尖”转变为“产业中的实用工具”,从“单一技术赋能”升级为“全链条生态协同”[16] 物理AI的技术路线与竞争 - 物理AI存在两条核心路线竞争:世界模型与视觉语言模型(VLA)[3] - Sora等模型标志着AI正从“预测者”向“模拟者”进化,是从“数据驱动”到“模型仿真驱动”再到“物理对齐”和“通用模拟”的范式转移[3] - 当前Sora被视为“视觉模拟器”而非真正的“物理世界模型”,因其缺乏因果推理、反事实推演和物理一致性,常出现违背物理逻辑的“物理幻觉”[3][4] - 世界模型技术路线分化为“生成派”(如Sora、Marble)和“表征派”(如JEPA),生成派适合做数据工厂或仿真训练,表征派适合做决策大脑和实时推理[4] - VLA模型核心理念是将机器人控制转化为序列建模问题,价值在于零样本泛化能力,但缺乏因果推理且依赖训练数据覆盖度;世界模型主张先构建环境内部模型进行虚拟试错,样本效率远超VLA[5] - 产业界正呈现VLA与世界模型融合的趋势,例如利用VLA进行高层策略规划,利用世界模型进行底层动作验证[5] 世界模型面临的挑战与发展预测 - 世界模型赋能“数实融合”需解决三大难题:理解因果性并掌握第一性原理、构建解决物理一致性问题的模拟器、应对数据枯竭与长尾困境[6] - 世界模型旨在通过海量视频数据预训练,在神经网络内部构建隐式“物理引擎”,以在数字空间低成本试错和推演[6] - 自动驾驶等数据驱动型AI的下一阶段竞争本质是高质量合成数据的竞争,成熟的世界模型能生成现实中难以捕捉的极端工况数据[6] - 世界模型落地时间表预测:2024-2025年实现视觉仿真;2026-2027年实现物理对齐;2028-2030年有望实现通用具身智能[6] 网络架构向AI原生演进 - 网络架构正从“云原生”向“AI原生”演变,大模型时代流量特征转向分布式“同步计算”,带来“大象流”、丢包零容忍、微秒级时延敏感等特点,需要网络做到“万无一失”[7] - AI原生网络核心是极致的性能无损和算网协同,具备内生智能、确定性保障和算网一体等关键特征[7] - 应用层面,云原生应用以K8S为底座,AI原生应用以“大模型+Agent”为底座,两者将趋于融合成为云智一体原生应用[7] 中兴通讯的技术布局与产品 - 中兴通讯技术演进从2G时代硬件集成,发展到5G时代的芯片+整机+大模型的组装式研发范式,在技术、专利、标准方面从跟随转向引领[8] - 公司自研珠峰、定海、凌云等芯片,服务器、存储、数据中心交换机和数据中心等产品收入增速明显[8] - 公司提供全栈全域的智算解决方案,支持软硬解耦、模型解耦和训推解耦,聚焦工程能力工具化[8] - 针对智能体应用,中兴通讯推出“Co-Sight智能体工厂”,带有“CT级可靠性”基因,结合深度思考和反思、DAG和COA规划协同,支持分钟级智能体构建[11] - Co-Sight通过冲突感知元验证(CAMV)机制确保决策可信,采用基于结构化事实的可信推理(TRSF)支持超长任务的“断点续做”[11] - Co-Sight构建了严格的运行环境:受控沙箱、全链路审计、隐私保护[12] - Co-Sight 2.0在通用AI助手基准测试GAIA中连续三个月保持第一,在代表前沿知识的HLE评测中也连续两个月位居榜首[12] - 中兴通讯与中国移动合作,联合验证了“点金行动”的31个高价值场景,结合图谱检索、强推理以及电信级多智能体协议,助力自智网络向L4+迈进[12] - 公司采用“1(通用底座)+N(领域增强)+X(场景微调)”策略,结合RAG技术,兼顾能力与成本[16] Agent规模化落地的挑战 - 智能体从实验室原型走向企业核心生产系统的“最后一公里”充满挑战,在电信、金融、能源等高可靠性行业,需解决随机性模型与确定性业务之间的矛盾、确保长程任务稳定性、构建可信安全边界[10] - 核心业务中,AI“幻觉”是不可接受的风险,企业无法容忍“黑盒”在没有人类审核下做出关键决策[10] - 由于上下文窗口限制,处理跨天、跨周的复杂任务链时,模型易出现记忆丢失或逻辑断裂,导致Agent开发复杂度呈指数级增长[10] - Agent使用工具(执行代码、调用API、操作数据库)会带来安全风险,如沙箱逃逸、资源耗尽和数据泄露[10] - 企业现有IT环境复杂,存在接口标准化缺失、数据孤岛等问题,同时需平衡推理维护成本与投资回报率[10] 有望率先实现AI价值闭环的行业特征与方向 - 能率先实现AI价值规模化复制的行业关键特征:信息密集、数据结构化程度高、具备强反馈机制、价值闭环极快、有一定容错度、具备一定范围泛化能力[13] - 智能化转型基础是网络化和数字化,数字化转型较好的行业更容易进行智能化转型[14] - 具体产业中,教育、医疗、软件开发、智能制造、城市治理等可能率先完成价值闭环[14] - 制造业凭借高度结构化数据环境和明确效率指标,成为AI价值变现的“排头兵”;城市治理依托海量多模态数据和迫切公共安全需求,正通过“城市智能体”模式实现从被动响应到主动预防的跨越[14] - AI进入产业“深水区”意味着从外围辅助系统进入核心生产系统,将面临“三多”(多模态数据、多厂家设备、多业务场景)、“三新”(新技术、新架构、新安全威胁)、“三跨”(跨领域知识融合、跨系统数据调用、跨组织流程协同)的复杂局面[14] 行业AI模型部署路径 - 驱动各行各业融入AI的模型路径并非“二选一”,而应采用“云边协同”的混合路径[15] - “通用基础大模型+行业精调”是构建企业“大脑”的最有效路径,能以低成本继承通用逻辑能力,解决知识密集型任务[15] - 从零构建行业专属小模型是构建企业“四肢”的可行方案,在非自然语言、极致边缘和极致隐私场景下不可或缺,解决了感知与执行层面的效率、适配和安全问题[15] - 面对工业领域的振动波谱、雷达信号、基因序列等“非自然语言”数据,通用模型的先验知识可能成为噪音,需从零构建专用模型[15] - 在极致时延和功耗场景(如矿山无人驾驶卡车),推理时延需控制在毫秒级,训练一个参数量在几百万到几亿的专用小模型是唯一可行方案[16] - 在对数据隐私和主权有极致要求的场景(如金融),为确保模型无潜在偏见或后门,会选择完全物理隔离环境下的从零训练[16]
正式开课!三个月搞懂自动驾驶世界模型技术栈
自动驾驶之心· 2025-12-30 17:20
文章核心观点 - 世界模型是理解并改变物理世界的核心技术,正引领生成式AI自动驾驶范式,重塑自动驾驶底层能力[2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成和OCC生成[2] - 行业基于开源算法搭建云端/车端世界模型,用于长尾数据生成、闭环仿真评测,并尝试直接赋能车端驾驶能力[3] - 世界模型定义尚不清晰,初学者入门困难,存在大量“踩坑”现象[4][5] - 为解决学习难题,推出了国内首个《世界模型与自动驾驶小班课》,旨在系统化教学,帮助学员达到约1年经验的算法工程师水平[7][20] 行业技术动态与探索方向 - **视频生成方向**:是学术界和工业界探索最多的领域,代表工作包括Wayve的GAIA-1/2/3、上海交通大学CVPR'25的UniScene等[2] - **OCC生成方向**:经典工作包括OccWorld、OccLLaMA,以及西安交通大学最新的SOTA工作II-World[2] - **通用世界模型进展**:近期重要发布包括2025年6月Yann LeCun的V-JEPA 2、2025年8月DeepMind的Genie 3、2025年11月李飞飞团队的Marble[2] - **业界热门工作**:包括导航世界模型、VLA+世界模型算法DriveVLA-W0以及特斯拉在ICCV上分享的世界模型模拟器[13] 课程内容与结构 - **第一章:世界模型介绍**:复盘世界模型与端到端自动驾驶的联系,讲解发展历史、应用案例、不同流派(纯仿真、仿真+Planning、生成传感器输入、生成感知结果等)及其在业界的应用与解决的问题[12] - **第二章:世界模型背景知识**:讲解场景表征、Transformer、BEV感知等基础知识,为后续学习奠定基础,内容被认为是求职面试频率最高的技术关键词[12][13] - **第三章:通用世界模型探讨**:深入讲解Marble、Genie 3、JEPA、DriveVLA-W0、特斯拉模拟器等热门模型的来龙去脉、核心技术与设计理念[13] - **第四章:基于视频生成的世界模型**:从Wayve的GAIA-1 & GAIA-2讲起,涵盖CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战[14] - **第五章:基于OCC的世界模型**:聚焦OCC生成类算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端[15] - **第六章:世界模型岗位专题**:分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备要点[16] 课程涉及的关键技术栈 - **基础模型与架构**:Transformer、视觉Transformer、为多模态大模型奠定基础的CLIP和LLaVA[18] - **感知与表征**:BEV感知、占用网络[18] - **生成式模型**:扩散模型(用于输出多模轨迹)、VAE、GAN以及Next Token Prediction[18] - **仿真技术**:闭环仿真、NeRF和3DGS[18] 课程面向人群与学后收获 - **面向人群**:课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力从业者真正理解端到端技术[17] - **学员基础要求**:需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,了解transformer大模型、扩散模型、BEV感知等基本概念,以及概率论、线性代数、Python和PyTorch基础[20] - **学后收获目标**:掌握世界模型技术进展(视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中[20] - **职业发展**:学完预计能达到1年左右世界模型自动驾驶算法工程师水平,对实习、校招、社招均有助益[20] 课程安排与信息 - **课程进度**:开课时间为1月1日,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止2026年12月31日[21] - **章节解锁时间表**: - 12月10日:第一章[22] - 1月1日:第二章[22] - 1月20日:第三章[22] - 2月4日:第四章[22] - 2月24日:第五章[22] - 3月1日:第六章[22] - **讲师背景**:Jason老师拥有C9本科和QS50高校博士学位,已发表CCF-A论文2篇及CCF-B论文若干,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,并主持完成多项自动驾驶感知和端到端算法的产品量产交付[9]
为什么世界模型对行业产生了这么大的影响?
自动驾驶之心· 2025-12-29 17:17
世界模型在自动驾驶领域的愿景与探索 - 世界模型的愿景是理解并改变物理世界,其核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力 [2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成、OCC生成以及Lidar点云生成或视觉与点云的联合生成 [3] - 许多公司基于开源算法搭建云端或车端世界模型,用于长尾数据生成或闭环仿真与评测,部分公司正尝试基于世界模型直接赋能车端驾驶能力 [4] 世界模型的技术定义与学习挑战 - 世界模型的定义尚不清晰,存在“生成即世界模型”与“生成加重建即世界模型”等不同理解,导致新入行者容易混淆 [5] - 对于初学者而言,理解世界模型并完成数据生成、闭环仿真等后续任务非常困难,部分从业者甚至花费半年时间仍难以有效入门 [6] 自动驾驶世界模型课程概述 - 该课程由自动驾驶之心平台联合工业界算法专家Jason推出,旨在从原理到实战帮助学习者掌握自动驾驶世界模型领域,是国内首个《世界模型与自动驾驶小班课》 [6][8] - 讲师Jason拥有C9本科与QS50博士学位,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的产品量产交付 [8] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [20] 课程大纲与核心内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派及其在业界解决的问题与所处环节 [11] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [11][12] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,深入讲解Marble、Genie 3、JEPA、导航世界模型、DriveVLA-W0及特斯拉的世界模型模拟器等模型的核心技术与设计理念 [12] - **第四章:基于视频生成的世界模型** 聚焦视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上交的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [13] - **第五章:基于OCC的世界模型** 聚焦OCC生成类算法,涵盖三大论文讲解与一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [14] - **第六章:世界模型岗位专题** 分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [15] 课程技术细节与学习收获 - 课程背景知识部分将详细讲解Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS,以及其他生成式模型如VAE、GAN等 [17] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交最新的II-World等工作 [18] - 学完本课程后,学习者预期能达到约1年经验的自动驾驶世界模型算法工程师水平,掌握技术进展,对BEV感知、多模态大模型等关键技术有更深刻理解,并可复现II-World、OpenDWM等主流算法框架 [19] 课程安排与参与要求 - 课程章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [21] - 学习本课程需要自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、了解Transformer大模型等基本概念、拥有概率论与线性代数基础以及Python和PyTorch编程能力 [19]
传媒行业点评:头部厂商持续入局世界模型,关注影视、游戏环节应用潜力
中邮证券· 2025-12-29 16:44
行业投资评级 - 行业投资评级为“强于大市”,且评级维持不变 [1] 核心观点 - 头部厂商持续入局世界模型,应关注其在影视、游戏环节的应用潜力 [3] - 世界模型是AGI研究重要方向,海内外头部厂商如Google、Runway、字节跳动均在积极布局 [4] - 世界模型能力的持续演进,有望为影视和游戏行业带来持续赋能 [5] - 在影视领域,世界模型有助于构建遵守物理定律、空间一致的虚拟环境,提升视频生成的时序稳定性与物理遵循能力,推动AI+影视向长视频制作、复杂镜头叙事等更高复杂度领域扩展 [5] - 在游戏领域,世界模型的三维世界生成、交互性能力与游戏制作流程高度契合,有望提升游戏内容生产效率、玩法创新及虚拟世界构建能力 [5] 事件回顾 - 2025年12月17日,腾讯正式发布旗下混元世界模型1.5,该模型首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路 [3] 头部厂商布局详情 - **Google**:旗下最新一代世界模型Genie 3可根据文本提示生成动态世界,并在720p分辨率下保持几分钟的一致性 [4] - **Runway**:于2025年12月发布首个世界模型GWM-1,包含GWM Worlds(环境探索)、GWM Avatars(角色对话)、GWM Robotics(机器人操作)三种变体 [4] - **字节跳动**:成立Seed-多模态交互与世界模型团队,并于2025年10月发布3D生成大模型Seed3D 1.0,后续计划推动3D模型在世界模拟器中的规模化应用 [4] - **腾讯**:其混元世界模型支持构建“可行走”的场景地图,并提供元素级独立编辑与物理仿真 [5] - **xAI**:计划布局世界模型方向,并提出在2026年底推出由世界模型驱动的AI生成游戏 [5] 投资建议 - 建议关注具备世界模型开发+场景应用双重能力的公司,例如:昆仑万维 [6] - 建议关注AI+影视制作环节的公司,例如:华策影视、光线传媒、横店影视 [6] - 建议关注大型3D游戏制作公司,例如:完美世界、巨人网络 [6] 行业基本情况 - 行业收盘点位为802.63 [1] - 行业52周最高点位为897.3 [1] - 行业52周最低点位为590.32 [1]
世界模型和数字孪生的本质是什么?怎么赋能自动驾驶?
自动驾驶之心· 2025-12-29 09:07
世界模型与数字孪生概述 - 自动驾驶领域的研究离不开世界模型和数字孪生,核心目标是为感知模型构建虚拟训练环境并缩小其与真实世界的差距[5] - 世界模型的本质目的是理解世界动态并预测未来场景,所有研究路径均以此为核心共识[7] - 数字孪生的作用是在虚拟世界中定义自动驾驶车群的各个环节与要素,通过自由切换时空来低成本、高效率地研究关键技术,从而驱动现实世界技术的发展与落地[19] 世界模型的定义与发展 - 世界模型存在概念泛化问题,当前定义的核心是以视频为底座的“时空认知”,需要大量视频数据,游戏是重要的训练数据来源[7] - 研究分为两大分支:“内部表示”学派用潜在变量建模环境以辅助决策,“未来预测”学派生成真实视频并转向具身交互[7] - 具身环境的世界模型正从单纯模拟视觉动态,转向构建包含空间结构和物理交互的沉浸式环境,以为智能体提供全面学习平台[8] - 世界模型的发展历程包括:心理学起源(1971)、Ha等人首次系统构建(2018)、LeCun的JEPA框架(2022)、LLMs的隐性世界知识(2023)以及OpenAI的Sora实现显性模拟(2024)[10] 世界模型的核心要求与应用方向 - 世界模型需具备物理一致性、多尺度时空建模(从毫秒到分钟,从厘米到公里)以及因果推理能力[11] - 三大核心应用方向包括:作为基础模型的预训练方式、用于仿真和数据生成以补充真实数据不足、以及进行端侧推理以实现实时环境变化预测[11] - 在自动驾驶中,世界模型需要实时感知路况并准确预测其演变;在机器人技术中,则对导航、物体检测和任务规划等任务至关重要[11] 世界模型的技术路径与场景构建 - 3D高斯可能是最有前景的表征方式,但需解决核函数优化问题;神经辐射场(NeRF)与动态建模的组合也值得探索;分层建模可为不同目的服务[12] - 室内环境构建从纯视觉发展到多模态、社交交互及LLM驱动指令生成;室外环境构建早期通过检索3D资产,突破性进展包括使用3D生成模型构建可定制城市(如UrbanWorld)和程序生成的沙盒环境(如MineDOJO)[12] - 动态环境构建实现革命性转变,从静态预定义环境转向生成式模型实时动态模拟,代表工作有UniSim、Pandora和Streetscapes[12] 自动驾驶中世界模型的应用形态 - **学习隐式表示**:通过感知数据在潜在空间构建世界状态的抽象表征,将多模态输入转化为几何/语义空间以预测交通参与者未来轨迹与行为,技术演进从PointNet、CNN到Transformer多摄像头BEV融合及多模态LLM应用[16] - **世界模拟器**:直接生成车辆感知数据(如视频、3D占据网格)以模拟未来世界状态,传统几何空间模拟存在信息丢失、计算昂贵等局限,视频生成方案(如扩散模型GAIA-1/DriveDreamer)能直接生成逼真相机数据并支持文本控制[16] - 数据的表示形态包括图像/视频(如GAIA-1生成多视角驾驶视频)和BEV鸟瞰图(如BEVWorld统一感知-预测-规划)[16] 自动驾驶中世界模型的具体应用与车企落地 - 主要优势在于生成罕见场景(Corner Case),以降低实车路测成本,案例如MagicDrive3D实现可控3D场景生成,DriveDreamer-2用LLM增强多样性[17] - 支持端到端驾驶,如BEVWorld通过统一潜在空间整合感知、预测和规划,实现端到端优化[17] - 交通场景模拟可在几何空间、视频空间(基于扩散的视频生成模型)和3D空间(如OccWorld预测3D占据网格)中进行[17] - 车企落地情况:蔚来有NWM世界模型提供仿真闭环训练环境;小米有ORION框架集成仿真工具链;Wayve有GAIA-1生成式世界模型支持多模态条件[17] 数字孪生的层次与相关技术 - 数字孪生体现在多个层次:物理世界建模/数字化(将现实世界映射到虚拟空间)、模型迭代(利用虚拟环境数据训练感知模型)以及系统迭代(在仿真软件中研究系统并找出解决方案)[20][21] - 相关技术包括:3D占用网格(如OccSora)、点云预测(如Copilot4D预测雷达点云变化)、混合表示(如MaskGWM结合视频掩码重建)、利用LLM进行场景理解(如TOKEN将交通场景标记为对象级知识)以及运动预测(如Trajectron++预测多智能体轨迹)[22] 倾斜摄影三维重建流程 - 流程包括:图像预处理(畸变校正、曝光均衡)、空中三角测量(解算图像精确内外参)、密集匹配(生成高密度点云)、网格构建(生成三维几何网格模型)、纹理映射(生成纹理逼真的三维模型)以及模型优化与输出[23][24][25][26][27] MVSNET技术流程 - 流程包括:输入准备(接收多幅图像及相机参数)、特征提取(用CNN提取像素级特征)、代价体构建(计算特征相似度构建三维代价体)、代价体正则化(用3D卷积网络滤波)、深度图回归(计算深度概率分布生成深度图)以及后处理(优化深度图)[30][31][32][33] NeRF技术原理与演进 - NeRF用一个连续的体积函数表示3D场景,输入3D坐标和视角方向,通过训练神经网络预测点的颜色和密度,并使用体积渲染公式合成新视角图像[34][36] - 原始NeRF训练慢、渲染慢、内存占用大,后续改进包括:Instant-NGP+使用哈希编码将训练速度提升100倍;Mip-NeRF+解决抗锯齿问题;Block-NeRF+支持城市级大场景;D-NeRF+支持动态场景[37] - 与MVSNET区别:MVSNET是显式几何流水线,先生成点云/网格再渲染;NeRF是隐式场方法,直接学习连续函数并可通过体渲染生成任意视角图像[39][40][41] - 在跨场景泛化方面的改进工作包括:代价体编码(如MVSNeRF)、点云特征外挂(如Point-NeRF)、使用注意力机制聚合多视图(如IBRNet)、引入2D大模型先验(如DreamFusion)以及元学习/预训练流程(如Meta-NeRF)[44][45][46][48][50] 3D高斯溅射(3DGS)技术原理 - 核心思想是将三维场景显式地建模为数百万个可学习的3D高斯基元,每个基元包含位置、协方差(决定椭球形状)、不透明度和视角相关颜色(用球谐系数表示)等参数[52][53] - 基本流程:用COLMAP做SfM初始化稀疏点云和高斯球;进行视锥剔除;通过可微分投影将3D高斯变换到2D;采用分块光栅化(Tile-based splatting)按深度排序并行渲染;计算损失并反向传播优化所有参数;通过自适应密度控制(克隆、分裂、剪枝)来增删基元[57][58][59][60][61][62][63][64] - 自适应增删基元的依据:增基元依据梯度反馈、几何特征和多视角一致性;删基元依据全局重要性评分、多视角一致性和几何特征;通过克隆、分裂、直接删除或软剪枝等方式实现,并周期性执行以保持优化稳定性[71][72][74][75][76][77][79][80][82][83][85] 3DGS在自动驾驶领域的应用 - **高精度场景重建**:AutoSplat框架通过物理约束优化实现高度逼真的自动驾驶场景还原;GaussianOcc通过全自监督3D占用估计技术,在无LiDAR标注下使占用预测精度比传统方法提升15%-20%;LumiGauss解决极端光照场景重建失效问题;EGSRAL可实现大规模驾驶场景的自动化3D重建与语义标注[88][89][90][91] - **感知能力增强**:DepthSplat实现3DGS与深度估计的直接联动,可修正LiDAR因遮挡导致的深度误差,使对弱势交通参与者的深度估计误差降低至5厘米以内;3DGS与SLAM融合可实时区分静态背景与动态物体,使定位误差从传统SLAM的0.5米降低至0.1米以内[92][93] - **动态场景建模**:DrivingGaussian专为环视相机设计,采用分区域高斯建模策略,实现360°全方位动态场景重建;GaussianCity通过高斯点分层存储与动态加载技术,将城市场景重建速度提升60倍,可实现平方公里级区域的实时建模[94][95] - **仿真闭环**:3DGS通过高保真场景生成与实时交互,为自动驾驶算法迭代构建更真实的数字孪生仿真环境[97] - **动态场景建模技术**:S³Gaussian采用自监督学习,通过时空场网络和多头高斯解码器实现无需标注的动态场景分解;DrivingGaussian采用增量静态高斯和复合动态高斯图的分层建模策略,并通过引入LiDAR先验使静态背景重建误差降低40%[98][100][102]
哼哧哼哧搞了小半年,小结一下这段时间世界模型的学习成果
自动驾驶之心· 2025-12-27 10:07
世界模型的概念与分类 - 世界模型并非单一模型或范式,而是多个不同研究方向的总称,需要仔细辨析其具体含义 [3] - Jurgen Schmidhuber在2018年提出的世界模型定义为“a mental model of the world”,即世界在大脑中的映射,它关注图像等输入在大脑中形成的概念与关系,并需反映物体在空间和时间上的关系 [4] - Yann LeCun提出的世界模型强调常识知识,其作用不仅在于预测未来结果,还能填补时空上的缺失信息 [7] - 生成式世界模型是对真实世界的物理建模,关注对世界的直接仿真与重构,评价标准通常使用SSIM等指标,这与关注抽象概念联系、以完成任务为标准的心理世界模型有本质区别 [11] - 目前尚无定论何种模型是真正的世界模型,生成式模型模仿GPT思路,认为海量数据能涌现智能;Jurgen的模型是对基于模型的强化学习的重新包装,但面临真实世界动作难以获取的局限;LeCun的模型则缺乏对动作的建模,导致任务迁移困难 [12] 自动驾驶轨迹预测任务设定 - 研究使用nuScenes数据集进行开环评估,该数据集包含1000段、每段20秒的驾驶场景,采集自波士顿和新加坡,涵盖复杂交通状况,总计约140万张相机图像、39万次激光雷达扫描和140万次毫米波雷达扫描 [13] - 轨迹预测任务要求模型根据6个摄像头的视觉信息和指令,预测车辆未来轨迹,关键评估指标包括L2距离和碰撞率 [14] - L2距离指标计算预测轨迹与真实轨迹之间各航点的平均欧氏距离,单位为米,数值越低越好 [14] - 碰撞率指标通过检查预测轨迹在3秒内是否与标注物体发生几何重叠来计算,以百分比表示,数值越低越好 [15] 基于世界模型的轨迹预测方法:LAW - 论文《Enhancing End-to-End Autonomous Driving with Latent World Model》提出了一种极简的世界模型方法,仅通过预测下一时刻的潜变量来增强轨迹预测 [17] - 方法使用编码器将6个摄像头的图像编码为36个视觉标记,并以航点作为条件来预测下一时刻的潜变量 [19] - 框架包含感知无关和感知相关两种编码器结构,以感知无关为例,流程为图像特征 -> 潜变量 -> 航点,航点解码器为每个样本生成三条轨迹,并根据指令选择正确轨迹 [20][22] 基于世界模型的轨迹预测方法:World4Drive - 论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》对LAW进行了改进 [23] - 核心改进包括:将轨迹离散化为8192条预设轨迹;使用k-means算法为每个指令构建6个意图点,进行粗筛;使用潜变量编码器结合时空信息进一步精炼轨迹 [23] - 潜变量编码器通过3D空间编码为图像标记添加深度信息,并通过跨注意力机制聚合时间信息,生成丰富的世界潜表征 [24][27] - 规划阶段通过动作编码将意图转化为对应动作,并构建意图感知的世界模型进行预测,在推理时使用一个评分网络选择最佳模型 [29][30][31] - 总损失函数由语义损失、重构损失、评分损失和轨迹损失加权组成 [33] 模型性能对比与分析 - 在nuScenes基准测试中,World4Drive在3秒平均L2距离上达到0.50米,平均碰撞率为0.16%,其性能优于或接近LAW等先进方法 [36] - 消融实验表明,同时使用深度信息、语义信息、世界模型和意图感知机制的完整模型(ID 6)能取得最佳性能(L2: 0.50米, 碰撞率: 0.16%) [37] - 实验证明,增强的语义信息对降低L2距离和碰撞率均有帮助,而仅使用意图点机制而不结合其他改进则效果不佳 [39]
智驾L3冲刺,车企都在赌哪条路
汽车商业评论· 2025-12-27 07:04
文章核心观点 - 行业正从L2级辅助驾驶向L3级商业化迈进,L3可能成为短暂过渡,最终目标是实现L4普及 [5][6] - 2025年中国智能驾驶“平权”加速落地,功能搭载率显著提升,系统可靠性(以平均接管里程衡量)实现近100%的跃升 [8][15][17] - 智能驾驶技术正从机械规则驱动向场景理解进化,在复杂路况下展现出类似“老司机”的灵活应变能力 [8][19][21] - 技术路线争论持续,但融合与务实成为主流,下一阶段可能以端到端为主干,融合视觉语言行为模型和世界模型 [9][39][42] - 用户体验是当前L2框架下的第一优先级,明确功能边界是未来重要的迭代方向 [10][24][39] 中国辅助驾驶发展趋势 - **功能普及(平权)加速**:高速NOA搭载车型从2024年的18款增至2025年的29款,涨幅超50%,价格门槛从12.38万元下探至9.68万元 [15] - **功能普及(平权)加速**:城区NOA搭载车型从2024年的10款大幅增至2025年的24款,涨幅达150%,起步售价进入14.98万元级别 [15][16] - **功能普及(平权)加速**:自动泊车辅助(APA)和记忆泊车(HPA)功能在测评车型中搭载率分别达到30款和25款 [15] - **供应链与方案多样化**:采用供应商方案的车型从2024年的10款增至2025年的22款,增长显著,硬件方案选择也更加多样化(如Orin系列、Thor系列、MDC系列等) [15] - **系统性能显著提升**:在固定测评场景下,平均接管里程从2024年的6.4公里提升至2025年的12.1公里,增长近100% [15][17] - **场景理解能力质变**:面对施工围挡、临时导流区等复杂场景,2025年约80%的测试车型能够通过大施工区域,而2024年仅有个别车型能实现 [19] 以用户为中心的多维度评估 - **测评理念**:在L2框架下,驾驶员需随时准备接管,因此用户体验是第一优先级 [24] - **测评维度**:借鉴马斯洛需求理论,从系统性能(生存与安全)、安心感(归属感)、舒适与效率(自我实现)三大维度评估 [24] - **权重分配**:舒适性与效率各占20%权重;基础场景(高频使用)占80%权重,挑战性场景占20%权重 [26][27] - **测评路线**:全程约40公里,包含47个路口及20多次转向调头场景,并新增了停车场驶入驶出环节以测试“行泊打通”能力 [27] 测评亮点车型及场景 - **梯队划分**:未做具体排名,而是将表现分为三个梯队,第一梯队(如理想、尊界、问界)平均接管里程近20公里,在日常通勤中几乎无需接管,达到“可用”水平 [29] - **亮点车型**: - 理想i6:应用视觉语言行为模型,带来诸多新颖的交互体验 [31] - 魏牌高山:在效率与舒适性上调校均衡,从用户实际使用出发 [31] - 东风日产N7:以约80 TOPS算力和3R7V配置(成本为高阶方案的1/3-1/5),实现了可用水平,是“中算力方案的守门员” [31] - 奇瑞iCAR V23:以仅13 TOPS的算力实现了高速NOA,是“中小算力方案的优等生” [31] - **VLA模型创新体验**: - 支持“语音路边停车”等复杂自然语言指令,车辆能理解并尝试执行,改变了必须设定固定目的地的传统模式 [33] - 支持“语音右转”,车辆能根据语音指令改变导航路径 [33] - 在泊车场景中,能“自主寻找停车场出口”,通过识别环境元素(如指示牌、闸机)实现,无需依赖高精地图先验信息 [33] 辅助驾驶技术路线探讨及争论 - **功能演进方向**:2026年行业重点将是高速NOA向L3级别商业化落地迈进,L3意味着责任主体从驾驶员转向主机厂或系统 [5][37] - **法规影响**:针对L2的强制性国家标准正在酝酿,短期内可能给市场带来压力,长期将规范功能使用,从安全出发 [37] - **城区功能进展**:2025年重点是“行泊打通”,关键点在于处理停车场闸机场景,多家公司已能实现 [39] - **感知能力进步**:从识别车辆发展到能识别车辆类型、警车、路面坑洼等,越来越接近真人视觉 [39] - **技术路线融合**:纯端到端模型存在局限性(缺乏推理能力),行业开始尝试将其与视觉语言行为模型、世界模型融合,以兼顾理解与响应 [39][42] - **地图应用共识**:行业形成“重图轻用”共识,即充分利用地图信息进行推测和辅助决策,但不让用户过度依赖或感知其存在,以平衡成本与体验 [44][45] 知行科技公司介绍 - **公司概况**:成立于2016年,2023年于港交所上市,是中国首家在香港上市的辅助驾驶公司,提供软硬件一体解决方案 [47] - **业务布局**:总部在苏州,国内外设有多个办公室和研发中心,在马来西亚有工厂,产品涵盖软件、智能摄像头、域控制器等 [47] - **市场成果**:服务客户超20家,包括自主、合资及外资品牌,累计获得近100个车型项目,在帮助中国主机厂海外车型法规认证方面布局较早 [47] - **技术认可**:在E-NCAP测试中,已有四款搭载其技术的车型获得五星评级,在国内处于领先水平 [47]
赵何娟对话王维嘉:AI没有系统性泡沫,原生AI应用将在三年内爆发 | 巴伦精选
新浪财经· 2025-12-26 21:54
大模型竞争格局 - OpenAI不会轻易出局,未来将是各家公司交替领先的动态格局,只要使用相同的Transformer架构和技术路径,差距就不会不可逾越,竞争态势是“你六个月超越我,我再六个月超越你”的持续迭代 [2] - Google在模型研究、自有算力(TPU)和应用场景三方面具备领先优势,构成了高度协同的系统集成能力,其垂直整合能力使其算力基础设施可针对自身应用进行高度优化,从而实现最低的单位成本 [9][10][11] - 未来的模型竞争将从同质化走向高度差异化,这是强化学习驱动下、基于不同应用目标和数据空间定向演化的必然结果,各家公司通过强化学习在不同知识子空间中进行定向探索 [3][17][18] - 模型分化将导致垂直领域诞生专业化的行业通用大模型,例如在科研、制药、编程、历史等领域 [3][19] - 基础大模型的分化维度比应用更宽广,在一个高度差异化的基础大模型之上,可以构建多个面向不同细分市场的应用 [21] 英伟达面临的挑战与战略 - 英伟达面临的主要挑战在于各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,英伟达将面临被替代的风险 [3][11] - 未来云服务市场越集中,对英伟达越不利;市场越分散,其地位越稳固,因此英伟达积极扶持新兴云厂商,如Oracle、Nebius、CoreWeave等,以维持生态多样性 [3][12] - 对于大型企业客户(如沃尔玛、《财富》500强公司),在云平台上选择TPU还是GPU时,目前绝大多数第三方用户仍主要使用GPU,原因包括CUDA生态成熟、开发便捷,以及GPU具备极强的部署灵活性,可按需从单卡扩展至万卡规模,而TPU采用固定规模的block设计(一个block包含9,064个TPU),难以支持小规模或灵活配置 [12] AI应用落地的关键条件 - 任何AI应用如果能同时满足以下三个条件,就更有可能快速取得突破:1) 纯数字化;2) 具备训练数据;3) 拥有明确的奖励函数,反之,如果缺少其中任意一项,进展通常会较为缓慢 [4][22][23][24] - 金融领域的AI应用是满足这三个条件的典型例子:交易完全数字化、存在大量历史数据、奖励函数清晰(通过回测验证盈利) [24] - 不满足条件的应用例子是“保姆机器人”,它涉及物理交互、缺乏明确的奖励函数(什么是“好保姆”标准模糊)、相关训练数据极难获取 [24][29] - 工业机器人场景则不同,其对灵巧度要求取决于具体任务(如分拣、装箱),且通常具备大量可采集的操作数据,因此前景更为积极 [28][29] AI市场泡沫与价值判断 - AI泡沫论的本质是节奏问题,只要模型能力持续提升,AI就不存在系统性泡沫,模型能力决定一切,其他因素都是次要的 [5] - 即便预训练见顶,模型的经济价值仍远未被释放,因为当前模型能力已经能够完成大量任务,其潜在经济价值未被充分释放 [32][33] - 真正的风险在于生态发展的不均衡,基础设施可能提前建成而应用尚未成熟,导致局部性、阶段性的泡沫,但这只是暂时调整,而非根本危机 [5][34] - 当前指数级增长的需求主要来自推理(inference),而非预训练,因为训练是一次性投入,而用户实际使用模型产生的调用是持续性的 [35] 芯片与算力市场动态 - Google对英伟达不构成直接竞争,因为英伟达的最大客户(Amazon、Microsoft、Google、Meta等云服务商)彼此是直接竞争对手,不可能依赖Google提供芯片,只能选择中立的英伟达 [11] - Google的TPU对外销售业务难以成为其核心收入来源 [11] - 芯片处理速度在过去两年可能提升了100倍甚至1000倍,但未来这种增长速度可能会放缓 [57] AI对行业与创业的影响 - AI时代最难被替代的是高斯分布极端尾部的天才,扎克伯格开出天价年薪正是对这一趋势的预判,高端人才做出的贡献是机器无法替代的 [7][52] - AI能力的提升正在颠覆VC模式,技术背景深厚的创业者可能不再需要融资,靠产品力就能从零做到十亿美金收入,例如一家名为Surge的公司创业四年达到十亿美金收入而未进行融资 [7][53][54] - 未来1-3年,创业必须做AI原生应用,不能做AI赋能,在旧模式基础上修修补补肯定竞争不过大公司,原生应用才是创业机会 [7][55] - 未来1-3年可能发生的最大变化包括:1) 应用层面出现真正的AI原生应用;2) Agent(智能代理)逐渐成熟并实现环节打通,哪怕实现简单的功能(如点外卖或网上购物)也具有巨大的经济价值和市场颠覆性 [56] 技术架构与能力边界 - 在当前的Transformer架构下,AI不可能产生意识或情感,机器缺乏内分泌系统,没有内在的奖惩机制和欲望,一切行为都是确定性的输入输出 [5][39][41][42] - 比起担忧AI控制人类,更应警惕坏人利用AI [5][45] - 语言是人类与动物的根本区别,是人类跃居食物链顶端的核心能力,从文字中学习3D空间信息是间接且低效的,李飞飞的空间智能研究更直接高效 [8][47] - 仅依靠空间模型无法完成所有任务,必须同时具备语言模型和空间模型,语言提供抽象能力和行动指令,空间提供物理世界理解,两者缺一不可 [8][49]
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]