世界模型
搜索文档
智能驾驶深度报告:世界模型与VLA技术路线并行发展
国元证券· 2025-10-22 16:56
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容 世界模型路线则代表更底层的认知方式 强调物理规律和空间理解力 适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环 推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升 先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步 到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元 同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月 中国智能驾驶产业主体数量快速增长 注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低 例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能 中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段:感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野 结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测 构建更高精度的全局环境表示 能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中 减少任务拆解带来的累积误差 但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合 其核心流程可拆解为四步:环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括:3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括:极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进:空间维度向高精度三维语义建模过渡 时间维度发展长时记忆与预测 成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架 通过对环境物理规律和因果关系的建模 实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段:Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括:大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括:长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合 通过在虚拟环境中交互试错 使模型具备主动探索与优化能力 有效降低错误策略导致的安全风险与成本消耗 [144]
特斯拉最新技术分享,FSD核心架构曝光了
36氪· 2025-10-22 16:00
特斯拉FSD技术架构曝光 - 特斯拉在ICCV会议上曝光FSD核心架构,显示其已整合为一张大型神经网络,可输入摄像头视频、导航信息、自车运动状态和声音等多模态信息[1][6] - 网络输出端包括全景分割信息、3D占用网络、3D高斯渲染、语言以及未公开信息,最终经推理输出动作[6] - 此次分享是特斯拉时隔3年后首次对外公开技术细节[4] 行业技术路线争议 - 曝光架构中输出语言信息,引发特斯拉可能采用VLA路线的猜想,行业当前存在VLA与世界模型的技术路线之争[7][10] - VLA路线代表为元戎启行和理想,认为该范式可利用互联网海量数据积累常识,并具备思维链能力进行长时序推理[7] - 世界模型路线代表为华为和蔚来,认为其更接近问题本质,在时空认知能力上比VLA具有更高带宽[10] 自动驾驶进入大模型阶段 - 曝光信息显示特斯拉FSD已步入大模型阶段,参数规模仍在扩大[10] - 行业认为更大参数模型需要更大算力支撑,今年涌现多款算力达1000TOPS甚至2000TOPS的新车[10] - 特斯拉新一代智能辅助驾驶芯片算力据称将直奔2000TOPS,模型参数将提高十倍[10] FSD最新版本功能更新 - FSD推送V14.1.3版本,包含10项更新,优化了对树枝、轮胎等细小障碍物的横向避让能力,并改善了无保护转弯、变道等场景的处理[12] - 增加个性化功能,用户可通过速度配置文件定制驾驶偏好,系统遇到特种车辆会靠边停车或让行[12] - 神经网络中添加导航和路线功能,可实时生成绕行路线以应对堵车,用户到达终点后可选择停车位置[12] - FSD重启疯狂麦克斯模式,驾驶风格激进,适用于赶飞机、接孩子等紧急场景[12][14] 中国自动驾驶发展态势 - 特斯拉不再对外技术分享后,中国玩家在VLA和世界模型方向持续进行无人区探索[17] - 中国自动驾驶算法正在告别特斯拉崇拜,国内有实力的AI玩家已不再关注马斯克的动向[17]
哈佛&MIT:AI能预测,但它还解释不了“why”
36氪· 2025-10-22 08:56
研究背景与核心问题 - 哈佛与MIT的研究旨在探究大语言模型是否能构建“世界模型”,而非仅进行下一个词的预测 [1] - 实验选择轨道力学作为测试场景,因其在科学史上具有代表性,可类比于AI重演开普勒发现并测试其是否学会牛顿力学 [2] - 研究关注“预测与解释脱节”这一现代AI模型的根本性局限 [4] 实验设计与方法 - 研究使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型 [1][4] - 实验设计核心是检验模型预测行星运动时,是否会利用牛顿定律还是仅依赖“特定情境的经验法则” [4] - 后续测试还扩展到当前最先进的大语言模型以及“晶格问题”和“黑白棋”等其他场景 [9][10] 主要研究发现 - AI模型能精准预测行星轨迹,预测结果几乎完美,但其推导的受力向量杂乱无章,与牛顿定律毫无关联 [4][6] - 模型并未编码出牛顿定律的世界模型,而是依赖无法推广到其他情况的经验法则 [4][6] - 当使用新的银河系样本数据测试时,模型会编码出完全不同的另一套错误的“受力定律”,错误并不一致 [7][8] - 最先进的大语言模型同样表现出精准预测与错误解释脱节的问题,即便训练数据中已包含牛顿定律 [9] 对AI行业发展的启示 - 研究结果表明当前形态的LLM不足以实现真正的科学发现,其泛化能力仅限于“所熟悉的东西,或与所熟悉的东西相像的东西” [9][11] - AI未来发展需结合“晶化智力”(已有知识技能)与“流动智力”(经验迁移能力),而非单纯追求模型规模扩大 [12] - 行业需探索新方法(如Yann LeCun的JEPA框架)让AI掌握构建世界模型的能力,从“预测机器”进阶为能理解世界运行逻辑的“思考者” [12][14] - 科学的核心问题——精准预测与理解事物运行的“为什么”——将是AI未来需要攀登的高峰 [12][13]
从地平线自动驾驶2025年的工作,我们看到了HSD的野心......
自动驾驶之心· 2025-10-22 08:03
公司战略与整体进展 - 公司在2025年经历组织调整和资源整合后,在自动驾驶领域双线并进,一方面推动新一代辅助驾驶系统HSD的大规模量产落地,另一方面通过前沿论文重塑自动驾驶的底层逻辑 [2] - 公司正从技术供应商向行业标准定义者跃迁,其全新的HSD系统采用创新的"一段式端到端+强化学习"架构,突破传统感知-决策-控制模块的延迟瓶颈 [2] - 公司集中发力在端到端和世界模型两个最热门的方向上,得益于从UniAD时期就积累的大量学术经验,并已将重点铺在了一段式端到端的量产 [3] - 公司在Diffusion、强化学习、GoalFlow、世界模型等领域颇有建树,未来预计会有更多自动驾驶和具身智能方面的基石工作问世 [4] 端到端自动驾驶技术 - ResAD框架通过归一化残差轨迹建模,将学习目标从直接预测未来轨迹转变为预测轨迹相对于惯性参考的偏差,在NAVSIM基准测试中以88.6的PDMS分数达到最先进性能 [6][8] - CorDriver框架引入"安全走廊"作为中间表示,在nuScenes数据集上相比VAD等方法,与交通参与者的碰撞率降低66.7%,与路缘的碰撞率降低46.5% [9][11] - TTOG框架统一运动预测与路径规划任务,在nuScenes数据集上平均L2误差降低36.06%,在Bench2Drive上驾驶分数提升22%,尤其在少样本场景下表现出强大泛化能力 [12][14][15] - MomAD框架引入轨迹动量和感知动量机制,在nuScenes和Turning-nuScenes数据集上显著降低长时预测和转弯场景中的碰撞率,提升轨迹平滑性和一致性 [16][18][19] - GoalFlow框架采用目标驱动的流匹配,在NavSim基准测试中PDMS分数达到90.3,仅需单步去噪即可达到优异性能,推理速度比传统扩散模型快数十倍 [20][22][24] - RAD框架基于3D高斯泼溅技术构建强化学习环境,相比纯模仿学习方法碰撞率降低3倍,显著提升驾驶安全性 [23][26][29] - DiffusionDrive框架采用截断扩散策略,在NAVSIM数据集上取得88.1 PDMS,在nuScenes上比VAD降低20.8% L2误差和63.6%碰撞率,实现45 FPS的实时性能 [27][30][35] 自动驾驶场景生成与世界模型 - Epona模型实现解耦的时空建模和异步多模态生成,在NuScenes数据集上取得最佳FVD指标,并将最长生成时长从现有方法的15秒大幅提升至2分钟 [31][33][36] - UMGen框架能同时生成自车动作、交通参与者、交通地图和图像四种关键模态,生成长达60秒的多样化、多模态一致的驾驶场景 [34][38][41] - DrivingWorld模型基于GPT风格视频生成框架,在仅使用15帧条件输入的情况下可生成超过40秒的高保真视频,时长是现有最佳模型的2倍以上 [39][42][46] 自动驾驶视觉语言模型 - AlphaDrive框架首次将基于GRPO的强化学习与规划推理相结合,在规划准确率上比仅用监督微调的模型显著提升25.52%,并展现出高效的数据利用能力,仅用20%的训练数据即可超越基线模型35.31% [43][45][47]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 08:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
锦秋基金领投企业Manifold AI流形空间连获两轮共亿元融资,打造下一代具身智能世界模型|Jinqiu Spotlight
锦秋集· 2025-10-20 20:18
投资事件 - 锦秋基金已完成对Manifold AI(流形空间)的投资 [2] - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [3] - Manifold AI近期的天使轮融资由锦秋基金领投,同创伟业、英诺天使基金跟投,种子轮由英诺天使基金领投、水木清华校友种子基金跟投,两轮融资共亿元,资金将用于下一代具身世界模型的训练与场景落地 [4] 公司技术与定位 - Manifold AI聚焦世界模型与具身智能,原创的具身世界模型技术旨在推动机器人大脑的规模化落地 [6] - 公司提出WorldScape具身基座世界模型方案,具备Reasoning-Dreaming-Acting三位一体能力,利用海量第一人称视角视频数据进行预训练,有望实现物理空间智能涌现 [10] - 预训练模型能力的提升使得绑定本体的动作映射只需极少量In Context Learning数据即可实现,大幅降低部署成本 [10] - 其技术孵化自清华大学电子系未来智能实验室,是世界范围内首个全域布局室外、室内、空域具身世界模型的团队,相关工作DriveScape、RoboScape、AirScape已发表于CVPR2025、NeurIPS2025、ACM MM2025等顶级会议 [10] - Manifold AI已率先接入NVIDIA Jetson Thor开发者套件用于具身世界模型的本体部署 [12] 行业背景与趋势 - 通用机器人面临本体多、数据少、应用分散的落地困局,基于视觉-语言-动作模型的方案存在预训练精度低、需大量本体数据进行模仿学习的问题 [6] - 海外如Tesla Optimus、Figure AI团队已转向使用海量第一人称视角视频数据的技术路线,从第一性原理出发模拟人类学习过程 [6] - 世界模型技术被视为本质解法,可使互联网上所有第一人称视角视频数据成为机器人学习素材,达到类GPT预训练范式所需规模 [7] - 近期行业进展包括OpenAI发布Sora2视频生成模型周活跃用户达8亿,Google发布Genie3世界模型将物理一致上下文视频窗口拉长至分钟级别,李飞飞World Labs发布RTFM世界模型实现单图实时生成可持久化交互3D空间,NVIDIA Cosmos和Meta V-JEPA2世界模型也在具身场景取得突破 [7] - 世界模型路线能撬动更多网络视频和人类训练数据,具有更大规模化潜力,其时空预测能力驱动交互更符合人类物理直觉 [16] 团队背景 - 创始人兼CEO武伟博士为前商汤科技高管,2015年加入商汤初创,有数百人团队管理经验,曾主导商汤开悟世界模型的研发和落地 [13] - 联合发起人包括清华大学教授、教育部长江学者,在AI模拟和世界模型方向早期整体布局,发表过包括十余篇Nature子刊在内的数百篇学术论文 [15] - 另一位联合发起人为清华大学信息学院助理教授,15岁考入清华,多次入选全球前2%顶尖科学家 [15] - 核心团队成员毕业于清华、北大、上交、港中大、UCLA等高校,曾在快手、Momenta、商汤等企业构建过超千万级用户的AI产品,具备机器人与大模型双重背景 [12] - 团队融合智驾产业落地经验和清华前沿实验室技术资源,是国内探索世界模型方向的先锋 [16]
韩国游戏监管新政落地在即;S15正式开赛
21世纪经济报道· 2025-10-20 11:23
国内公司动态 - 吉比特发布前三季度业绩预增公告,预计2025年前三季度归属于上市公司股东的净利润为10.32亿元至12.23亿元,同比增幅57%至86%,扣除非经常性损益的净利润为10.3亿元至12.2亿元,同比增加68%至99% [2][3][4] - 恺英网络旗下治愈系AI潮玩品牌“暖星谷梦游记”携AI智能玩偶“星之子”系列亮相2025中国玩具展,以“智能玩偶+虚拟游戏”模式切入情感陪伴赛道,面向12-35岁群体 [2][5] - 韩国游戏开发商111%与中国全球性游戏发行商海彼网络计划在新加坡成立合资公司,旨在整合双方核心优势,携手进军全球移动游戏市场 [2][6] 合规监管动态 - 韩国文化体育观光部预告国内代理人制度将于10月23日正式实施,满足条件的游戏企业需指定国内代理人并向游戏物管理委员会报告 [7] - 国内代理人制度旨在推动韩国监管机构改善执法沟通效率,强化外国企业合规执行,但存在处罚单一、震慑力度不足、用户权益保护不足等局限 [7] - 全球游戏产业监管逐渐收紧,游戏出海企业需建立内部机制以第一时间响应监管沟通,并建立前瞻思维关注各国法律动态、政策风向和执法重点 [7] 海外行业动态 - 知名游戏制作人板垣伴信离世,其为《忍者龙剑传》《死或生》系列核心制作人 [8][9] - 马斯克宣布其人工智能公司xAI将依托“世界模型”技术大举布局电子游戏产业,计划在明年年底前推出一款由人工智能生成的优质游戏作品 [10] - Web3游戏工作室Mythical Games获得WLD财库公司Eightco Holdings战略投资,以加速打造世界级娱乐生态系统并在后AGI时代将人类身份带入游戏领域 [11] 电竞赛事动态 - 2025英雄联盟全球总决赛在中国北京开赛,赛事从10月14日持续至11月9日,横跨北京、上海、成都三大城市,共有来自全球五大赛区的17支顶尖战队参赛 [12] - 2025年CFS中国区预选赛于10月16日至26日在重庆举行,采用分组循环加淘汰制,最终四支战队将晋级全球总决赛 [13] - CAC2025在上海开幕,赛事持续至10月19日,总奖金高达100万美元,共有来自全球的16支顶尖战队参赛 [14]
韩国游戏监管新政落地在即;S15正式开赛| 游戏周报
21世纪经济报道· 2025-10-20 11:15
国内公司动态 - 吉比特发布前三季度业绩预增公告,预计2025年前三季度实现归属于上市公司股东的净利润10.32亿元到12.23亿元,同比增幅57%到86%,扣除非经常性损益的净利润10.3亿元到12.2亿元,同比增加68%到99% [2][3][4] - 恺英网络旗下治愈系AI潮玩品牌“暖星谷梦游记”亮相2025中国玩具展,以“智能玩偶+虚拟游戏”模式切入情感陪伴赛道,面向12-35岁群体 [2][5] - 韩国游戏开发商111%与中国游戏发行商海彼网络计划在新加坡成立合资公司,旨在整合双方优势进军全球移动游戏市场 [2][6] 合规监管动态 - 韩国文化体育观光部预告其游戏国内代理人制度将于10月23日正式实施,要求满足条件的企业指定国内代理人并向游戏物管理委员会报告 [7] - 国内代理人制度被点评为可改善执法沟通效率并强化外国企业合规执行,但也存在处罚单一、震慑力不足及用户权益保护不足等局限 [7] - 点评指出全球游戏产业监管呈收紧趋势,建议出海企业建立内部响应机制并关注各国法律政策动态以应对风险 [7] 海外行业动态 - 知名游戏制作人、《忍者龙剑传》《死或生》系列核心制作人板垣伴信离世 [8] - 特斯拉首席执行官埃隆·马斯克宣布其人工智能公司xAI将依托“世界模型”技术进军电子游戏产业,并承诺在明年年底前推出一款AI生成的优质游戏 [9][10] - Web3游戏工作室Mythical Games宣布获得WLD财库公司Eightco Holdings的战略投资,以加速打造娱乐生态系统并在游戏中引入人类身份验证 [11] 电竞赛事动态 - 2025英雄联盟全球总决赛(S15)于10月14日在中国北京开赛,赛事持续至11月9日,横跨北京、上海、成都三大城市,有来自全球五大赛区的17支战队参赛 [12] - 2025年CFS(穿越火线世界总决赛)中国区预选赛于10月16日至26日在重庆举行,采用分组循环加淘汰制,最终四支战队将晋级全球总决赛 [13] - 由完美世界电竞主办的CAC 2025(CS亚洲邀请赛)于10月14日在上海开幕,赛事持续至10月19日,总奖金为100万美元,有来自全球的16支顶尖战队参赛 [14]
OpenAl为何“情迷”变现
虎嗅APP· 2025-10-20 08:09
以下文章来源于AGI接口 ,作者余杨 AGI接口 . AI卷起的财富风暴。 出品|虎嗅科技组 作者|余杨 编辑|苗正卿 头图|视觉中国 10月15日消息,Sam Altman 在X上官宣将于12月推出成人内容。 奥特曼写道:"随着我们更全面地推行年龄限制,并践行'像对待成年人一样对待成年用户'的原 则,我们将允许更多内容,例如允许经过验证的成年人观看色情内容。" 本月早些时候,OpenAI 即暗示,在实施"适当的年龄验证和控制"后,将允许开发者创建"成熟"的 ChatGPT 应用。 OpenAI 并不是唯一一家涉足色情领域的公司,埃隆·马斯克的 xAI 此前就推出了调情 AI 伴侣, 它们在 Grok 应用程序中以 3D 动漫模型的形式出现。 有趣的是,同样都是AI 伴侣,两家也都在追逐AGI,但马斯克的xAI和OpenAI的战略和产品思路 越来越呈现出不同的风貌。 一周前,有消息传来xAI 正在开发"可用于电子游戏与机器人领域的世界模型",并从 NVIDIA 挖 走了研究世界模型的 Zeeshan Patel 与 Ethan He。 "世界模型"指一种能在内部重建并预测环境状态变化的模型,AI 不只是"理解 ...
OpenAl为何“情迷”变现
虎嗅· 2025-10-19 11:56
10月15日消息,Sam Altman 在X上官宣将于12月推出成人内容。 奥特曼写道:"随着我们更全面地推行年龄限制,并践行'像对待成年人一样对待成年用户'的原则,我们将允许更多内容,例如允许经过验证的成年人观看 色情内容。" 本月早些时候,OpenAI 即暗示,在实施"适当的年龄验证和控制"后,将允许开发者创建"成熟"的 ChatGPT 应用。 OpenAI 并不是唯一一家涉足色情领域的公司,埃隆·马斯克的 xAI 此前就推出了调情 AI 伴侣,它们在 Grok 应用程序中以 3D 动漫模型的形式出现。 有趣的是,同样都是AI 伴侣,两家也都在追逐AGI,但马斯克的xAI和OpenAI的战略和产品思路越来越呈现出不同的风貌。 一周前,有消息传来xAI 正在开发"可用于电子游戏与机器人领域的世界模型",并从 NVIDIA 挖走了研究世界模型的 Zeeshan Patel 与 Ethan He。 这种基本出发点的不同也就导致,OpenAI 追求快速商业化站稳脚跟, 而马斯克嗤之以鼻,多次公开批评OpenAI 过度商业化。 进而可以看到,马斯克追求AI与物理世界的深度融合,而奥特曼则着手集成各种第三方应用构建生 ...