世界模型
搜索文档
抬高AI权重 小鹏物理AI领域重大突破有望亮相
证券时报网· 2025-10-09 16:30
公司技术进展 - 公司有望在AI科技日宣布在物理AI领域取得重大突破 特别是在世界基座模型对世界进行推演的能力上取得关键进展 [1] - 公司AI团队已投入物理世界AI基座模型研发一年多 从底层AI Infra开始重构方法论 正在研发的基座模型使用了有史以来最大的模型数据量 是国内最领先的物理AI大模型 [1] - 公司在行业首次明确验证了规模法则在自动驾驶VLA模型上持续生效 该成果已在今年年中有过分享 [2] 核心产品与技术规格 - 公司于今年4月正式披露正在研发的720亿参数超大规模自动驾驶大模型“小鹏世界基座模型” [1] - 该720亿参数模型将为公司提供全新的智能驾驶“大脑” 并通过云端蒸馏技术部署到车端 同时赋能AI机器人、飞行汽车等多种终端设备 [1] - 自动驾驶VLA大模型是世界基座模型的一个重要应用 但更难的挑战是让世界基座模型具备对整个世界进行推演的能力 [1] 战略规划与目标 - 公司全面转向物理AI战略 抬高AI权重 2025年将是其物理世界基座大模型在AI汽车领域全面应用的起点 [2] - 公司计划从L2+辅助驾驶研发向更高等级的L3和L4级别自动驾驶技术快速发展 期待拉开代际领先 [2] - 公司目标在2026年第四季度让全球用户都能拥有最先进、最适应本地路况的智能驾驶体验 [2] 行业影响与竞争优势 - 特斯拉、华为与公司等新势力 出现决胜“世界模型”的新趋势 [1] - 世界基座模型的进化被业内认为是攻克大规模L4的关键一步 可快速将图灵AI智驾部署到全球其他国家 也可将技术复用到AI汽车、AI机器人上 利好打造“AI+出行”生态 [1] - 物理AI世界基座大模型的进化将使公司图灵AI智驾更拟人、聪明和安全 提升用户驾乘体验 解决更多长尾场景 带来更强泛化能力 [2]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-09 07:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 12:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 12:05
当机器人能像人类一样理解自然语言指令,还能预判环境变化、自主规避物理风险时,通用人工智能的落地似 乎不再遥远。 近日,清华大学计算机科学与技术系,北京信息科学与技术国家研究中心,复旦大学可信具身 智能研究所联合发布《 Embodied AI: From LLMs to World Models》。 系统 性 梳理了具身智能的技术 脉络,尤其聚焦大语言模型与世界模型的协同 。 ▍ 先搞懂什么是具身智能?它和普通 AI 有啥不一样? 单模态与多模态具身智能 纯视觉的机器人,在昏暗环境或动态场景里很容易迷路;纯语言控制的机器人,可能会因为没考虑物理规律提 出离谱指令。 | | | Embodied AI: From LLMs to World Models | | | --- | --- | --- | --- | | EAI § II | EAI with LLMs/MLLMs § III | EAI with WMs § IV | EAI with MLLMs and WMs § V | | The Historical View § II-A | LLMs Boost EAI § III-A | WMs Bo ...
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 12:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 ...
自动驾驶之心双节活动进行中(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-04 12:04
社区核心定位 - 专注于自动驾驶技术领域的最前沿社区 [5] - 社区技术方向涵盖视觉语言自动驾驶、世界模型、闭环仿真、扩散模型、鸟瞰图感知等超过40个学习路线 [5] - 社区旨在保持技术活力并推动持续学习 [5] 技术交流与资源 - 提供与学术界及工业界顶尖专家面对面交流的机会 [5] - 交流议题包括视觉语言自动驾驶与规划代理的路线之争、自动驾驶未来发展方向、世界模型内涵及端到端技术讨论 [5] - 社区资源包括七门精品课程,内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波雷达、点云3D检测、Transformer等技术领域 [5] - 社区内容设计面向初学者,注重核心能力培养 [5] 会员与活动推广 - 为新会员提供星球七折优惠,续费会员可享五折优惠 [4] - 平台课程提供八折优惠券及七折超级折扣卡 [3]
华为、蔚来重金押注WA世界模型!这才是未来辅助驾驶的发展方向?
电动车公社· 2025-10-03 23:58
WA世界模型的技术原理 - WA世界模型概念源于20世纪40年代苏格兰心理学家肯尼思·克雷克提出的"心智模型",通过模拟物理规律理解世界并做出决策[9][11][12] - 2018年DeepMind发表《World Models》论文,提出通过自动编码器压缩现实场景数据,利用神经网络推演未来可能性,再通过控制器执行动作的"造梦"训练模式[17][18][19] - 世界模型采用类似"训狗"的奖励惩罚机制,通过设定物理参数和规则框架让AI在试错中进化[24][26] - 2022年后借助ChatGPT等大模型的序列建模能力,世界模型从2D升级到3D仿真,可推演多因素叠加的复杂场景[26][28] - 核心目标是让AI具备人类式的物理时空理解能力,通过因果逻辑预演行动后果[29] WA世界模型在自动驾驶领域的应用 - 华为和蔚来是明确采用WA世界模型技术路线的代表企业[6] - 蔚来技术可实现分析前3秒行车数据,0.1秒内推演120秒模拟路况,生成216种场景可能性[32] - 华为ADS 4系统分为云端WE(World Engine)世界引擎和车端WA(World Action Model)世界行为模型,合称WEWA[37][39][40][41] - 系统内置多专家模块,如路口预测专家和拥堵跟车专家,根据不同场景调用专用算力资源[56][57][58] - 车端算力需求较低,通过注意力热图实现局部算力聚焦,降低延迟提高反应速度[54][55][59] WA世界模型与传统端到端及VLA的对比 - 相比传统端到端模型,WA世界模型增加预判环节,运行速度更快[33][34] - 解决端到端黑箱问题的手段不同:VLA通过图像转文本实现可视化修改,WA通过三维物理规则反向演算配合注意力热图回溯问题根源[44][45][48] - 数据训练优势明显,云端世界引擎可虚拟生成极端事故场景数据,突破真实数据稀缺限制[50][51][52] - 与VLA技术路线差异:WA依赖"肌肉记忆"经验式反应,车端系统更精简;VLA接近人类逻辑思考,擅长处理突发危险场景和复杂长尾决策[62][63][64][65] - 硬件需求侧重点不同:VLA对车端芯片算力要求高,WA更依赖网络速度和芯片带宽[68] 行业技术路线发展态势 - 当前辅助驾驶技术处于分水岭阶段,WA与VLA路线各有拥趸[69][70] - 长期可能走向技术融合或出现新架构,实现优势互补[71] - 技术发展最终目标为推动L3、L4级自动驾驶落地[72][73]
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 11:32
核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合,行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用,尤其是在模型训练、测试和安全验证方面,而世界模型作为新兴方向,在长期规划和数据生成方面展现出潜力,但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全,存在视觉细节(如物体摩擦力、光影效果)和物理细节还原不足的问题,导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开,包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例,不同光源位置会形成不同阴影,可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域,仿真测试已被验证更快速、省时省力且安全,训练用真机更务实,测试用仿真更合适是核心观点之一 [19] - 从学术角度看,若真机数据能极大丰富,同等数量下其训练效果优于仿真数据,但现实是具身智能领域真实数据体量远不及自动驾驶,且机器人本体不易统一,行业期待高,导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,没有机构会训完模型不做仿真测试就直接上真机,可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大,若仿真器构建良好,可通过大规模并行训练让模型学习到真实数据中难获取的场景(如物体被碰倒后如何处理) [24] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域的显著价值,能降低授课与学习门槛 [26] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在核心问题待解决,如“小世界模型”路径是否可行(即能否基于其直接生成轨迹或策略),以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念,与过往相关模型概念相通,该领域研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向,可聚焦世界模型中物理规律的相关问题,在有限计算资源下开展尝试 [30] - 在未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward,因为action和observation已有较好发展,而操作领域仍处于混沌状态,适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好,但在面向机器人等场景时,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力,但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性,这不仅涉及单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂,但结合出色的底层能力实现了好效果,比设计复杂模型更令人震惊,目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法,而在于数据和硬件,波士顿动力的硬件技术方案与教育界常用方案差异显著,其高度拟人化设计代表了正确发展方向,但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化,“避免阻塞”这一问题即便有专门研究,开源方案仍有很大改进空间 [37] - 运动控制(运控)水平的差异是表现差异的重要原因,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [38][39]
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心· 2025-10-02 11:04
核心观点 - WorldSplat是一种前馈式4D生成框架,将生成式扩散与显式3D重建相融合,用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布,再通过增强型扩散模型优化新视角视频,实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明,WorldSplat在FVDmulti指标上达到16.57,FIDmulti指标达到4.14,显著优于现有方法[31] 技术框架 - 框架包含三个关键模块:4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件,生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布,并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化,提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器,能直接从多模态潜变量推断精确的3D高斯分布,支持多达48个输入视角[12][21] - 采用静-动态分解方案,将高斯分布划分为静态背景与动态目标,实现4D场景重建[20][22] - 引入混合条件策略,融合退化视角与高质量视角,提升生成保真度与可控性[27] 性能表现 - 在主实验对比中,WorldSplat在FVDmulti指标上达到16.57,较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中,横向偏移±4m时FID T指标为13.38,显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中,方法在mIoU指标上达到38.49,较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹,成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能,使mAP指标从34.5提升至38.5,相对提升11.6%[35] - 框架无需逐场景优化,可直接沿任意用户定义相机轨迹渲染新视角视频,支持灵活闭环评估[6][23]
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 09:30
文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19] 实验结果 离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]