世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

自动驾驶之心招募合伙人啦！4D标注/世界模型/模型部署等方向

自动驾驶之心· 2025-10-04 12:04

业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享，包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

自动驾驶之心双节活动进行中（课程/星球/硬件优惠）

自动驾驶之心· 2025-10-04 12:04

社区核心定位 - 专注于自动驾驶技术领域的最前沿社区 [5] - 社区技术方向涵盖视觉语言自动驾驶、世界模型、闭环仿真、扩散模型、鸟瞰图感知等超过40个学习路线 [5] - 社区旨在保持技术活力并推动持续学习 [5] 技术交流与资源 - 提供与学术界及工业界顶尖专家面对面交流的机会 [5] - 交流议题包括视觉语言自动驾驶与规划代理的路线之争、自动驾驶未来发展方向、世界模型内涵及端到端技术讨论 [5] - 社区资源包括七门精品课程，内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波雷达、点云3D检测、Transformer等技术领域 [5] - 社区内容设计面向初学者，注重核心能力培养 [5] 会员与活动推广 - 为新会员提供星球七折优惠，续费会员可享五折优惠 [4] - 平台课程提供八折优惠券及七折超级折扣卡 [3]

自动驾驶之心知识星球

自动驾驶课程

自动驾驶之心知识星球

自动驾驶课程

华为、蔚来重金押注WA世界模型！这才是未来辅助驾驶的发展方向？

电动车公社· 2025-10-03 23:58

WA世界模型的技术原理 - WA世界模型概念源于20世纪40年代苏格兰心理学家肯尼思·克雷克提出的"心智模型"，通过模拟物理规律理解世界并做出决策[9][11][12] - 2018年DeepMind发表《World Models》论文，提出通过自动编码器压缩现实场景数据，利用神经网络推演未来可能性，再通过控制器执行动作的"造梦"训练模式[17][18][19] - 世界模型采用类似"训狗"的奖励惩罚机制，通过设定物理参数和规则框架让AI在试错中进化[24][26] - 2022年后借助ChatGPT等大模型的序列建模能力，世界模型从2D升级到3D仿真，可推演多因素叠加的复杂场景[26][28] - 核心目标是让AI具备人类式的物理时空理解能力，通过因果逻辑预演行动后果[29] WA世界模型在自动驾驶领域的应用 - 华为和蔚来是明确采用WA世界模型技术路线的代表企业[6] - 蔚来技术可实现分析前3秒行车数据，0.1秒内推演120秒模拟路况，生成216种场景可能性[32] - 华为ADS 4系统分为云端WE（World Engine）世界引擎和车端WA（World Action Model）世界行为模型，合称WEWA[37][39][40][41] - 系统内置多专家模块，如路口预测专家和拥堵跟车专家，根据不同场景调用专用算力资源[56][57][58] - 车端算力需求较低，通过注意力热图实现局部算力聚焦，降低延迟提高反应速度[54][55][59] WA世界模型与传统端到端及VLA的对比 - 相比传统端到端模型，WA世界模型增加预判环节，运行速度更快[33][34] - 解决端到端黑箱问题的手段不同：VLA通过图像转文本实现可视化修改，WA通过三维物理规则反向演算配合注意力热图回溯问题根源[44][45][48] - 数据训练优势明显，云端世界引擎可虚拟生成极端事故场景数据，突破真实数据稀缺限制[50][51][52] - 与VLA技术路线差异：WA依赖"肌肉记忆"经验式反应，车端系统更精简；VLA接近人类逻辑思考，擅长处理突发危险场景和复杂长尾决策[62][63][64][65] - 硬件需求侧重点不同：VLA对车端芯片算力要求高，WA更依赖网络速度和芯片带宽[68] 行业技术路线发展态势 - 当前辅助驾驶技术处于分水岭阶段，WA与VLA路线各有拥趸[69][70] - 长期可能走向技术融合或出现新架构，实现优势互补[71] - 技术发展最终目标为推动L3、L4级自动驾驶落地[72][73]

Sim2Real，解不了具身智能的数据困境。

自动驾驶之心· 2025-10-03 11:32

核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合，行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用，尤其是在模型训练、测试和安全验证方面，而世界模型作为新兴方向，在长期规划和数据生成方面展现出潜力，但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全，存在视觉细节（如物体摩擦力、光影效果）和物理细节还原不足的问题，导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开，包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例，不同光源位置会形成不同阴影，可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力，通过替换桌面纹理、光照、物体摆放等方式，兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域，仿真测试已被验证更快速、省时省力且安全，训练用真机更务实，测试用仿真更合适是核心观点之一 [19] - 从学术角度看，若真机数据能极大丰富，同等数量下其训练效果优于仿真数据，但现实是具身智能领域真实数据体量远不及自动驾驶，且机器人本体不易统一，行业期待高，导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试，没有机构会训完模型不做仿真测试就直接上真机，可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大，若仿真器构建良好，可通过大规模并行训练让模型学习到真实数据中难获取的场景（如物体被碰倒后如何处理） [24] - 仿真数据的核心优势包括代码复用性强（更换机器人时仿真代码基本无需改动）以及在教育领域的显著价值，能降低授课与学习门槛 [26] - 长期来看，仿真数据是更有效的解决方案，只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确，但存在核心问题待解决，如“小世界模型”路径是否可行（即能否基于其直接生成轨迹或策略），以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念，与过往相关模型概念相通，该领域研究无需大量计算资源，学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向，可聚焦世界模型中物理规律的相关问题，在有限计算资源下开展尝试 [30] - 在未来12-18个月内，最重要的科学问题是如何在世界模型中引入reward，因为action和observation已有较好发展，而操作领域仍处于混沌状态，适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好，但在面向机器人等场景时，当前动作维度（如六维、七维）不足，仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力，但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性，这不仅涉及单纯的抓取操作，还涉及全身运动，其遥操作部分技术难度很高，需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂，但结合出色的底层能力实现了好效果，比设计复杂模型更令人震惊，目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法，而在于数据和硬件，波士顿动力的硬件技术方案与教育界常用方案差异显著，其高度拟人化设计代表了正确发展方向，但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化，“避免阻塞”这一问题即便有专门研究，开源方案仍有很大改进空间 [37] - 运动控制（运控）水平的差异是表现差异的重要原因，传统控制的相关技术值得被结合、借鉴到现代具身智能中，以提升机器人动作的流畅性 [38][39]

最新世界模型！WorldSplat：用于自动驾驶的高斯中心前馈4D场景生成（小米&南开）

自动驾驶之心· 2025-10-02 11:04

核心观点 - WorldSplat是一种前馈式4D生成框架，将生成式扩散与显式3D重建相融合，用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布，再通过增强型扩散模型优化新视角视频，实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明，WorldSplat在FVDmulti指标上达到16.57，FIDmulti指标达到4.14，显著优于现有方法[31] 技术框架 - 框架包含三个关键模块：4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件，生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布，并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化，提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器，能直接从多模态潜变量推断精确的3D高斯分布，支持多达48个输入视角[12][21] - 采用静-动态分解方案，将高斯分布划分为静态背景与动态目标，实现4D场景重建[20][22] - 引入混合条件策略，融合退化视角与高质量视角，提升生成保真度与可控性[27] 性能表现 - 在主实验对比中，WorldSplat在FVDmulti指标上达到16.57，较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中，横向偏移±4m时FID T指标为13.38，显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中，方法在mIoU指标上达到38.49，较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹，成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能，使mAP指标从34.5提升至38.5，相对提升11.6%[35] - 框架无需逐场景优化，可直接沿任意用户定义相机轨迹渲染新视角视频，支持灵活闭环评估[6][23]

自动驾驶场景生成

自动驾驶场景生成

梦里啥都有？谷歌新世界模型纯靠「想象」训练，学会了在《我的世界》里挖钻石

机器之心· 2025-10-02 09:30

文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4，是一种可扩展的智能体，通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集（无需与环境交互）就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构，准确学习复杂的物体交互，同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成，两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练，将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练，以实现少量前向传递的交互式生成，并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型，然后将策略和奖励模型微调至世界模型中，最后通过想象训练对策略进行后训练 [19] 实验结果离线钻石挑战 - 在《我的世界》钻石任务中，Dreamer 4在使用的数据量少100倍的情况下，大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体，在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比，Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中，Dreamer 4成功完成了14项任务，成功率为14/16 [29] - 相比之下，Lucid-v1模型成功率为0/16，Oasis（small）模型成功率为0/16，Oasis（large）模型成功率为5/16 [29] - Dreamer 4模型参数量为2B，支持640×360分辨率，上下文长度为9.6秒，帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时，Dreamer 4的PSNR达到53%，SSIM达到75% [32] - 使用100小时的动作训练时，性能进一步提升，PSNR达到85%，SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识，仅需要少量的动作标签 [32]

Artificial Intelligence

《我的世界》（Minecraft）

Artificial Intelligence

《我的世界》（Minecraft）

Sim，Real还是World Model？具身智能数据的“困境”与解法

具身智能之心· 2025-10-01 20:48

文章核心观点 - 具身智能领域正面临数据来源的根本性选择：是依赖仿真的效率、真实数据的真实性，还是寄希望于新兴的世界模型技术来弥合差距 [2] - 仿真数据与真实数据各有优劣，当前行业可能处于并将长期处于依赖仿真数据的阶段，但真实数据在特定场景下不可或缺 [14][15][20] - 世界模型（如Genie 3）被视为未来重要方向，但其在奖励机制设计、高维度动作生成等方面仍面临挑战，且计算资源限制其发展 [21][22][23][24][25] 对Sim-to-Real Gap的理解 - Sim-to-Real gap的核心是仿真对真实世界模拟不完全，存在视觉与物理细节还原不足的问题，例如物体的摩擦力、光影效果等差异 [3] - 该差距导致模型泛化能力弱，仅适配特定场景，缩小差距需围绕数据优化，包括结合模型需求设计虚拟与真实数据配比 [3] - 阴影问题可作为判断模型对真实世界理解程度的有效依据，例如通过观察模型能否正确利用阴影信息来停止操作 [3] 仿真数据与真实数据的价值与应用 - 真实数据在同等数量下训练效果优于仿真数据，但具身智能领域真实数据体量远不及自动驾驶，存在巨大缺口 [15] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试，可避免真机实验中烧电机、损坏关节等难以估量的损失 [15] - 仿真在强化学习规模化上潜力巨大，良好构建的仿真器可通过大规模并行训练让模型学习真实数据中难获取的场景 [18] - 仿真数据的核心优势包括代码复用性强（更换机器人时仿真代码基本无需改动）以及在教育领域可显著降低学习门槛 [21] - 长期来看，仿真数据是更有效的解决方案，只有在仿真无法满足需求时才考虑使用真实数据进行补充 [20] 世界模型的研究现状与挑战 - 世界模型应用于自动驾驶、具身智能的方向正确，但存在“小世界模型”路径是否可行以及奖励设计与下游任务衔接两大核心问题 [21][22] - Genie 3能够从文本生成可交互的动态环境，其核心优势是将“动作”与“观测”良好结合，但面向机器人场景时，当前动作维度（如六维、七维）不足 [24][25] - 未来12-18个月内，最重要的科学问题是如何在世界模型中引入reward（奖励机制），因为action和observation已有较好发展 [24] - 世界模型研究无需大量计算资源，学术界应聚焦用小资源就能探索的学术问题，这类研究更易出成果 [22] - 可引入力、触觉等新模态来丰富世界模型，聚焦其物理规律相关问题 [23] 技术案例分析与发展方向 - RoboTwin项目展示了数据配比的重要性：1.0版本服务小模型，虚拟与真实数据配比约300:20；2.0版本服务大模型，配比达上千：几十 [7] - 在自动驾驶领域，仿真测试已被验证更快速、省时省力且安全，大量安全性测试必然依赖仿真 [14] - 数字人技术中的Sim-to-Real应用是一大突破，可实现输入任意一句话指定表情，让数字人实时展示相应脸部动作 [11] - 波士顿动力机器人的“丝滑”表现得益于其出色的硬件技术方案、运动控制（运控）水平以及经过大量调整优化的推理架构 [26][28][30][31][32] - 传统控制的相关技术值得被结合、借鉴到现代具身智能中，以提升机器人动作的流畅性 [32]

Sim-to-Real gap

Sim-to-Real gap

有人在自驾里面盲目内卷，而有的人在搭建真正的壁垒...

自动驾驶之心· 2025-09-30 07:33

行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代三年前主流是BEV 两年前转向无图方案一年前兴起端到端当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶世界模型闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源成员来自上海交大北京大学 CMU 清华大学等知名高校以及蔚小理地平线华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线涵盖感知仿真规划控制等核心领域 [10][21] - 汇总近40个开源项目近60个自动驾驶数据集以及主流仿真平台 [21] - 提供七大福利视频教程涵盖世界模型自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃成员可咨询行业应用技术路线求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程包括0基础入门和进阶提升内容 [12][21]

端到端自动驾驶

视觉语言模型（VLM）

自动驾驶汽车

端到端自动驾驶

视觉语言模型（VLM）

自动驾驶汽车

华尔街见闻早餐FM-Radio｜2025年9月30日

搜狐财经· 2025-09-30 07:27

市场表现 - 美股三大指数连续两日上涨至一周高位标普500涨0.26%报6661.21点道指涨0.15%报46316.07点纳指涨0.48%报22591.154点[1][6] - 科技股和芯片股表现强劲英伟达涨超2% 美光涨超4% 芯片指数两连阳[1] - 中概股反弹中概指数收涨2% 阿里巴巴涨超4%[1] - 欧洲STOXX 600指数涨0.18%报555.53点[6] - A股大幅上涨沪指涨0.90%报3862.53点深证成指涨2.05%报13479.43点创业板指涨2.74%报3238.01点[7] - 港股科技股普涨恒科指涨2%[1] 商品市场 - 黄金连续三日上涨创历史新高现货黄金一度涨近2%首次突破3800美元 COMEX 12月黄金期货收涨1.21%报3855.2美元/盎司[1][8] - 白银续创2011年来新高 COMEX 12月白银期货收涨0.77%报47.016美元/盎司[1][8] - 原油大幅下跌 WTI 11月原油期货收跌3.45%报63.45美元/桶布伦特11月原油期货收跌3.08%报67.97美元/桶创三个月最大跌幅[1][8] - 伦铜反弹超2%至逾一年新高收涨约2.3%报10414美元/吨 COMEX 12月期铜收涨约2.5%报4.892美元/磅[1][8] - 伦锡收涨约2.9%报35490美元/吨[8] 债券与外汇 - 美债收益率下行十年期美债收益率约为4.14%日内降近4个基点两年期美债收益率约为3.62%日内降约2个基点[1][8] - 美元指数继续跌离三周高位[1] - 比特币盘中涨近4000美元突破11.4万美元关口以太坊一度反弹超4%[1] - 以色列谢克尔盘中涨近2%[4] 人工智能与科技 - 国家发改委推出5000亿元新型政策性金融工具全部用于补充项目资本金支持民营企业深度参与"人工智能+"行动[1][11] - DeepSeek大模型V3.2亮相华为和寒武纪芯片同步适配开源首次自研DSA注意力机制 API价格砍半超过50%[4][16] - Anthropic推出Claude Sonnet 4.5 号称"全球最佳编码模型"[4][17][23] - OpenAI计划推出Sora 2独立App 默认使用版权内容引发争议[4][17] - 科技巨头加码"世界模型"研发英伟达高管称潜在市场规模高达100万亿美元[22] 平台经济与税收 - 国家税务总局规定平台企业不得以任何形式将自身涉税义务转嫁给平台内从业人员[2][12] - 互联网平台外卖员、快递员等人员年收入12万元以下基本无需纳税[2][12] - 平台企业将于10月1日起首次正式报送平台内经营者和从业人员身份信息及收入信息[12] 地缘政治与贸易 - 特朗普威胁对海外制片征收100%关税[2][13] - 瑞士为降低特朗普的39%关税提议投资美国炼金业考虑将炼金厂利润率最低业务转移至美国[2][13] - 俄罗斯对乌克兰发动大规模袭击发射590多架无人机和超过40枚导弹[4][15] - 美国正考虑向乌克兰提供"战斧"导弹射程可达1500-2400公里[4][15] 半导体与硬件 - 深圳新凯来半导体公司发布30多款半导体设备开始引入外部投资方[15] - 郭明錤将小米17出货量目标下调20% 原定目标约1000万台主要因iPhone 17标准款在中国市场强势表现[5][17] - 小米集团港股收跌2%[17] 金融与政策 - 美国黄金储备价值触及1万亿美元但官方账面价值仍固定在1973年的每盎司42.22美元[4][14] - 美国SEC主席呼吁放松监管评估以半年报代替季报[19] - 美国8月成屋签约销售创五个月新高按揭贷款利率下降提振住房市场[20] - 日本央行10月加息可能性约为60% 鸽派委员转向支持加息[21] 行业动态 - 教育数字化加速推进国家智慧教育平台深化应用试点[24] - 全超导磁体实现35.1特斯拉中心稳态磁场创造新的世界纪录[24] - 原子级制造可能纳入"十五五"规划面向集成电路、航空航天等高端制造发展需求[25] - ChatGPT联手Etsy和Shopify开启AI购物时代 Etsy大涨16% Shopify涨超6%[23]

原子级制造

原子级制造

金融时报：超级智能的下一个入口，谷歌、Meta、英伟达......科技巨头都在加码“世界模型”

美股IPO· 2025-09-29 16:51

行业趋势转变 - AI研发重点正从大语言模型转向"世界模型"，以理解和模拟物理世界 [1][3] - 大语言模型技术进步放缓，性能飞跃开始放缓，业界认为其正触及其能力天花板 [7][8] - 这一趋势标志着AI领域竞争焦点从语言领域转向物理世界，被视为推动机器实现"超级智能"的关键一步 [3][4] 主要参与者与战略布局 - 谷歌DeepMind发布Genie 3模型，能逐帧生成视频并考虑过去的交互，通过构建模拟环境训练AI [5] - Meta开发V-JEPA模型，模仿儿童被动学习方式用原始视频内容训练，并已在机器人上进行测试 [5] - 英伟达首席执行官黄仁勋断言公司下一个主要增长阶段将来自"物理AI"，正利用Omniverse平台支持向机器人领域扩张 [5] - 英伟达高管表示"世界模型"潜在市场规模可能高达100万亿美元，覆盖制造、医疗等实体领域 [1][3] 技术进展与应用前景 - "世界模型"通过学习视频和机器人数据来理解物理世界，应用前景覆盖自动驾驶、机器人和制造业等领域 [1][4] - 近期应用包括娱乐行业，初创公司World Labs开发从单张图片生成3D环境的模型，Runway推出创建游戏场景的产品 [6] - 构建"世界模型"面临巨大的数据和算力挑战，但可通过仿真环境训练，无需承担在现实世界中犯错的后果 [4][5][9] 发展挑战与时间框架 - 实现由新一代AI系统驱动、具备人类水平智能的机器可能还需要十年时间 [9] - 大语言模型被警告永远无法实现人类那样的推理和规划能力 [9] - 构建模型需要收集海量物理世界数据和算力，是一项未被攻克的重大技术挑战 [9]

大语言模型

大语言模型