世界模型
搜索文档
李飞飞踢馆游戏圈:Unity们,该退场了
36氪· 2026-01-04 17:35
行业现状与挑战 - 全球游戏行业产值高达1900亿美元,但正面临发展僵局[1] - 3A大作的研发成本动辄几十亿美元,开发周期漫长,例如《原神》研发4年且年运营成本超2亿美元,《GTA6》距前作发布已过去12年[1] - 高成本与长周期给开发者带来重负,导致灵感枯竭[1] AI技术带来的效率革命 - AI技术正大幅提升游戏开发效率,Game Gears公司首席执行官证实,在开发《Aliens vs Zombies: Invasion》等作品时,AI将开发速度提升了4倍[3][4] - 原本需要数月完成的建模和关卡设计,被压缩至以“周”甚至“天”为单位[4] - 这种效率提升使得小型团队有望达到千人工作室的产出水平,预示着游戏行业“重工业时代”的终结[8] 世界模型的核心原理与优势 - 以Google DeepMind的Genie 3和李飞飞World Labs的Marble模型为代表的世界模型,能够通过观察海量视频数据学习“物理直觉”,理解并重构3D物理空间[3][6][11] - 与传统游戏引擎(如Unreal/Unity)依赖预设规则和复杂代码不同,世界模型能自上而下地理解重力、摩擦力、光线折射等物理现象,无需人工定义[9][11] - 世界模型生成的3D环境不仅具有视觉深度,更拥有内在逻辑,使得物理模拟变得自然,大幅减少了所需的代码量和算力[6][8] 技术应用与行业范式转变 - Genie 3能根据一张照片生成拥有实时物理交互能力的3D环境,其生成内容的分辨率达720p,交互可持续数分钟,且延迟为实时[15][16] - 相比前代Genie 2,Genie 3在一致性、真实性和交互能力上均有显著提升[16][17] - 技术使游戏引擎从复杂软件转变为能听懂人类意图的“数字容器”,将开发者从繁琐的重复性工作中解放出来,使其能更专注于创意和“寻找乐趣”[12][14][21] 行业影响与未来展望 - AI技术降低了游戏创作门槛,使个性化游戏生产变得简单,未来游戏可能从标准化商品转变为随心生长、具备物理灵魂的生命体[17][22] - 技术有潜力让用户成为“造物主”,利用想象力在3D空间中复刻记忆或创造世界,使游戏成为个人情感的延伸[19] - 该变革也引发争议,欧洲部分工会担忧AI工具会威胁艺术家生计,并可能导致游戏世界被低质量的“AI废料”淹没[20]
LeCun曝Meta作弊刷榜,田渊栋:我没想到这个结局
量子位· 2026-01-04 13:21
Meta内部管理与Llama 4事件 - 公司为应对竞争压力,要求GenAI部门加速AI开发和部署,并调派原FAIR团队人员参与Llama 4项目[6] - 团队内部沟通破裂,管理层倾向于已验证的、可直接落地的技术,而研究团队希望探索新方向[7] - Llama 4在基准测试中存在结果被篡改的问题,团队对不同基准测试使用了不同的模型以获取更好结果[1] - Llama 4项目表现不佳且涉及排行榜造假,导致管理层对团队失去信心,并将相关人员边缘化[10] - 事件引发公司团队大换血,一方面天价从外部挖人,另一方面大刀阔斧裁减老员工[11] 关键人物动态:田渊栋 - 田渊栋及其团队在一月份被临时调入Llama 4项目救火,十月份在Llama 4.5训练完成后即被裁撤[13] - 团队被迫放下原有工作,在距离发布截止日期仅剩2个月的情况下接手项目并处理所有棘手工作[14] - 田渊栋曾预想四种可能结局,但最终遭遇第五种结局:未被问责,但整个团队被裁撤[15][16] - 田渊栋在Meta工作十多年,近年已抱有“公司快把我开了吧”的心态,此次变动为其小说创作提供了新素材[18] - 在强化学习与大模型推理方面取得新探索,包括连续隐空间推理(coconut)、Token Assorted、DeepConf、ThreadWeaver等方法提升推理效率,并在可解释性方面研究Grokking现象[19] - 田渊栋已正式宣布创业,将担任一家新初创公司的联合创始人,并拒绝了其他大厂的邀请[33] 关键人物动态:LeCun - LeCun离职后批评公司对大语言模型(LLM)过度沉迷,尤其点名批评新挖来的超级智能实验室成员年轻且缺乏经验[22][23] - LeCun认为LLM本质受限于语言,是实现人类水平智能的“死胡同”,强调需通过世界模型理解物理世界规律[25][26] - LeCun创立新公司Advanced Machine Intelligence (AMI),全力投入开源世界模型研发,其本人担任执行主席而非CEO[27][28][29] - 新公司研究聚焦于V-JEPA架构,旨在通过视频和空间数据学习理解物理世界,使AI具备规划、推理和长期记忆能力[32] - LeCun预计将在12个月内见证该技术的初始版本,并在近几年内实现大规模进展[32] 行业竞争与影响 - DeepSeek的横空出世给公司带来巨大压力,导致Llama 4在发布前即被视为落后,促使公司疯狂加码AI投资[4][5] - 公司内部因竞争压力和高层决策,引发了核心研究人员离职并转向创业的浪潮[3]
空间智能是未来10年AI发展的新前沿
观察者网· 2026-01-04 09:34
人工智能发展现状与局限 - 以大语言模型为代表的生成式AI已成为数十亿人进行创作、提高生产效率和沟通交流的工具,能够生成连贯文本、代码、图像和短视频 [4] - 然而,当前AI在空间智能方面严重落后于人类,无法可靠地判断距离、方向、尺寸,难以在迷宫中导航或预测基本物理结果,生成的视频也缺乏连贯性 [12] - 多模态大语言模型初步引入了空间意识,能分析图片和生成逼真图像,但AI对世界的理解缺乏整体性,与物理现实脱节,限制了其在驾驶、机器人引导、沉浸式体验及科学发现等领域的应用 [11][12] 空间智能的定义与重要性 - 空间智能是人类与物理世界互动、进行想象与创造的基础,它支撑着日常行为、极端情境下的决策以及婴幼儿的认知发展 [7] - 空间智能是人类想象力与创造力的基石,从史前壁画到现代电影、游戏和工业仿真都离不开它,也是推动文明进程的关键,例如埃拉托色尼测算地球周长、珍妮纺纱机的发明以及DNA双螺旋结构的发现都依赖于空间推理 [8][9] - 空间智能是人类认知的“脚手架”,在观察、创造、抽象推理及人际互动中均不可或缺,但当前AI尚不具备这种流畅的、基于物理直觉的思考能力 [9][11] 下一代AI前沿:世界模型 - 实现空间智能需要构建全新的“世界模型”,其能力需超越当前的大语言模型,能够理解、推理、生成与交互高度动态复杂的语义、物理和几何世界 [14] - 世界模型需具备三项关键能力:生成性(能生成在感知、几何与物理层面保持一致的模拟世界)、多模态(能处理图像、视频、文本、手势等多种形式输入)、交互性(能基于输入动作预测并输出世界的下一状态) [14][16][17] - 构建世界模型是未来十年AI发展的决定性挑战,其复杂度远超语言模型,需要在任务函数、训练数据、模型架构等方面取得基础性突破 [19][20][21] 世界实验室的研究与进展 - 世界实验室成立于2024年初,旨在构建能够释放空间智能的世界模型,其研究团队正致力于推动所需的基础性突破 [3][14] - 公司提出了名为RTFM的实时生成式帧模型,该模型以具有空间锚定的帧作为“空间记忆”,在保持生成世界连续性的同时实现高效实时生成 [21] - 公司已向小部分用户展示了名为Marble的世界模型早期形态,这是首个能接受多模态提示、生成并维持一致三维环境供用户探索互动的模型,并正努力尽快向公众开放 [21] 空间智能的应用前景:创造力 - 空间智能将彻底改变故事创作和体验的路径,其影响将从娱乐拓展至教育和设计建造领域 [24] - Marble平台为电影人、游戏设计师、建筑师等提供了前所未有的空间能力与可控创作工具,使其能快速构建并迭代可自由探索的三维世界,无需承受传统三维软件的高昂成本 [24] - 空间智能将催生新维度的叙事体验、以设计承载的空间叙事以及全新的沉浸式与交互式体验,使“造世界”的能力从专业工作室向个体创作者和教育者开放 [25][26] 空间智能的应用前景:机器人技术 - 世界模型将通过提供可扩展的训练数据解决方案,在机器人学习中发挥决定性作用,缩小仿真与现实差距,协助训练机器人应对无数状态与交互 [27] - 具备空间智能的机器人有望成为人类在实验室、家庭等场景中的伙伴与协作者,但前提是其感知、规划与行动必须与人类的目标和行为保持共情式对齐 [28] - 世界模型将在开发多样化机器人形态(如纳米机器人、软体机器人)的过程中,于仿真数据、训练环境与评测基准的构建中扮演不可或缺的角色 [30] 空间智能的应用前景:科学、医疗与教育 - 在科学研究中,具备空间智能的系统能模拟实验、检验假设并探索人类难以进入的环境,有望彻底改变气候科学、材料研究等领域的计算建模方式 [31] - 在医疗健康领域,空间智能可加速药物发现、提升医学影像诊断能力,并构建环境感知型监测系统以支持患者与照护者,同时机器人在医疗场景中协助医护人员也潜力巨大 [32] - 在教育领域,空间智能能实现沉浸式学习,使抽象概念变得可感知,为学生提供探索复杂结构(如细胞内部)和历史现场的机会,并为专业人士提供安全的高仿真技能练习环境 [32]
为什么蔚来会押注世界模型?
自动驾驶之心· 2026-01-04 09:04
文章核心观点 - 文章核心为一篇关于自动驾驶世界模型进阶实战课程的推广文案,旨在介绍课程内容、讲师背景及学习目标,而非提供具体的行业或公司分析报告 [1][11] - 文章通过介绍蔚来汽车NWM2.0的宣发及行业对世界模型的关注切入,强调世界模型是提升智能驾驶能力上限的关键技术,并指出当前行业存在定义模糊、入门困难等痛点,从而引出该课程的价值 [1] 课程背景与行业关联 - 世界模型被视为智能驾驶真正的上限,其核心是以视频为核心,通过跨模态预测和重建,让系统学习时空和物理规律,解决时空认知问题,这与解决概念认知的语言模型形成对比 [1] - 行业内的AI巨头和自动驾驶公司正积极研发通用世界模型或相关技术,例如李飞飞团队的Marble、Yann LeCun的V-JEPA、DeepMind的Genie,以及在自动驾驶领域常见的视频生成、OCC(Occupancy)生成、激光雷达点云生成等方向 [1] - 许多公司基于开源算法搭建自己的云端或车端世界模型,用于生成长尾数据或进行闭环仿真与评测,部分公司尝试直接基于世界模型赋能车端驾驶能力 [1] 讲师介绍 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表多篇高水平学术论文(CCF-A论文2篇,CCF-B论文若干) [3] - 现任国内顶级主机厂算法专家,从事端到端自动驾驶、大模型、世界模型等前沿算法的预研和量产工作,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的研发和实战经验 [3] 课程内容大纲 - 课程共分为六章,从概述、背景知识到具体模型探讨与实践,最后聚焦工业界应用与求职 [4][6][7][8][9][10] - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同流派(如纯仿真、仿真+规划、生成传感器输入、生成感知结果)及其在业界解决的问题环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型所需的技术栈,包括场景表征、Transformer、BEV感知等基础,为后续学习奠定基础,这些内容是当前求职面试的高频技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解Marble、Genie、JEPA、导航世界模型、DriveVLA-W0以及特斯拉ICCV上分享的世界模型模拟器等模型的核心技术与设计理念 [7] - **第四章:基于视频生成的世界模型** 聚焦学术界和工业界研究最多的视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等工作,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦占用网络生成类算法,讲解三大论文及一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [9] - **第六章:世界模型岗位专题** 基于前五章基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [10] 课程技术细节与覆盖范围 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础,以及BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS、以及其他生成式模型如VAE、GAN和Next Token Prediction等关键技术 [12] - 课程将涉及多项具体研究工作,包括清华的OccWorld、复旦的OccLLaMA、华中科技大学的HERMES以及西安交通大学最新的II-World等 [13] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,帮助学员真正理解端到端技术,学完后预期能达到具备1年左右经验的世界模型自动驾驶算法工程师水平 [11][14] - 具体学习收获包括:掌握世界模型技术进展(涵盖视频生成、OCC生成等方法)、对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解、能够复现II-World、OpenDWM等主流算法框架、能够将所学应用于项目并设计自己的世界模型,对实习、校招、社招均有助益 [14] - 面向人群需自备算力在RTX 4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论、线性代数基础以及Python和PyTorch编程能力 [14] 课程安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止至2026年12月31日 [15] - 各章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [16]
超越DriveVLA-W0!DriveLaW:世界模型表征一统生成与规划(华科&小米)
自动驾驶之心· 2026-01-04 09:04
自动驾驶世界模型研究进展 - 自动驾驶技术得益于感知与规划的突破性进展,但在面对长尾场景时依然脆弱,制约了闭环驾驶性能[2] - 大量研究尝试运用世界模型,通过预测驾驶场景的未来演变来增强系统的泛化性与鲁棒性,以解决长尾问题[2] - 现有世界模型在自动驾驶中的应用主要分为三类:合成下游任务数据以应对罕见场景、利用模拟环境进行策略学习、提供未来的视觉预测作为辅助监督信号[3] 现有世界模型的局限性 - 现有世界模型在规划层面的贡献往往是间接的或与规划器并行的,缺乏与决策过程的紧密耦合[3] - 世界模型模拟器仅用于合成数据或作为闭环环境引导策略学习,其物理理解无法直接传递到规划器的内部状态中[3] - 世界模型监督仅预测未来视觉或信号来监督轨迹,规划过程依然是外部指定的[3] - 统一世界模型尝试联合生成视频和轨迹,但往往将视频生成器与策略头解耦,未能利用生成器强大的内部潜在特征作为规划依据,导致“视觉想象”与“动作决策”之间存在鸿沟[3] DriveLaW模型的核心创新 - 提出了DriveLaW,一种基于共享潜在空间表征的端到端世界模型,将生成与规划从并行转变为链式结构[5] - 核心思想在于直接利用大规模视频生成模型学习到的、蕴含丰富场景语义、智能体动力学和物理规律的潜在特征,将其注入到基于DiT的规划器中[5] - 核心优势包括链式生成与规划、独特的架构设计以及渐进式学习策略[5] DriveLaW的架构与训练方法 - 模型由DriveLaW-Video(时空世界生成器)和DriveLaW-Act(基于扩散的规划器)两部分组成[10] - 采用高压缩比(pixel-to-token ratio 64)的时空VAE,将视频片段编码至时空分辨率、128通道的因果潜空间,优于常见的16或32压缩率[18] - 引入了噪声重注入机制,在每次主去噪前,选择性向高频区域重注入噪声,以恢复动态目标与车道线的锐度和纹理,平衡细节重建与伪影抑制[25][27] - 采用三阶段渐进式训练策略:第一阶段在降低的空间分辨率下学习鲁棒运动模式;第二阶段在更高的空间分辨率下增强视觉质量;第三阶段将规划器与视频生成器的潜在特征耦合进行训练[34] DriveLaW的实验性能 - 在nuScenes视频生成任务上,DriveLaW达到了4.6 FID和81.3 FVD分数,超越了之前的世界模型方案[5][35] - 在NAVSIM闭环规划基准测试中,无需任何强化学习微调或后处理,便达到了89.1 PDMS分数,超越了以往的纯视觉世界模型方案[5][36] - 与采用并行生成-规划设计的Epona相比,DriveLaW提高了2.9 PDMS;比使用VLM和世界模型监督的DriveVLA-W0和PWM分别提高了1.9和1.0 PDMS[36] - 增加视频生成器的预训练样本量持续提升了闭环性能,使用7.6M样本预训练的生成器比从零开始训练的生成器带来了+3.2 PDMS的提升[37] 不同表征对规划性能的影响 - 视频生成器潜在特征比BEV特征提高了5.0 PDMS,比VLM隐藏状态提高了2.6 PDMS,证明了该表征的有效性[40] - 以来自早期去噪步骤的潜变量为条件会产生更强的规划能力,而来自后期步骤的潜变量表现较差,因为原始像素格式的视频包含冗余信息[41] - 可视化分析显示,VGM特征比BEV和VLM特征更锐利、噪声更少,并表现出卓越的语义连贯性和强大的空间结构感知能力[39] 训练策略的有效性验证 - 移除第一阶段训练会导致FVD显著升高(从81.3升至109.3),表明时间连贯性明显丧失[42] - 省略第二阶段训练会导致FVD少量增加(从81.3升至93.2),表明空间细节略有下降[42] - 完整的多阶段训练策略实现了最佳平衡,产生了最低的FID(4.6)和FVD(81.3)[42]
LeCun在Meta还有论文:JEPA物理规划的「终极指南」
机器之心· 2026-01-03 12:13
文章核心观点 - 研究提出并验证了JEPA-WM(联合嵌入预测世界模型),该模型通过在高度抽象的表征空间内进行预测,而非像素级重建,旨在为智能体(如机器人)构建一个更理性的“大脑”,以提升其在物理世界中的规划能力[3][5] - 研究通过系统性的实验,揭示了驱动物理规划成功的关键因素,包括模型架构、目标函数和规划算法的选择,并最终提出了针对不同任务复杂度的最优配置方案[5][26] JEPA-WM核心方法 - 模型采用层次化的编码与预测架构,核心组件包括:使用预训练且冻结的ViT权重(如DINOv2/v3)的视觉编码器、捕捉机器人自身状态的本体感受编码器、将控制指令转化为特征向量的动作编码器,以及接收过去观测与动作序列以预测下一时刻状态嵌入的预测器[15] - 在训练中引入了多步展开损失,使模型不仅能预测下一帧,还能基于自身预测递归生成后续状态,并采用截断反向传播以提高训练效率[10] - 在动作信息干预预测过程上,对比了三种方案:特征调节、序列调节以及表现更优的自适应层归一化(AdaLN),AdaLN能有效防止动作信号在深层网络中“淡出”[16] - 规划被建模为在动作空间上的优化问题,智能体在其内部模型中“试运行”多条候选路径,通过最小化预测终点与目标嵌入向量之间的距离来寻找最优动作序列[11] 实验设计与关键发现 - 实验在多个模拟环境(Metaworld的42个操纵任务、Push-T、PointMaze)和真实机械臂数据集(DROID)上进行评估[13] - **规划器选择**:在成本曲线平滑的任务(如Metaworld)中,基于梯度的优化器(Adam/GD)表现优异;但在2D导航任务中,梯度法易陷入局部极小值,基于采样的交叉熵方法(CEM)凭借探索能力完胜;新引入的Nevergrad规划器在无需调参的情况下展现了与CEM相当的实力,尤其适合跨任务迁移[17][19] - **关键因素贡献度**: - 引入机器人内部状态信息(本体感受)能一致性地提高规划成功率,例如在Metaworld任务中减少机械臂在目标点附近的震荡[20] - DINO系列编码器在所有任务中均优于V-JEPA等视频编码器,尤其在需要精确感知物体位置的操纵和导航任务中,在视觉复杂度更高的真实数据(DROID)中,DINOv3的优势进一步扩大[23] - 动作调节技术中,AdaLN在平均性能上表现最强且计算效率更高[23] - 模型规模的影响取决于任务复杂度:在简单模拟环境中,增大模型规模(从ViT-S到ViT-L)可能因嵌入空间过于复杂而导致规划效率下降;但在复杂的现实数据(DROID)中,大容量编码器和更深的预测器则带来明确的正收益[25] - 在训练中加入多步展开损失(如2步)能显著改善预测器的长时稳定性,对于最复杂的DROID任务,最佳展开步数甚至需要达到6步[25] - 训练上下文长度存在权衡:至少需要2帧上下文来推断速度信息,但盲目增加上下文长度(如W > 5)反而有害[27] 提出的最优配置 - 针对不同任务复杂度提出了最优配置:在模拟器中使用ViT-S编码器配以AdaLN动作调节;在真实复杂场景(如DROID)中使用DINOv3 ViT-L编码器配以12层深度的预测器[26] - 在与DINO-WM和V-JEPA-2-AC等模型的直接较量中,该研究提出的模型在几乎所有维度上均取得了领先[28]
蔡鑫莹:在数据浪潮与实像悬浮间构筑长沙创新高地 | 代表委员风采
新浪财经· 2026-01-02 07:53
公司核心业务与战略 - 公司董事长蔡鑫莹作为市政协委员与网络科技公司掌舵人 深耕数字经济产业实践并积极参政议政 为长沙建设全球研发中心城市建言献策 [2] - 公司董事长蔡鑫莹的建言具有“未来感”与“落地性” 其核心思路与省市后续聚焦数据要素与具身智能发展的产业规划高度契合 并在实践中推动了相关产业集聚区的发展 [2] - 公司董事长蔡鑫莹将持续追踪如“世界模型”等人工智能演进前沿 并计划围绕长沙建设全球研发中心城市目标 聚焦创新链与产业链深度融合等关键议题展开深度调研 [4] 行业洞察与发展建议 - 公司董事长蔡鑫莹提出 长沙不仅要参与人工智能的应用竞赛 更应抢占其“上游燃料”即数据要素的供给端 认为长沙丰富的应用场景 高素质人才储备和已具雏形的数据标注产业是打造高质量“数据燃料”基地的独特优势 [2] - 公司董事长蔡鑫莹关注“科技+文化”融合 敏锐关注到光刻与3D技术的范式革命以及中国拥有的制造主导权 并特别指出颠覆性技术“实像悬浮”是能够开辟新产业的“根技术” [3] - 公司董事长蔡鑫莹建议 长沙可以以“实像悬浮”技术为核心引擎 打造一个汇聚全球创意 设计 制造资源的文创产业基地 构建全新产业生态 推动长沙文创实现从“跟跑”到“定义赛道”的跨越 [3] - 公司董事长蔡鑫莹的履职主线是致力于为长沙在全局竞争中构筑不可替代的“创新护城河” [3]
践行者说|胡鲁辉:将世界模型注入身体,定义具身智能新生产力
机器人大讲堂· 2026-01-01 12:06
文章核心观点 - 文章核心观点:智澄AI创始人胡鲁辉在第六届中国机器人行业年会上提出,AI 2.0时代的终极方向是将通用人工智能从数字空间迁移到物理世界,以解决当前机器人价格贵、实用性低的痛点[3][4] 其技术路径是通过研发“世界模型”来攻克机器人在环境、本体和任务上的泛化能力瓶颈,并基于此打造了TR系列高性能机器人,旨在定义“新生产力工具”,推动通用物理智能的实现[7][8][10][12][15] AI 2.0的终极指向:从数字空间到物理世界 - 人工智能迭代速度已从以年为单位缩短至以季度甚至月计[4] - AI 1.0的核心是垂直应用,AI 2.0的本质区别在于通用和泛化[4] - 当前机器人行业的核心矛盾是产品价格贵且不好用,根源在于缺乏跨场景、跨任务的泛化能力[4] - 将通用智能从数字世界迁移至物理世界是AI 2.0的真正价值,这与产业前沿的“物理智能”、“空间智能”等判断相契合[4][5] 物理智能的核心:以世界模型破解泛化难题 - 行业正从视觉-语言-动作模型向世界模型探索[7] - 世界模型的核心是通过理解来推测未来的时空状态,是一种根本性的架构创新[7] - 基于世界模型构建的智能体旨在一次性解决三大泛化瓶颈:环境泛化、本体泛化和任务泛化[8] - 通过一个模型解决多方面的泛化性问题,可以降低整体成本[8] 具身实践:定义“新生产力工具”的TR机器人系列 - 智澄AI将其技术构想转化为名为TR的机器人系列,意为“改变机器人”[10] - TR1至TR3主要用于验证模型,TR4与TR5是定位清晰的量产机器人[10] - TR4是一款强调应用与灵活性的轮式升降双臂机器人,其升级版TR4 Pro在发布三个月后推出,提升了稳定性与可靠性[10] - TR5是一款定位高质量高性能的全尺寸人形机器人,其Pro版本将重量从78公斤优化至68公斤,实现了轻量化突破[10] - 机器人设计哲学源于第一性原理,目标是打造“新生产力的工具”,而非人类仿制品[12] - TR5机器人实现了单腿800公斤(8000N力矩)的惊人承重能力,旨在完成人力不可及的高负载作业[12] - 公司通过融合谐波、行星、RV等不同减速器方案,针对性地优化速度、精度、负载等关键参数[12] - TR系列机器人已通过京东自营渠道面向市场,应用场景覆盖工业制造、物流、消费及特种领域[14] 范式定义:通用化与极致性能的融合之路 - 该产业路径致力于攻克物理智能的根本性泛化难题,而非仅在单一垂直场景寻求落地[15] - 该路径不追求机器人与人类的形似,而是追求在力量、速度与可靠性上创造“超人体”性能[15] - 路径融合了对AI 2.0终局的判断、对核心技术的前瞻以及对产品本质的重新定义[15] - 揭示了一种通过打造兼具“强通用大脑”与“高性能身体”的一体化智能体来推动范式变迁的可能[15]
为什么蔚来会押注世界模型?
自动驾驶之心· 2025-12-31 14:27
文章核心观点 - 文章核心是推广一门关于自动驾驶世界模型的进阶实战课程 课程旨在帮助学习者理解并掌握这一前沿技术 推动端到端自动驾驶在工业界的落地[1][11] - 世界模型被视为智能驾驶能力上限的关键 其核心是建立高带宽的时空认知系统 以视频为核心学习物理规律 不同于解决概念认知的语言模型[1] - 行业对世界模型的定义尚不统一 初学者入门困难 该课程由业界专家设计 从原理到实战系统讲解 目标是使学员达到具备一年经验的算法工程师水平[1][14] 课程内容与结构 - 课程共六章 从概述、背景知识到具体模型流派及工业应用 循序渐进[4][6][7][8][9][10] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同流派(如纯仿真、仿真+规划、生成传感器输入等)[6] - 第二章讲解世界模型所需的基础技术栈 包括场景表征、Transformer、BEV感知、占用网络、扩散模型、闭环仿真(NeRF/3DGS)及其他生成式模型(VAE、GAN等)[6][12] - 第三章探讨通用世界模型 解析Marble、Genie 3、V-JEPA、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[7] - 第四章聚焦视频生成类世界模型 涵盖GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等 并以商汤OpenDWM进行实战[8] - 第五章聚焦OCC生成类世界模型 讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战 此类方法可扩展至轨迹规划[9][13] - 第六章分享工业界应用经验、行业痛点、问题解决思路及世界模型相关岗位的面试准备[10] 讲师与课程安排 - 讲师Jason拥有C9本科和QS50博士学历 发表多篇CCF-A/B论文 现任国内顶级主机厂算法专家 主持并完成多项自动驾驶感知与端到端算法的量产交付 拥有丰富的前沿算法预研和实战经验[3] - 课程为离线视频教学 于1月1日开课 预计两个半月结课 提供VIP群答疑及三次线上答疑 答疑服务截止2026年12月31日[15] - 章节内容按计划逐步解锁 例如第一章于12月10日解锁 第六章于3月1日解锁[16] 目标受众与学习收获 - 课程面向具备一定基础的学习者 要求自备GPU(推荐算力在4090及以上) 熟悉自动驾驶基本模块 了解Transformer、扩散模型、BEV感知等基本概念 并具备概率论、线性代数及Python/PyTorch编程基础[14] - 学员学完后将掌握世界模型技术进展(视频生成、OCC生成等) 对BEV感知、多模态大模型等关键技术有更深刻理解 能够复现II-World、OpenDWM等主流算法框架 并能将所学应用于实际项目设计[14] - 该课程有助于学员在实习、校招和社招中受益[14]
中国智能驾驶产业的算力巨变
36氪· 2025-12-30 18:36
行业核心观点 - 2025年中国智能驾驶行业迎来前所未有的算力变局,算力成为行业发展的核心要素,无论是在车端还是云端,对算力的需求都越来越高[1][2] - 行业在软件算法路线上出现纷争,以理想、小鹏、元戎启行为代表的玩家选择VLA方案,而华为、蔚来等则更加强调世界模型,但尚无一家在用户体验层面形成碾压性优势[1][7] - 高阶智能驾驶的商业落地呈现K字型分化,导致车端算力落地走向碎片化,同时有玩家正从L2向L4体系的Robotaxi布局,云端算力的作用日益凸显[2] - 自动驾驶技术正处在从量变到质变的前夜,向L4迈进需要车端和云端算力的持续大幅加码,云端算力的角色可能更加重要[26] 技术范式演变与算力需求 - 特斯拉在2023年通过FSD Beta V12直播展示了其端到端自动驾驶系统,并在此框架下持续推进软件更新,如FSD V12.5参数数量是V12.4的五倍,V14参数量更是高达10倍[3][4][5][6] - 中国智能驾驶玩家在2024年集体迈出拥抱端到端的步伐,但进入2025年后,在意识到端到端方案的局限后,开始探索VLA、世界模型等新的算法演进路径[7] - 智能驾驶的技术演进,尤其是在进入端到端体系后,对数据处理和模型训练提出更高要求,在云端掀起了一场算力军备竞赛[20] - 自动驾驶的终极形态被设想为将规则输入大型多模态模型并实时处理传感器数据,这依赖于AI技术的持续发展和算力的双重加持[28] 车端算力格局与流派分化 - 2025年,高阶智能驾驶的车端算力选择主要分为三大流派:车企自研、英伟达系、华为系及其他[12] - **车企自研派**:以蔚来、小鹏、理想为代表。蔚来自研的神玑NX9031芯片,一颗算力水平相当于四颗Orin-X[13]。小鹏自研的图灵AI芯片算力为750 TOPS,并以三颗组合或单颗形式上车[13]。理想已宣布自研M100芯片,预计明年上车,其宣称在运行大模型和视觉模型时性能分别为市场最强芯片的2倍和3倍[13] - **英伟达系**:英伟达最新一代Thor芯片提供数倍于Orin-X的算力,是市场热门选择。2025年在理想、领克900、小米YU7、极氪、智己等多款车型上落地,极氪9X车型还提供双Thor芯片方案[13][14]。英伟达Orin-X平台仍在部分车型上使用,如蔚来乐道品牌车型[15] - **华为系及其他**:华为不倾向于公开其智驾平台算力,更注重软件算法迭代和云端训练,但部分车型如尊界S800采用了算力更高的MDC 810计算平台[15]。地平线在2025年推动其J6芯片系列通过HSD方案上车,已在奇瑞、长安部分车型落地[15] 云端算力的关键作用与竞争 - 云端算力是智能驾驶算法进化的关键基石,也是未来算法迭代的核心支撑,其重要性在行业向L4演进过程中愈发凸显[19][20] - 特斯拉在FSD演进中的优势,部分得益于其更充足的云端算力,为数据闭环、训练和仿真验证提供了巨大优势[20] - 行业在2023-2025年持续进行云端算力军备竞赛。即使在2024年财务状况不佳时,也有新势力车企老板拍板增加云端算力,并在2025年实现了算法的跨越式迭代[20] - 2025年,云端算力依旧不够用,且受限于公司每年的算力预算。解决长尾问题的数据训练、仿真模拟等只能在云端完成,行业共识认为首先要解决的算力瓶颈可能在云端[21][23] - 英伟达推出了开源的Cosmos世界基础模型、3DGRUT等工具来助力自动驾驶在云端的开发[23]