世界模型
搜索文档
首款商用世界模型Marble发布,空间智能再进一步
国投证券· 2025-11-17 15:53
报告行业投资评级 - 行业投资评级为“领先大市-A” [8] 报告核心观点 - 首款商用世界模型Marble正式发布,其生成的持久化、可下载3D环境显著减少了场景变形与不一致性 [1][12] - 世界模型是以3D维度表征真实世界运行规律的AI系统,具备生成性、多模态性和交互性三种核心能力 [2][13] - 全球科技巨头在世界模型技术层取得密集突破,包括腾讯的混元3D世界模型1.0、Google DeepMind的Genie 3以及特斯拉的“世界模拟器” [3][14] - 空间智能是AI从“读写”到“构建”的关键,短期赋能创造力工具,中期有望成为机器实现真正智能的底层能力 [4][15] - 国内世界模型/物理AI产业链正在形成,建议关注相关产业链标的 [5][16] 行业重要动态与技术进步 - World Labs推出的Marble模型支持通过文字、照片、视频、3D布局或全景图生成可编辑、可下载的3D虚拟场景 [1][12] - 腾讯混元3D世界模型1.0融合全景图像合成与分层3D重建技术,支持使用者在3D场景中“沉浸式漫游” [3][14] - Google DeepMind的Genie 3能基于文本提示实时生成交互式虚拟环境,以每秒24帧、720p分辨率保持数分钟高保真度,并能回溯长达一分钟的历史时序信息 [3][14] - 特斯拉“世界模拟器”利用端到端神经网络生成高度逼真驾驶场景,用于自动驾驶与人形机器人训练 [3][14] - 李飞飞团队在空间智能领域的ReKep成果使用了奥比中光的RGB-D相机FemtoBolt,为机器人交互提供3D视觉数据支撑 [5][16] - Meta首席AI科学家杨立昆因战略分歧离职,计划创立专注于世界模型研发的新公司 [24] - OpenAI发布GPT-5.1版本,包含Instant和Thinking两个核心模型,优化了对话与推理能力 [25] - IBM发布120量子比特处理器Nighthawk,并公布2026年实用化路线图 [26] - 我国成功搭建“天衍-287”超导量子计算机,处理特定问题速度比最快超算快4.5亿倍,并即将全球开放云服务 [27] 市场行情回顾 - 本周计算机板块指数下跌3.72%,相对上证综指跑输3.54% [17][18] - 计算机板块年初至今涨幅为26.74% [18] - 本周计算机行业指数在中信30个行业指数中排名第28,在TMT四大行业中排名第2 [20] - 本周计算机个股中,ST峡创周涨幅达33.10%,位列涨幅榜首;淳中科技周跌幅为17.43%,位列跌幅榜首 [22] 投资建议与关注标的 - 建议关注奥比中光(3D视觉感知龙头) [5][16] - 建议关注智微智能(机器人大小脑控制器) [5][16] - 建议关注索辰科技(发布物理AI产品) [5][16] - 建议关注阿尔特(布局机器人赛道) [5][16]
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
机器之心· 2025-11-17 12:23
文章核心观点 - 自动驾驶领域的视觉语言动作大模型面临“监督稀疏”的核心挑战,即高维视觉输入与低维动作监督信号不匹配,导致数据规模定律失效 [2][5][8] - 一项由国内顶尖学术机构与华为合作的研究提出,引入世界模型作为稠密的自监督信号,是破解上述挑战并显著放大数据规模定律的关键 [5][11][18] - 该研究提出的DriveVLA-W0框架,通过世界模型预测未来图像,使模型性能随数据量持续显著提升,并在大规模实验中验证了其降低碰撞率及提升推理效率的效果 [12][23][24][26] VLA模型在自动驾驶中的核心挑战 - VLA模型输入信息量极大,例如需要处理长达20亿token的上下文,包括多摄像头视频流、导航地图、动力学数据及音频数据 [4] - 但其输出仅为稀疏的驾驶动作,这种“监督赤字”导致模型表征能力浪费,无法充分学习复杂环境动态,使得性能随数据量增加迅速饱和 [5][8][9] 解决方案:世界模型作为自监督引擎 - 研究团队提出用世界模型提供稠密的自监督信号,核心任务是让模型预测未来的完整视觉画面 [11][12] - 通过预测未来图像,模型被迫学习真实世界的运行规律,如车辆运动趋势和交通参与者交互关系,从而获得比动作信号更丰富的学习信号 [15][16] 核心贡献:放大数据规模定律 - 实验证明,引入世界模型的DriveVLA-W0,其性能随数据量增长的斜率显著优于仅使用动作监督的基线模型 [21] - 在高达7000万帧的大规模数据集上,基线模型性能提升迅速放缓,而DriveVLA-W0性能持续显著提升,差距拉大 [22][23] - 在7000万帧数据规模下,世界模型的加入使模型碰撞率降低了20.4% [24] 模型架构创新:兼顾性能与效率 - 针对VLA模型部署的高延迟痛点,研究提出一种轻量级的混合专家架构“动作专家” [26] - 该设计在不牺牲性能的前提下,将模型推理延迟降低至基线VLA模型的63.1%,为实时部署提供了可能 [27] 行业影响与意义 - 该研究为特斯拉等行业提出的“监督稀疏”真问题提供了清晰的解题思路 [29] - 研究展示了世界模型在自动驾驶及具身智能领域的核心价值路径,即作为强大的自监督引擎来撬动VLA模型的数据规模定律 [29]
图灵奖得主LeCun最后警告Meta:我搞了40年AI,大模型是死路
36氪· 2025-11-17 10:06
公司人事变动 - Meta首席AI科学家、负责基础AI研究的Yann LeCun预计将很快离职[1] - 公司今年任命年仅28岁的Alexandr Wang为首席AI官,成为LeCun的上司[4] - 公司任命另一位相对年轻的首席科学家赵晟佳,职位也在LeCun之上[4] 公司战略与组织调整 - 公司AI部门组织架构相当奇特,分成了多个独立的团队[6] - 公司不断调整AI组织结构,上个月超级AI实验室裁掉了数百人,包括10年老将田渊栋[9] - 公司在半年之内进行了第四次AI业务调整[9] - 新组建的AI研究部门由Wang主导,目标明确:要快、要落地、要产品化[12] 研发资源与影响力变化 - LeCun领导的FAIR部门经历了裁员、预算缩水,内部影响力明显下降[12] - FAIR曾是公司内部思想最活跃的象牙塔,研究人员可探讨各种AI未来路径[12] - LeCun现在主要做自己的研究项目,没有参与公司首个开源大语言模型Llama的研发[16] - 公司用天价薪酬疯狂从对手那里挖角顶尖AI专家[1] 技术路线分歧 - LeCun对scaling失去信心,而公司盛赞赵晟佳在scaling方面带来的突破[7] - LeCun告诫博士生不要做LLM,认为大语言模型是强弩之末、一条死胡同[7][18] - LeCun认为3到5年内世界模型将成为主流AI架构,没人再会用现在的LLM[18] - 公司CEO扎克伯格宣称超级智能已近在眼前[1] 世界模型技术理念 - 世界模型通过视觉等感知数据主动学习世界规律,而LLM只是依赖海量文本做预测[23] - 人类学习主要方式不是读文本,四岁小孩接触过的数据量是最大LLM的50倍[24] - 目标驱动的AI系统通过传感器和视频数据训练来认知物理世界[27] - 世界模型能呈现行动带来的影响,所有潜在变化都会实时更新至系统记忆[29] 技术可行性论证 - 训练大语言模型所需文本需要一个人花10万年才能读完[23] - 大语言模型训练文本量需要一个人花45万年读完,而四岁孩子通过感官处理了1.4x10^14字节的感觉数据[36] - 世界模型将拥有更强大的安全特性,控制方式是内置的而非神秘莫测的黑箱[41] - LeCun估计从与世界的互动中获取的信息比文本多得多[24] 技术应用前景 - 世界模型将使未来能够构建出可以规划行动、实现目标、进行推理的系统[38] - 这类系统需要与可穿戴设备互动,就像与人交流一样[30] - LeCun正在与业内同行商议创办公司、寻找投资,组建专注世界模型的团队[23] - 推动AI领域迎来类似ChatGPT的爆发式发展可能需要耗费数年甚至永远无法实现[41]
中金:具身智能走向数据驱动 高价值信息量成具身智能竞争核心
智通财经网· 2025-11-17 09:37
具身智能算法架构 - 分层控制是基础架构范式,以两级结构实现工程化,短期分层架构因工程可控性仍是主流 [1] - VLA范式以视觉语言模型为基础强化泛化与交互能力,是当前活跃研究方向,在复杂任务和人机交互中展现潜力 [1] - 世界模型通过环境建模与未来预测提供物理约束,处于科研主导阶段,因具备跨设备迁移能力被视为长期方向 [1] 具身智能数据策略 - 机器人数据涵盖多模态,产业找寻低数据成本获取与高数据效率应用路径 [2] - 数据获取端包括真机、视频第一人称或第三人称、仿真等路线 [2] - 数据安全为不容忽视的底线,人形机器人厂商面临权限隔离、数据加密体系、跨境传输政策等多方挑战 [2] - 异构训练通过模块化Transformer架构,跨机器人本体共享算法模型,打破传统“同构闭环”仅能在同类型硬件上复现策略的限制 [2] 具身智能热点议题 - 机器人Scaling Law与离身智能不同,尚未迎来爆发式突破,真实数据产能不足、Sim2Real迁移等为制约因素 [3] - 具身机器人缺乏公认量化框架,面临场景多样性、任务转化等难题,斯坦福李飞飞团队发布具身智能评测BEHAVIOR-1K推动评测标准化 [3] - 物理AI融合物理知识与AI模型,已走向机器人操作应用 [3]
图灵奖得主杨立昆被曝将离职Meta创业
财富FORTUNE· 2025-11-16 21:06
杨立昆职业变动与影响 - 杨立昆已告知同事将在几个月后离开Meta公司,计划创办自己的公司[2] - 杨立昆是图灵奖得主和AI领域顶尖研究者,他于2013年12月加入Facebook并担任基础AI研究室创始主任[2] - 他的离职被视为Meta公司乃至整个AI行业的一个重要转折点[2] 杨立昆的学术成就 - 上世纪80年代末研发出卷积神经网络,其开发的LeNet架构成功识别手写字体,掀起计算机视觉领域革命[2] - 2019年与杰弗里・辛顿、约书亚・本吉奥因深度学习突破性贡献被授予图灵奖,为深度神经网络成为当代计算机科学核心技术奠定基础[2] - 在AT&T贝尔实验室研发的卷积神经网络技术被应用于银行支票读取机,高峰期处理全美国10%至20%的支票[4] Meta公司AI战略调整 - Meta公司正对AI战略进行全面调整,今年6月向数据标注公司Scale AI投资143亿美元,并聘请其CEO领导新成立的"Meta超级智能实验室"[5] - 公司结构调整导致杨立昆汇报关系变更,从向首席产品官汇报改为向新部门负责人汇报[5] - Meta的Llama 4模型未达预期,公司在AI整体上落后于OpenAI和谷歌等竞争对手[5] 行业战略分歧与影响 - Meta老板马克・扎克伯格倾向于加快部署大语言模型和AI产品,而杨立昆公开对大语言模型持怀疑态度,认为其无法达到人类级别推理和规划能力[5] - Meta资源向商用AI倾斜导致长期研究受忽视,FAIR实验室处于半死不活状态,Llama模型原始研究论文作者超过一半在论文发表后数月内离开公司[6] - 今年10月份Meta裁撤AI部门约600个岗位,杨立昆离职突显行业内对达到通用型人工智能路径的核心分歧[6] 杨立昆新公司方向 - 新公司聚焦于"世界模型",通过学视频和空间数据对环境产生内在理解,而非单纯依赖文本数据[5] - 该系统旨在模拟因果场景并预测结果,但可能需要十年左右时间才能成熟[5] - 创业计划目前处于洽谈融资初期阶段[5]
内行被外行指导、时刻担心被裁,Meta 人现在迷茫又内卷
AI前线· 2025-11-16 13:33
核心事件概述 - Meta首席人工智能科学家Yann LeCun计划在未来几个月内离职并创办AI初创企业[2] - 新公司方向将聚焦于世界模型的研究与落地[7] - LeCun在Meta的纽约大学兼职教授职位将保持不变[2] Meta AI战略转向 - 公司AI战略重心从LeCun领导的FAIR实验室的长期基础研究转向快速推出模型和AI产品[2][4] - 核心AI研究部门FAIR经历裁员其影响力被专注产品落地的GenAI团队/TBD Lab取代[4] - 组织调整导致LeCun被要求向TBD Lab负责人Alexandr Wang汇报[4] LeCun与Meta的分歧 - LeCun对Meta新出台的内部研究发表规定不满认为其限制了学术自由[4] - 在AI技术路线上存在分歧LeCun认为大模型无法实现人类级智能而致力于世界模型研究[4][5][10] - LeCun公开撇清与Llama 2/3/4项目的关系称自2023年初以来均由GenAI团队开发[5] - 政治立场分歧可能加剧紧张关系LeCun批评美国政府而公司政策向特朗普阵营靠拢[5] Meta内部管理问题 - AI部门存在恐惧文化绩效评估制度与滚动裁员机制导致员工为害怕被炒而工作[18] - 生成式AI战略缺乏方向部门职责不断叠加导致内部冲突和模糊目标[18][19] - 项目管理采用倒排工期方式为赶工期而牺牲产品质量基于技术判断的叫停难以实现[15] - 高层管理者多为基础设施或传统计算机视觉背景对大语言模型缺乏深入理解形成外行指导内行局面[14] 行业竞争与影响 - Meta的Llama 4模型表现不佳落后于GoogleOpenAI和Anthropic的最新产品[4] - 公司AI聊天机器人未能在消费者中获得认可[4] - 扎克伯格暗示明年AI投入可能突破1000亿美元后公司股价暴跌12.6%市值蒸发近2400亿美元[13] - 大模型时代算力成为决定性因素资源博弈导致公司整体氛围不如以前轻松愉快[13]
李飞飞和LeCun的世界模型之争
具身智能之心· 2025-11-16 00:03
文章核心观点 - AI领域三大力量(李飞飞团队、LeCun、谷歌DeepMind)正以三种截然不同的技术路线进军“世界模型”,分别代表了“世界模型即界面”、“世界模型即模拟器”和“世界模型即抽象引擎”的范式 [3][30][39] - 三种技术路线在应用场景、技术重点和商业化潜力上各有千秋,共同构成了一个从具体到抽象的“世界模型金字塔” [39][47][48] 主要参与者与技术路线 - **李飞飞团队 - Marble模型**:定位为前端资产生成器,通过3D高斯生成流水线,从文本提示直接生成持久、可下载的3D环境,可导出为高斯斑点、Mesh网格或视频 [5][6][16][29] - **LeCun - JEPA模型**:定位为后端预测系统,根植于控制理论和认知科学,专注于构建抽象表征以捕捉世界状态,用于机器人行动前的预判,更像机器人的“大脑” [23][25][26][27] - **谷歌DeepMind - Genie 3模型**:定位为世界模型式视频生成器,从文本提示生成可交互的视频环境,解决了长时一致性问题并支持触发世界事件,如开始下雨或夜幕降临 [31][32][34][35] 技术特点与应用对比 - **Marble**:优势在于高精度的3D资产生成和商业化潜力,尤其适用于游戏和VR开发者的工作流程,可一键导出到Unity [9][21][38] - **Genie 3**:优势在于生成动态、可交互的视频世界,但画面质量和分辨率有限,核心仍是视频逻辑而非物理因果逻辑 [34][35][36][38] - **JEPA**:优势在于对世界本质和因果结构的理解,是机器人理想的训练基地,但无法生成可供人欣赏的视觉画面 [25][27][28][45] 世界模型范式分类 - **世界模型即界面(以Marble为代表)**:关注“世界长什么样”,生成可供人观看与交互的三维空间 [39][41][42] - **世界模型即模拟器(以Genie 3为代表)**:关注“世界怎么变”,生成连续、可控的视频环境供智能体训练 [39][43] - **世界模型即抽象引擎(以JEPA为代表)**:关注“世界的结构是什么”,以高度抽象的潜在变量形式呈现,最适合机器人推理 [39][44][45]
李飞飞和LeCun的世界模型之争
量子位· 2025-11-15 13:00
文章核心观点 - AI领域三大力量(李飞飞的World Labs、LeCun、谷歌DeepMind)正从三种截然不同的技术路线进军“世界模型”,这标志着AGI的发展路径在此交汇[1][2][3] 李飞飞World Labs的Marble模型 - 公司推出首款商用世界模型Marble,其核心是生成持久、可下载的3D环境,显著减少场景变形和细节不一致的问题[5][6] - 模型能将生成的世界导出为高斯斑点、Mesh网格或直接导出视频,并内置原生AI世界编辑器Chisel,用户通过一句提示即可自由改造世界[6][7] - 该模型为游戏或VR开发者提供了“一句提示→直接生成3D世界→一键导出到Unity”的实用工作链路,商业化潜力显著[9][22] - 有行业观点认为,Marble更像是一个3D渲染模型或3D高斯生成流水线,它捕捉的是世界的视觉表面而非内在的物理规律,因此可能不适用于机器人训练[10][11][12][18][20][21] LeCun的JEPA模型 - LeCun的“世界模型”根植于控制理论和认知科学,其任务不是渲染精美像素,而是让机器人能提前预判世界变化,更像是在训练机器人的“大脑”[24][25][26][28] - 该模型专注于捕捉用于AI决策的世界状态抽象表征,无需浪费算力生成像素,优势在于对世界本质的理解,是机器人理想的训练基地[27][29][51] - 与Marble相比,JEPA是一个高度抽象的后端预测系统,没有可供人欣赏的画面,但更贴近AI的思维方式[30][50] 谷歌DeepMind的Genie 3模型 - 谷歌DeepMind推出的Genie 3是一个可交互的视频环境生成模型,用户可通过一句Prompt在其中自由探索数分钟[32][33] - 该模型首次在同类模型中解决了长时一致性问题,并支持触发如“开始下雨”等世界事件,过程类似由模型驱动的电子游戏[35][36] - 行业分析认为,Genie 3的核心仍是视频逻辑,可被视为“世界模型式视频生成器”或“模拟器”,虽能让世界动起来,但未能完全理解画面背后的物理规律[37][38][39][47] - 其画面质量和分辨率有限,难以与Marble的高精度3D资产相比,但可作为智能体(如SIMA 2)的“虚拟健身房”进行训练[40][41][48] 世界模型的三种技术范式 - 世界模型即界面:以Marble为代表,直接从文字或二维素材生成可编辑、可分享的三维环境,世界是呈现给人的可视空间[43][44][45] - 世界模型即模拟器:以Genie 3为代表,生成连续、可控制的视频式世界,作为智能体反复试错的虚拟环境[46][47][48] - 世界模型即认知框架:以JEPA为代表,以高度抽象的潜在变量和状态转移函数呈现世界,是机器人完美的训练基地[49][50][51] - 三者可构成“世界模型金字塔”:从底部的Marble(对人类最真实)到顶部的JEPA(对AI最易理解),越往上越抽象,越适合机器人训练与推理[53][54]
李飞飞「世界模型」正式开放,人人可用, Pro版首月仅7元
36氪· 2025-11-14 21:36
产品发布与定位 - World Labs公司推出的Marble世界模型正式上线,面向公众开放使用[3][4][21] - 该产品是首个能创建持久化、可下载3D环境的世界模型,区别于实时生成模型[21] - Marble提供AI原生编辑工具和混合3D编辑器,用户可先构建空间结构框架再由AI填充细节[23] 核心技术功能 - 模型支持通过单张2D图片或简短文字提示生成完整的3D世界[34] - 支持多图像提示技术,能将针对世界不同部分的多样化提示图像无缝融合成统一3D世界[39][40] - 具备多模态输入能力,可接收照片或短视频素材组合生成包含现实空间元素的3D世界[44] - 内置AI原生世界编辑工具Chisel,支持移除物体、修饰区域、改变视觉风格等精细操作[47][52] 产品体验与效果 - 生成内容可任意旋转镜头、放大缩小,效果逼真类似3A游戏大作[11] - 支持将生成的世界导出为高斯溅射点、三角网格模型及视频格式[56][58][62] - 通过集成THREE.js的渲染器Spark,可在浏览器中实时渲染高斯溅射点[57] 商业模式与定价 - 目前提供免费版、标准版(20美元/月)、专业版(95美元/月)三档付费计划[82][84] - 免费版本限生成4个世界且仅支持图片上传,专业版最多可生成75个世界[82][83] - 下载作品及部分高级功能(如高质量网格创建、视频增强)需充值或订阅高级计划[22][87]
空间智能系列之三:物理AI:数字孪生、具身智能实现基石
申万宏源证券· 2025-11-14 20:45
报告行业投资评级 - 行业评级:看好 [1] 报告核心观点 - 物理AI是让AI走向现实世界的系统性工程,融合空间智能及世界模型,将引领下一个AI浪潮 [3][5][11] - 物理AI的实现依赖于世界模型、物理仿真引擎与具身智能控制器三大技术协同 [3][16] - 英伟达凭借“芯片-算法-平台”全栈布局,在物理AI领域具备先发优势 [3][25] - 数字孪生是物理AI目前最成熟的应用,智能驾驶与具身智能是未来最具想象空间的两大应用 [3][5][47] - 物理AI产业链已形成清晰的价值分布,各环节均出现重要变化和投资机会 [3][4][72] 物理AI概念与技术框架 - 物理AI核心结构可简化为“空间智能(感知基座)——世界模型(认知及决策中枢)——物理AI(系统整合载体)” [3][5][12] - 空间智能是AI感知、理解和推理三维空间及其内部物体关系的能力,当前先进的多模态大语言模型在空间推理任务上仍逊于人类 [13] - 世界模型为AI系统提供内部物理世界模拟器,使其能够预测行动结果而无需现实试错,学习方式多为无监督学习 [16] - 物理AI与传统AI在处理对象、核心能力、训练数据、技术基础和应用场景上存在显著差异 [24] - 物理AI的实现依赖于三大技术支柱协同:世界模型负责构建三维空间完整理解,物理仿真引擎负责实时计算物理交互,具身智能控制器连接虚拟推理和物理执行 [3][16] 英伟达的生态布局与优势 - 英伟达2019年提出Omniverse作为3D实时协作平台,已构建起较为完整的产业生态护城河 [3][25] - 2025年1月英伟达推出世界基础模型Cosmos并开源,能理解世界语言、物理特性、空间位置等要素,并合成物理数据 [30] - Cosmos模型获得重大更新,包括开源可定制的70亿参数推理视觉语言模型Cosmos Reason和专注于合成数据生成的Cosmos Transfer-2模型 [33][35] - 英伟达已建立完整的物理AI使用流程:构建虚拟3D环境(Omniverse)、生成合成数据(Cosmos)、训练验证(DGX平台)、部署(Jetson Thor等下一代机器人设备) [38][41][42] - Cosmos首批用户包括1X、Agile Robots、Figure AI、小鹏汽车等十余个国内外机器人和汽车厂商 [37] 世界模型进展与商业化应用 - 谷歌DeepMind推出通用世界模型Genie 3,基于文本提示以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境 [43] - 主流世界模型(如Meta V-JEPA、英伟达Cosmos、谷歌Genie3)在核心共性、技术侧重和优劣势上各有特点 [45] - 世界模型在训练端可生成符合物理规律的高质量合成数据,解决真实数据稀缺与长尾场景覆盖问题;在推理端通过物理推理模型实现感知-决策-执行闭环控制 [59][60][65] 物理AI核心应用场景 数字孪生 - 数字孪生是实体资产和流程的虚拟映射,企业借助其优化设计、仿真与运营效率,成为工业数字化转型的核心工具 [48] - 数字孪生通过集成多维数据源构建虚拟模型,并依赖物联网实现数字与物理世界的动态同步 [49] - 该技术为企业带来显著效益,宝马集团通过工厂数字孪生将规划效率提升近30%,纬创实现气流仿真速度提高15000倍 [52] - 数字孪生已渗透至制造业、能源、医疗与城市管理等广泛行业,如富士康通过虚拟工厂优化机器人部署 [54][57] 智能驾驶与具身智能 - 智能驾驶及具身智能目前主流方案包括端到端、VLA(视觉-语言-动作模型)、世界模型 [3][69] - 端到端模型是目前最成熟的前期方案,但因其“黑箱”输出遇到稳定性瓶颈;VLA模型凭借可解释性及LLM模型能力基础表现优异,但对边缘侧算力要求过高;世界模型可实现更前瞻推理,支持复杂思维实验,可能成为未来重要商业化路线 [3][69] - 智能驾驶领域代表厂商:特斯拉(端到端)、小鹏/理想/元戎(VLA)、英伟达/华为/蔚来/Momenta(世界模型) [69] - 具身智能领域代表:Google RT-2(端到端)、Figure(VLA)、DeepMind/Meta(世界模型) [69] 物理AI产业链梳理 芯片及控制器 - 芯片与控制器是物理AI的硬件中枢,承担环境感知、实时计算与运动控制的核心功能 [73] - 英伟达基于Blackwell架构推出Jetson AGX Thor和DRIVE Thor计算平台,Jetson Thor的AI计算能力是上一代Orin的7.5倍,最高达2070 TFLOPS(FP4),能效是上一代的3.5倍 [73][75] - 主控芯片领域呈现多元化竞争格局,除英伟达外,高通、地平线以及小鹏、蔚来等自研芯片厂商均在特定场景实现差异化竞争 [75][76] - 控制器厂商价值量提升,智微智能推出完整的机器人“大脑-小脑”分层方案,天准科技发布新一代千TOPS级高算力具身智能大脑产品星智007 [77][80][81] 数据供应 - 符合物理规律的高质量数据是训练物理AI模型的前提,获取成本与规模构成核心壁垒 [85] - CAE仿真与合成数据生成成为物理AI的“数据工厂”,索辰科技利用多物理场仿真技术生成高保真合成数据 [85][86] - CAD厂商积累大量细分场景下具备物理属性的空间信息,群核科技发布高质量3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景 [88] - 3D视觉厂商(思看科技、奥比中光、凌云光)负责现实世界感知与数字化,为仿真提供初始模型并进行数据采集校准 [91] 模型和算法 - 模型与算法构成物理AI产业的“智能核心”,产业格局呈现四类主要参与者:全球科技巨头(英伟达、谷歌)、专注于空间智能与世界模型的第三方平台、第三方算法解决方案提供商(如Momenta)、整机厂自研(小鹏、理想、优必选) [95][96][97][101] 落地和应用 - 落地应用是物理AI价值的最终体现,系统集成商与行业解决方案提供商是推动技术赋能千行百业的关键 [102] - 该环节核心竞争壁垒体现在对垂直行业的深度理解、与底层技术平台的深度合作关系以及提供端到端解决方案建立的客户粘性 [102][103] - 亚信科技将自研数字孪生平台、MaaS平台、智能体平台与NVIDIA Omniverse集成融合,为网络、工业制造、城市治理等场景提供一站式数字孪生解决方案 [104] 产业链核心标的 - 控制器:智微智能、天准科技、德赛西威 [3][109] - 数据供应:索辰科技、群核科技(拟上市)、思看科技、奥比中光-UW、凌云光 [3][112] - 模型和算法:索辰科技 [3][112] - 落地和应用:亚信科技 [3][112] - 整机厂商:小鹏汽车-W、极智嘉-W [3][112]