物理AI-Infra建设提速-投资机会深度拆解

物理AI行业研究纪要关键要点涉及的行业与公司 * 行业：物理AI（具身智能）行业，涉及世界模型、仿真平台、具身数据采集等关键环节[1][2] * 公司： * 技术/平台巨头：英伟达、谷歌、腾讯、阿里[1][3] * 仿真平台公司：索辰科技、五一世界（51WORLD）、群核科技[1][7][8][9] * 本体/数据采集公司：智元、京东、宇树科技、特斯拉、蚂蚁数科[1][10][11] * 数据服务商：海天瑞声、汇川技术、品茗股份[1][12] 核心观点与论据 1. 物理AI定义、产业链与核心算法 * 核心定义：物理AI强调对空间关系和物理规律的准确理解，最终目标是实现与真实世界的交互[2] * 与生成式AI区别：世界模型基于当前状态和施加的动作预测下一时刻世界状态，具备交互式预测能力，而非仅基于上一帧预测像素[2] * 产业链环节： * 硬件：感知设备、执行本体[2] * 软件：算法层（世界模型、空间智能）、数据层（数据采集）、仿真层（仿真模拟器与数据）[2] * 核心算法（世界模型）：是物理AI的关键算法环节[2] 2. 世界模型的技术路径与发展现状 * 技术路径分类：主要分为两大类、三种技术路径[3] * 显式生成路径： * 视频生成路径（主流）：模型通过观看大量视频自主学习物理规律，优势是可利用海量互联网视频训练，代表模型有英伟达Cosmos、谷歌Genie、腾讯混元、阿里Happy Orister[3] * 3D生成路径（李飞飞团队）：先生成物体的空间信息参数再渲染，优势是空间信息正确性高，可直接对接物理仿真引擎，但算力消耗巨大[4] * 隐式路径（杨立昆）：在潜空间内以数学向量表示特征进行推理，只输出决策结果，在因果逻辑推理上最严谨，但尚处实验室阶段，面临模型坍缩挑战[4] * 发展现状：三种技术路径正处于各取所长、相互融合的阶段，尚未统一收敛[4] * 主要厂商特点： * 英伟达：侧重工业孪生、人形机器人等商业化应用，模型集成较多物理引擎和渲染能力[5] * 谷歌：模型相对独立，最大优势在于长时序一致性保持非常好[5]，发展方向是多模态输入、动态输出，融合多模态推理能力到世界模型中[6] 3. 仿真平台的角色、价值与公司进展 * 核心角色：是物理AI领域的核心基础设施，在人形机器人训练中无法绕开，技术壁垒较高[6][12] * 与传统工程仿真区别： * 传统仿真（如CAE）：本质是物理引擎，通过求解物理参数运作，存在运算速度慢（如参数更改后需一分钟计算新场景）、复杂场景无法求解导致“仿真与现实差距”问题[6] * 物理AI仿真：在物理引擎基础上融合神经网络，无需显式求解所有物理参数，可实现实时交互和反馈[6] * 主要用途：作为世界模拟器（如英伟达Omniverse）、生成合成数据[6] * 相关公司布局： * 索辰科技：原CAE仿真公司，核心竞争力在于多物理场耦合求解能力；布局低空经济、工业孪生、具身智能三大方向；2025年物理AI业务收入5，800万元，其中低空经济项目（绍兴无人机管控）合同金额约3，000万元；2026-2027年累计物理AI产品收入目标2.5亿元[1][7] * 五一世界（51Sim-One）：在高阶智能驾驶仿真领域市占率达50%，为车企提供智驾算法检验服务；受益于2026年L3量产强制第三方检测政策；正将智驾仿真能力向具身智能仿真迁移[1][8][9] * 群核科技：核心竞争力在于海量空间信息数据和强大GPU集群，在实时渲染和计算有优势；已发布SpatialVerse空间智能平台，2025年该平台营收520万元；下游布局包括具身智能、工业孪生、VR/AR、影视短剧[9] 4. 具身数据采集的瓶颈、方案与厂商布局 * 核心瓶颈：具身数据训练量不足是制约机器人大脑泛化能力的核心瓶颈[10] * 数据量级判断：目前全球有效具身数据量约几十万小时，产业界认为要达到类似GPT-3水平可能需要上亿小时训练量，供给缺口巨大[10] * 采集方案演变：从2023-2025年的真机遥操（质量高但量难提升），转向混合采集模式（整合无敏数据采集、第一人称视角、互联网视频及仿真数据）[10] * 各方案优缺点： * 真机遥操：数据质量最高，但成本高昂（单条数据成本可达数十元），且与特定机器人本体高度关联、复用性差[10] * 无敏数据采集（通用操作接口）：数据泛化性显著提升，可在不同本体间复用（如Generous AI已实现27万小时训练量），但仅有手腕视频视角，视野受限[10] * 第一人称视角：2026年被海内外厂商积极布局，易于规模化且成本显著下降，但面临“具身差异”（人手与机器人手灵活度不同）和视频数据缺失动力学标注的挑战[10][11] * 其他数据源现状：互联网视频和仿真数据因质量相对较低，尚未成为主要训练数据来源[11] * 厂商布局与目标： * 特斯拉：2025年6月后数据采集策略从真机数据采集转向视频学习方案，旨在提升规模化能力[11] * 智元：通过“蜜蜂科技”平台采用众包模式，计划2026年建成千万小时级数据产能，2030年达百亿级别[11] * 京东：计划两年内采集1，000万小时数据，优势在于可利用自有快递员或家政人员，人力成本有优势[11] * 宇树科技：招股书披露募资42亿元中20亿元用于大模型研发，很大一部分将投入具身数据采集[11] * 数据服务商角色： * 海天瑞声：作为AI数据采集服务商，是智元核心合作伙伴，深度参与“蜜蜂科技”计划；将其原有大模型数据供给能力迁移至具身数据采集领域；与智元在北京已有项目落地，计划寻求与更多本体厂商（包括海外）合作[12] 5. 产业核心应用、关键方向与瓶颈 * 核心应用场景：最大核心应用场景是人形机器人，同时涵盖低空经济、工业孪生、智能驾驶等相关领域[12] * 关键技术追踪方向：世界模型的技术发展路径是重点追踪方向，其显著突破将极大推动物理AI落地[12] * 现阶段重要瓶颈：具身数据采集是产业发展的重要瓶颈环节，预计2026年是数据采集爆发元年[1][12] * 值得关注的公司（综合）：索辰科技、海天瑞声、51Sim-One（五一世界）、群核科技[12]