世界模型

搜索文档
特斯拉、华为与新势力决胜:世界模型大战
36氪· 2025-09-12 10:45
行业技术路线争议 - 智驾行业对"世界模型"定义存在分歧 多家公司提出不同技术路径并相互质疑 [1][3] - 小鹏汽车宣称其是中国唯一真正实现VLA量产的公司 并计划9月通过OTA在全新P7车型上线VLA功能 [3][7] - 华为明确反对VLA路径 提出WA方案直接通过视觉信息控车 跳过语言转换环节 [3] - 元戎启行支持VLA路径 称VLA模型下限已超过端到端上限 强调思维链和长时序推理为核心能力 [5] 技术架构差异 - 理想汽车采用车端快慢双系统:快系统为端到端E2E 慢系统VLM部署参数为22亿参数 云端基座模型作为仿真训练系统 [7] - 小鹏汽车研发720亿参数云端大模型"小鹏世界基座模型" 通过云端蒸馏方式部署到车端 [8] - 华为WEWA方案中云端WE作为"AI驾校" 车端WA采用一段式端到端架构 总参数80亿但实际激活等效20亿参数 算力消耗降低75% [15][17] - 蔚来世界模型NWM采用云端训练+车端推理双架构 直接通过生成式模型生成轨迹规划 跳过语言中间层 [12][13] 技术演进脉络 - VLA是在端到端+VLM基础上的技术进化形态 解决原有方案局限性但存在空间感知能力弱的问题 [5] - 世界模型概念由特斯拉最早提出 通过在感知与决策间嵌入AI大模型构建虚拟环境进行自动驾驶验证 [9][11] - 行业从两段式端到端进化到一段式端到端 VLA和世界模型均处于试错阶段的新方法 [8] - 视频生成技术分为GAN、扩散模型、自回归模型和掩码四大类型 其中扩散模型又分SVD和SD两种 [14] 企业战略布局 - 小鹏全新P7车型搭载三颗图灵芯片 硬件配置大幅升级以支持VLA功能 [7] - 理想在英伟达2025春季GTC大会宣布从零训练基座模型 支持MindVLA算法量产上车 [7] - 蔚来2024年NIO IN发布NWM 宣布智驾从"感知驱动"转入"认知驱动" 2025年5月底实现全量推送 [12][15] - 地平线认为所有新技术本质都是端到端 最终评判标准是产品实际收益 [17]
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-12 07:33
世界模型技术路线概述 - 华为、蔚来等公司坚持世界-行为流派(WA),认为世界模型是实现自动驾驶的终极方案,与视觉语言行为模型(VLA)路线形成技术分歧 [2] - 世界模型使智能体能够理解、表示并预测动态环境,研究重点从2D图像转向利用RGB-D图像、占用网格和激光雷达点云等原生3D/4D表示 [5] - 原生3D/4D信号在物理坐标系中编码度量几何、可见性和运动信息,为安全关键系统提供多视图一致性、刚体运动学和场景级遮挡推理等能力 [9] 3D/4D表示方法 - 视频流表示为多帧序列,强调几何一致性和时间连贯性以确保物理合理的仿真 [19] - 占用网格使用体素指示空间占用状态,时序占用网格扩展到4D捕捉场景演变,能强制执行空间约束 [20] - 激光雷达点云直接捕捉几何信息且不受纹理、光照或天气变化影响,时序激光雷达记录时间戳实现对运动的精确建模 [22] - 神经表示如神经辐射场(NeRF)和高斯溅射(GS)对连续体素场或显式高斯基元进行建模,时间扩展版本添加动态组件实现4D重建 [23] 世界模型功能分类 - 数据引擎在几何和语义条件下生成多样化场景,用于大规模数据增强和场景创建 [29][33] - 动作解释器基于历史观测和动作条件预测未来世界状态,实现动作感知的预测 [30][33] - 神经仿真器通过生成连续场景状态迭代仿真智能体与环境的闭环交互 [31][33] - 场景重建器从部分观测中恢复完整连贯的3D/4D场景,用于高保真建图和数字孪生修复 [34][35] 生成模型技术 - 变分自编码器(VAEs)通过概率编码和解码学习结构化latent空间,训练稳定但生成样本较模糊 [37] - 生成对抗网络(GANs)通过生成器和判别器的极小极大博弈生成数据,能产生高保真样本但训练不稳定 [38] - 扩散模型通过学习逆转逐步加噪过程实现生成,具有较强的稳定性和样本质量但推理速度较慢 [39][40] - 自回归模型将联合分布分解为条件概率乘积,适合序列生成但计算复杂度高 [41] 视频生成世界模型 - 基于视频的生成模型通过提供视觉线索和时间动态建模复杂场景,分为数据引擎、动作解释器和神经仿真器三类 [44] - 感知数据增强方法如BEVGen采用自回归Transformer生成与BEV布局空间对齐的环境图像,MagicDrive结合3D几何和语义描述生成高保真图像 [47] - 动作引导的视频生成如GAIA-1融合视频、文本和动作输入合成真实驾驶场景,GAIA-2扩展框架纳入智能体配置和环境因素 [50] - 闭环仿真器如DriveArena构建包含交通合成和自回归场景生成的框架,DreamForge通过物体级位置编码增强长时程建模能力 [54] 占用生成世界模型 - 基于占用的生成模型提供以几何为中心的表示,对3D世界的语义和结构细节进行编码,分为场景表示器、占用预测器和自回归仿真器 [56] - 3D感知鲁棒性增强方法如SSD采用离散和latent扩散模型生成场景级3D分类数据,SemCity通过扩散过程提升几何和语义保真度 [59] - 4D占用预测模型基于自车动作和历史观测预测未来占用状态,EmergentOcc引入可微渲染实现自监督训练,UniWorld结合图像和激光雷达数据学习基础占用模型 [61] - 自回归仿真器生成大规模时间连贯的4D占用,PDD提出尺度可变扩散框架从粗布局到精细细节生成户外场景,XCube采用分层体素latent扩散实现多分辨率生成 [64] 激光雷达生成世界模型 - 基于激光雷达的生成模型提供几何感知且外观不变的表示,在几何保真度和环境鲁棒性方面具有优势,分为数据引擎、动作预测器和自回归仿真器 [67] - 感知数据增强方法如DUSty通过GAN框架合成真实激光雷达扫描,LiDARGen将朗之万动力学应用于点云生成,R2DM利用DDPM过程实现更高精度生成 [70] - 场景补全方法如UltraLiDAR利用VQ-VAE引入离散体素表示实现稀疏到密集补全,LiDiff利用去噪过程重新定位重复点补全遮挡区域 [73] - 时序建模方法如Copilot4D通过VQ-VAE对点云token化并重构为离散扩散模型,以历史帧和未来动作为输入预测未来激光雷达帧 [75] 数据集与评估体系 - 行业采用多模态数据集如nuScenes包含1000个场景140万帧图像和40万帧激光雷达数据,Waymo Open包含1150个场景100万帧图像和23万帧激光雷达数据 [79] - 评估指标包括生成质量指标(FID、FVD)、预测准确性指标(L1 Error、IoU)、规划质量指标(ADE、FDE)和重建质量指标(PSNR)等 [81][83][84] - 感知保真度指标如FPD评估点云几何真实性,FRD评估激光雷达距离图像分布保真度,FSVD评估体素结构保真度 [81] - 时空一致性指标如VCS评估多视角几何一致性,CTC评估CLIP特征时间稳定性,TTCE评估点云运动对齐 [81][83]
马斯克给了AI5可以跑250B参数模型的预期
理想TOP2· 2025-09-07 20:09
特斯拉AI芯片技术进展 - AI5芯片设计完成 针对参数数量低于2500亿的模型 是推理芯片中硅片成本最低且性能功耗比最高的产品[1] - AI6芯片正在开发 预计成为迄今为止最好的AI芯片 架构从两种切换为一种 使团队能集中资源打造单一高性能芯片[1] - 芯片团队分布情况:约50%在湾区 50%在奥斯汀 另有众多工程师分散在全球各地[1] 芯片性能参数对比 - AI5本地推理参数量达137.9亿 对比理想汽车当前处理40亿参数量 性能提升显著[3] - GPT系列参数量对比:GPT-1为1.17亿参数 GPT-2为15亿参数 GPT-3达1750亿参数[4] - 自动驾驶发展方向需运行更大参数量模型 要求具备或超越人类思考能力并解决时延问题[4] 特斯拉战略调整与合成数据应用 - 解散Dojo超算研发团队 业务调整源于FSD端侧模型训练数据集转向依赖合成数据[5] - 训练与推理概念区分:训练发生在云端调整模型参数 推理发生在车端处理新数据生成输出结果[6] - 新训练流程使用云端世界模型推理生成合成数据 辅以真实道路数据训练可部署的FSD模型[6] 未来2-3年特斯拉AI发展路径 - 采用英伟达GPU集群训练超大参数规模的世界模型[6] - 使用Dojo 3(AI5/AI6芯片组成的推理集群)运行世界模型生成大规模合成数据[6] - 通过Dojo 3与英伟达混合集群训练小参数量FSD模型 用于车端部署和频繁迭代[6] - AI5/AI6芯片将同时应用于车端和机器人端的推理任务[7] 合成数据战略优势 - 转向合成数据主要基于效率提升、成本控制、场景可控性和数据覆盖度考量[7] - 现实世界数据仍重要 作为FSD模型与现实对齐的基础 合成数据用于填补极端场景和扩展长尾分布[7] - 最终形成混合数据策略 结合真实数据与合成数据的优势[7] 推理即数据的新范式 - 世界模型的推理过程直接生产训练材料 通过模拟现实世界生成包括摄像头视角和传感器数据的完整过程[8] - 推理行为本身成为数据生产环节 突破传统推理仅作为模型应用环节的限制[8] 训练即推理的闭环生态 - FSD模型训练核心数据来自世界模型的推理结果 训练过程依赖于推理输出[9] - 形成四步循环:训练世界模型→生成合成数据→训练FSD模型→真实场景数据反馈优化世界模型[10] - 闭环系统实现模型能力与数据规模相互促进 突破传统单向流程中数据断供的限制[10] 芯片战略与行业影响 - AI6芯片可替代Dojo功能 既能上车也能组大集群提供云端算力[11] - 车端芯片集成座舱、智驾及域控功能于专用NPU芯片 要求强大的软件和系统能力[11] - 大算力芯片缺货背景下 具备芯片设计能力+软硬件能力+模型能力的企业将获得显著竞争优势[11]
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-05 07:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]
新一轮智驾PK,迈入实战时刻
虎嗅APP· 2025-08-27 21:37
新一轮智驾竞赛集中爆发原因 - 监管加强和舆情事件拖后部分公司既定节奏[10] - 各家公司智驾技术底层依赖AI创新突破 时间起点相近[10] - AI底层技术套用于智驾需大量训练和调整 时间周期相对固定[10] - 公司担忧竞对优先发布技术 选择先发布基础版再优化策略[10] VLA模型技术突破 - VLA模型去掉规控时代多环节划分 实现从传感器到控制端单一完整模型[7] - 模型底层从CNN升级为Transformer 大幅提升对人类大脑模仿学习能力[7] - VLA模型下限已超过端到端模型上限 未来持续优化[6] - 相比VLM模型 VLA增加历史状态输入并输出可执行动作 应用于机器人控制和人机交互等领域[8] 思维链能力提升 - VLA通过语言媒介模仿人类思考模式 将驾驶决策分解为连贯推理步骤[11] - 分步推理提升复杂路况处理可靠性 例如识别校车后减速并检测儿童横穿风险[15] - 决策依据以可理解语言展现 增强系统可解释性和事故追溯能力[15] - 模型通过海量数据学习推理逻辑 获得泛化能力处理未知新场景[15] 实际道路表现 - 在立交桥下辅道人车混行场景 持续自我推理并将车速降至绝对安全范围[16] - 视线被遮挡路口感知对向电瓶车时 决策从控速升级为主动降速预留反应空间[18] - 丁字路口汇入前提前分析识别 降速后再汇入车流避免被迫变道[20] - 复杂十字路口综合天气和行人动态推理风险 以缓慢安全方式通过[22] 行业发展趋势 - VLA模型成本差异主要在芯片 15万元以上车型可适配 10万元级别车型通过优化有望搭载[26] - 智驾芯片将加强对Transformer支持 尤其在FP4和FP6精度算力优化[26] - 自研辅助驾驶系统需经历规则算法、端到端1.0到VLA过程 无法完全跳过发展阶段[26]
新一轮智驾PK,迈入实战时刻
虎嗅· 2025-08-27 18:38
新一轮智驾技术竞赛背景 - 中国头部智驾公司近期集中落地最新智驾能力 包括理想汽车推送VLA司机大模型 Momenta与智己合作R6飞轮大模型 元戎启行发布VLA大模型 小鹏发布全新VLA大模型 华为计划9月推送ADS 4系统 [2][5] - 行业动作集中源于四大驱动力:监管加强推迟部分公司节奏 AI底层创新突破时间相近 技术适配需要固定训练周期 公司担心竞品抢先选择先发布基础版再优化策略 [3][6] VLA模型技术突破 - VLA模型相比传统端到端模型取消感知/定位/预测/规划等独立环节 实现从传感器到控制端的单一完整模型架构 [7] - 模型底层技术从CNN升级为Transformer 显著提升对人类大脑模仿学习能力 [8] - VLA模型具备思维链(CoT)能力 通过语言媒介模仿人类驾驶思考 将决策分解为连贯推理步骤 [9] - 相比VLM模型 VLA在输入输出和应用层面更贴合智驾需求 输入包含图像/文本/历史状态 输出为可执行动作 应用领域涵盖机器人控制和自动驾驶 [9] VLA模型核心优势 - 增强决策逻辑性:面对校车/儿童等复杂路况时能分步推理 显著提升可靠性及安全性 [11] - 提升系统可解释性:以人类可理解语言展现决策依据 助力研发调试与事故追溯 [11] - 强化泛化能力:通过海量数据学习推理逻辑 实现应对未知新场景的能力 [11] - 实际测试显示防御性驾驶能力突出 在立交桥辅道主动降速至安全范围 在视线遮挡路口预判电瓶车风险主动降速 在丁字路口提前分析并缓速汇流 [12][14][15][16] 技术应用体验升级 - 驾驶体验实现综合性飞跃 包括更顺滑控车/更果断反应/全程安全感提升 极端场景仍需人工接管但信任感显著增强 [17] - 支持语音指令交互 可响应"加速/减速"等基础操作 并能直接读取交通标识文字执行优化驾驶 [17] 行业发展趋势 - VLA模型当前尚未完全实现思维链能力 自评仅达6分(满分10分) 需持续收集测试数据并优化后训练 [18][19] - 成本差异主要集中于芯片 15万元以上车型可适配 10万元级别车型经优化也有搭载可能 [20] - 智驾芯片将加强Transformer支持 重点优化FP4/FP6精度算力 [21] - 车企自研辅助驾驶系统需经历规则算法/端到端1.0/VLA的完整技术演进过程 无法完全跳过特定阶段 [21]
计算机ETF(159998)、云计算ETF沪港深(517390)双双涨超4%,机构:AI产业链仍是核心主线
21世纪经济报道· 2025-08-18 14:09
计算机板块市场表现 - 计算机ETF(159998)上涨4.21% 成交额超1亿元 流通规模35.12亿元居同类产品首位 [1] - 云计算ETF沪港深(517390)上涨4.10% 覆盖港股互联网企业及A股算力与计算机龙头 [1] 行业指数构成 - 中证计算机主题指数(930651.CSI)覆盖信息技术服务/应用软件/系统软件/电脑硬件等领域上市公司 [1] - 中证沪港深云计算产业指数(931470.CSI)同步布局港股互联网与A股算力企业 [1] AI云计算市场增长 - 2024年中国AI公有云服务市场规模达195.9亿元人民币 同比增长55.3% [1] - IDC报告显示行业全面向生成式AI演进 [1] 量子计算技术突破 - 清华大学团队实现支持任意两比特量子门直接编程的指令集架构AshN [2] - 研究成果发表于《自然·物理》期刊 属国际首次突破 [2] 细分领域景气度分析 - AI产业链/智能驾驶/国产替代/出海方向表现突出 [3] - 端侧AI硬件/C端出海软件/B端企业服务/G端私有化部署确定性较高 [3] - AI算力与激光雷达维持高景气 AI应用加速向上 [3] 技术演进动态 - 星海图发布双系统VLA模型 英伟达推出世界模型及机器人开发工具 [3] - 特斯拉转向AI5/AI6芯片集成 行业创新持续活跃 [3]
辅助驾驶的AI进化论 - 站在能力代际跃升的历史转折点
2025-08-05 11:15
行业与公司概述 - 辅助驾驶行业正经历从L2到L3商业化落地的关键拐点,全栈自研主机厂与第三方供应商形成领先优势[1] - 特斯拉、小鹏、鸿蒙智行合作车企、理想、蔚来、小米等车企在辅助驾驶领域领先[1][5] - 第三方供应商如Momenta、云融启行占据重要地位,国内供应商如速腾聚创、禾赛科技向软硬件一体化解决方案发展[1][5] 技术研发与产品进展 - **特斯拉**:HW5.0搭载4颗4D毫米波雷达,Robotaxi试点服务在Austin启动,数据反补FSD能力提升[6][9] - **小鹏汽车**:转向纯视觉方案,通过云端大模型训练实现硬件降本,Mona M03P7+成为高性价比爆款[3][11] - **华为**:ADS 4.0支持高速L3商用,通过零部件/HI/鸿蒙智行模式划分合作紧密程度[12] - **理想汽车**:L系列全系标配激光雷达,推出端到端加VLA架构,实现从跟随到引领的变化[6][13] - **蔚来**:三年研发投入超100亿元,自研芯片上车,但商业化节奏不及预期[14][15] - **小米**:Su7预期销量超市场预期,全系标配激光雷达,本地端VLA模型预计9月OTA搭载[16][25] 传感器与算力发展 - **传感器**:激光雷达(速腾聚创、禾赛科技)、4D毫米波雷达(特斯拉、华为)、纯视觉方案(小鹏)成为主流[6][23][26] - **算力芯片**:2024年辅助驾驶域控芯片装机量达528万颗(同比+61.7%),英伟达、特斯拉、华为为前三大玩家[28] - **云端智算中心**:特斯拉达100亿Flops,国内车企约10亿Flops,通过弹性算力池支持模型迭代[27] 技术路径与模型优化 - 技术路径向数据驱动发展,VLA模型融合视觉、语言与行为模块,优化车辆决策[3][29] - 世界模型通过视频预测学习时空规律,VLM模型通过自然语言描述场景理解[30][31] - 车企展示云端模型参数规模(如小鹏750亿参数),强调数据量(真实+仿真)驱动迭代[29] 政策与商业化进展 - L2端规范化同时,多地开放L4商用化试点[8] - 理想VLA司机大模型、小鹏本地端VLA模型、鸿蒙智行L3高速NOA解决方案将于近期量产或OTA[8] 消费者感知与安全 - 关键节点:从高速NOA向城市NOA发展,华为"车位到车位"概念实现全场景连续驾驶[32] - 安全功能:AES(主动避让系统)逐步量产,特斯拉MPI达700万英里/次事故[33][34] 投资关注点 - L2到L3商业化落地节点的头部解决方案供应商、全栈自研主机厂及细分上游供应链[36] - 法规开放试点与ToC端规控完善将推动行业能力迭代升级[36] 其他重要内容 - 传统主机厂选择第三方解决方案可缩短产品周期,快速抢占市场[17] - 技术驱动型企业(华为、蔚来、小鹏)研发费用率超15%,规模效应型企业(理想、特斯拉)随销量回调[22] - 企业组织战略调整(如理想成立算力资源部门)对研发效率与商业化至关重要[21]
人形机器人的进化之路|2.5万字圆桌实录
腾讯研究院· 2025-08-04 17:23
具身智能技术突破 - 端到端大模型实现从L2到L4级跃迁 Physical Intelligence公司Π系列模型展示少样本学习能力[7][8] - 数据采集技术突破 主从臂式遥操/VR遥操/光学动捕等技术提升效率 AGL Bot World项目采集百万级真机数据[9] - 仿真技术显著提升 生成式模型使仿真效果从"非常假"到"视觉逼真" 物理交互仿真仍需加强[9] 技术瓶颈与挑战 - 开放环境任务执行能力弱 复杂技能/高精度场景下故障率高 存在安全风险[6] - 硬件成本与运维问题 单台机器人成本达数十万人民币 供电持久性不足[6] - 泛化能力存在局限 Physical Intelligence Π0模型在OOD场景成功率低于产业预期[10] 主流技术范式 - VLA(视觉-语言-动作)成为共识框架 但底层架构仍处探索期 存在自回归与Diffusion两条技术路线[32][33] - 系统1(直觉响应)与系统2(规划决策)协同方案 短程任务端到端解决 长程任务需规则介入[18][19] - 触觉模态(T)增强形成VTLA框架 触觉信号使响应延迟从2-3秒提升至毫秒级[15][16] 数据生态现状 - 真实数据与仿真数据存在鸿沟 刚体仿真准确度达80%-90% 柔性体/流体仿真仍困难[36][39] - 数据规模严重不足 具身数据量仅为语言模型的1/5000 需百亿级VLA token训练量[9][57] - 互联网视频数据利用受限 缺乏动作标签与多视角信息 需清洗与伪标签生成技术[42][43] 产业化路径 - 专业场景优先落地 工厂SOP场景成熟度高于开放家庭环境 规则系统现阶段更可靠[14][51] - 消费级产品渐进发展 扫地机器人+简易操作臂组合或成突破口 价格增幅需控在数百元内[50] - 中间件接口标准化需求迫切 需建立动作抽象层兼容不同机器人本体[26][27] 技术演进方向 - 世界模型与强化学习结合 数据驱动的物理规律模拟替代传统物理引擎[35][37] - 穿戴设备数据反哺 未来消费级设备可能意外积累海量具身数据[41] - 多模态持续扩展 红外/温度等非人类模态将增强环境感知能力[29][32]
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]