Workflow
世界模型
icon
搜索文档
AI下一个超级风口?世界模型融资盛宴正酣,资本押注万亿级物理AI赛道
证券时报· 2026-04-01 08:17
今年兴起的"龙虾"(OpenClaw)热潮展现出人工智能(AI)无所不能的一面,它可以抓数 据、写代码、生成大片、接管计算机。然而一旦脱离屏幕,机器人面对现实世界时宛如稚嫩 的孩童,仅能完成固定、流程化的动作,"莫拉维克悖论"横亘在人类通往通用人工智能 (AGI)的道路上。 世界模型则是破解这一困境的密钥,它可让机器人真正理解物理世界的规律,拥有思考和推理能 力,是实现AGI的关键路径。今年,图灵奖得主杨立昆创办世界模型公司,"AI教母"李飞飞的世 界模型公司获巨额融资,国内出现超20起世界模型相关融资事件,业内直呼世界模型或是AI下一 个10年的重要风口。 多名AI领域的企业家对证券时报记者表示,世界模型能让AI真正实现对物理世界的理解和交互, 是实现AGI的必经之路。当下世界模型发展仍处早期,谁能率先撬动物理交互数据飞轮,谁就能 抢占发展先机。 AI需在现实世界落地生根 OpenAI近日宣布关闭视频生成应用Sora,并调整战略方向:此后Sora团队将专注于世界模型研 究。 放弃AI生成现实,转而让AI理解现实,OpenAI的决定映射出行业的下一个战略高地:世界模型。 根据复旦大学等高校的阐释,世界模型通过 ...
中国“原生”NEO Lab攻坚世界模型,高瓴、北大系基金联投超千万美元
暗涌Waves· 2026-03-26 08:58
文章核心观点 - 世界模型被视为通用人工智能(AGI)的关键拼图,全球科技巨头和资本市场已开始重点布局,该领域可能正处在融资爆发的前夜 [3][4] - 中国创业公司「逆矩阵科技」完成超千万美元首轮融资,其核心特点是本土化、年轻化及深厚的学术背景,旨在通过结合强化学习与世界模型,构建能够理解并预测物理规律的通用世界模型,代表了中国在底层AI范式创新上寻求突破的尝试 [3][11][16][17] 行业趋势与资本动态 - 世界模型的研发在全球范围内仍处于技术路线的“混沌期”,尚未形成统一范式,主要团队在“重塑虚拟世界”和“走向物理世界”之间有不同的侧重 [6] - 一种名为“NEO Lab”的新型创业形态在海外崛起,由顶尖高校或实验室的精英学者与年轻天才主导,成为资本最愿意押注的故事,其核心逻辑是押注最聪明的大脑率先突破底层科学临界点,以捕获下一代AI范式 [6][7][8] - 全球资本市场对世界模型展开积极布局,例如李飞飞创立的World Labs完成了10亿美元新融资,估值直逼50亿美元;LeCun领衔的AMI Labs官宣了10.3亿美元的“欧洲有史以来最大的种子轮” [3] - 国内一级市场因经历过大型语言模型公司的爆发式增长,产生了“害怕错过下一个百亿级标的”的焦虑,对世界模型创业团队的关注度正在上升 [3] 公司「逆矩阵科技」概况 - 公司完成超千万美元首轮融资,投资方为高瓴创投和燕缘创投,高鹄资本担任独家财务顾问 [2][3] - 公司核心创始人是1998年出生的吉嘉铭(北京大学人工智能研究院博士生)和2004年出生的陈博远(北京大学元培学院人工智能方向大四本科生),团队具有鲜明的本土、年轻及学术底色 [2][11][12] - 公司计划在2026年内发布旗舰模型,其核心目标不同于仅追求视觉逼真度的主流世界模型,而是让模型真正“理解”物理规律,并能响应动作指令做出物理正确的预测 [3][16] - 公司团队已汇聚30余名北大本硕博顶尖人才和大厂的头部算法人才,成员背景涵盖国际学科竞赛金牌得主、华为昇腾开发者代表、省级高考状元等 [13] 创始团队背景与实力 - 联合创始人吉嘉铭是北京大学人工智能研究院博士生,学术成果显著:已发表人工智能顶会论文30余篇,代表论文以第一作者获得ACL2025最佳论文;谷歌学术总引用达5600余次;GitHub开源项目累计获星超3.2万,模型下载量突破500万次;同时是苹果学者(Apple Scholar,2025年全球遴选,中国大陆仅2位)、首届腾讯青云奖学金、蚂蚁Intech奖学金(全球共10名)获得者 [12] - 联合创始人陈博远是北京大学元培学院人工智能方向大四本科生,综合排名第一,学术产出突出:大一发表NeurIPS2023,大三以第一作者发表NeurIPS2025亮点论文(全球前2.6%),代表论文获NeurIPS Oral(接受率仅0.35%),谷歌学术引用超2000次 [12] - 两位创始人均为北京大学2025学年年度人物(每届仅遴选10位),其中吉嘉铭是北大人工智能研究院与智能学院两院历史上首位获此荣誉者,陈博远是2025年获奖者中唯一的人工智能方向本科生 [13] 技术路径与战略愿景 - 公司选择将强化学习与世界模型相结合,认为下一个AI范式的核心将从静态生成转向交互式的物理世界预测(Next Physical State Prediction) [16] - 公司旗舰模型旨在应用于工业场景(如预测传送带速度变化的影响、机械臂碰撞风险)和游戏场景(作为“学到的物理引擎”),使模型能够根据动作输入推演出物理正确的响应,而不仅是被动生成逼真视频 [16] - 公司的长远终极目标是构建一个“能够在任意物理场景中进行因果推理与反事实预测”的通用世界模型,为具身智能、工业严肃场景、开放世界游戏、科学仿真等领域提供物理世界的“大脑” [17] 投资方观点 - 高瓴创投认为世界模型是超越语言建模、通往通用智能的必经之路,看好公司在定义下一代AI范式上的底层原创力及极高的人才密度,期待其完成真正的技术颠覆 [17] - 燕缘创投认为世界模型要解决的是物理世界基础模型问题,是实现物理世界终极智能的数字底座,并强调构建世界模型是一场科学范式的革命,其底层科研和技术能力的源头在高校,坚信公司能代表北大攻克这一难题 [17]
世界模型最新综述!中科院联合MBZ、NTU、Oxford系统梳理前沿进展
机器之心· 2026-03-24 17:17
世界模型综述的核心观点 - 世界模型是AI迈向“会想、会推演、会规划”通用智能的关键路线,其核心目标是通过学习环境演化规律,构建能够进行未来预测、内部仿真、规划搜索和行动决策的模型框架 [2] - 该综述系统梳理了世界模型的建模范式、方法、关键功能及应用,提供了一个全面的基准数据集、评估指标、模拟平台和跨模型性能对比,调研进展截止至2026年1月 [2][3] - 综述将现有方法归纳为四大分支:观测层生成式世界模型、潜空间世界模型、强化学习驱动的世界模型以及对象中心世界模型,并从统一建模视角进行系统分析 [2][10] 研究动机与综述特色 - 研究动机源于世界模型相关研究分散在视频生成、机器人学习、自动驾驶等不同社区,技术路线和评测协议不统一,而世界模型是连接感知、推理、控制与行动,走向更高层次智能系统的重要范式 [6][7] - 该综述的特色在于对世界模型进行了更系统的分析,从建模范式、数学形式、关键功能出发,进行了清晰的技术分类和数学化建模 [10] - 内容覆盖全面,不仅涵盖四类基础世界模型,还系统回顾了其在机器人、自动驾驶、科学发现等多个应用场景的进展,并总结了基准数据集、评测指标等 [10] 基础世界模型的分类与特点 - **观测层生成式世界模型**:直接在观测层面建模未来世界,与图像、视频生成紧密联系,能直接生成未来观测结果,在仿真表现和结果呈现上具有优势 [16] - **潜空间世界模型**:先将观测压缩到高维潜表示,再在潜空间中建模环境动态,更强调内部表征、动态推演与高效预测,体现了从表层生成走向内部机制建模的趋势 [16] - **强化学习驱动的世界模型**:通过引入动态建模与奖励建模,使世界模型能在想象推演的基础上参与策略优化与行动选择,体现了其与智能体决策闭环之间的联系 [16] - **对象中心的世界模型**:以对象为基本单位来组织和理解环境,把复杂场景表示为一组可交互、可组合的对象结构,在可解释性、组合泛化与结构建模方面价值鲜明 [16] - **预期的世界模型**:未来方向是从当前依赖观测数据的“黑盒式”预测,转向基于符号化方程、具备因果可验证性且能持续更新的科学理论架构,目标是解释“为什么”而不仅仅是预测“什么” [16][17] 世界模型的主要应用场景 - **机器人**:世界模型被视为连接感知、预测、推理与行动的核心中枢,在操作、导航、策略学习和运动控制中发挥关键作用,特别是在部分可观测、强物理交互环境中 [20] - **自动驾驶**:世界模型是连接交通场景建模、行为推演与行动选择的关键模块,主要方向包括预测建模、动作条件想象和决策中心集成,以支持对未来场景的预判和规划决策 [22] - **科学发现**:世界模型的应用从“面向交互的环境模拟”走向“面向复杂系统的数据驱动科学建模”,在社会科学、社会经济系统及物理与自然科学中支持长期预测、模拟推演和不确定性分析 [26] - **虚拟游戏模拟**:作为经典应用场景,从2D像素级观测预测走向3D网格级观测预测,研究重点转向具备几何结构、交互能力与语义一致性的虚拟世界构建 [27] - **GUI智能体**:世界模型能增强GUI智能体的多步决策能力,使其在执行前对界面变化进行内部模拟,从而完成前瞻规划、方案比较与错误修正,主要应用于Web agents与操作系统/桌面agents [28] - **可解释与可信的世界模型**:关注点从性能与功能推进到内部机制与可靠性,强调世界模型需具备支撑长期泛化的结构化内部表征,以及在分布偏移、对抗扰动等条件下保持稳定可靠的安全保证 [29] 基准、评测与未来挑战 - 该综述梳理了预训练视频基准、下游任务benchmark、一般性评测指标、物理引擎与仿真平台,以及不同世界模型之间的性能比较,并强调未来评测应纳入泛化能力、因果推理能力和长期一致性等更本质的指标 [31] - 在WorldScore数据集上的性能比较显示,不同观测级生成世界模型在多项指标上存在差异,例如TeleWorld在部分指标上得分达**78.23**、**66.73**、**76.58**,而Gen-3在相应指标上为**60.71**、**57.58**、**29.47** [32] - 未来面临的关键挑战包括:**长时程一致性与因果推理**,需解决长时间滚动预测时的误差累积、视觉漂移等问题 [34];**物理与语义约束的融合**,需引入物理先验、可微仿真器等使模型符合规律 [35];**泛化与可扩展性**,需关注多模态大规模预训练、数据高效学习等方向以突破狭窄任务限制并降低训练成本 [35]
Meta又一AI大将跟LeCun跑了
量子位· 2026-03-22 14:28
文章核心观点 - Meta人工智能研究部门(FAIR)的资深研究员John Nguyen被其前领导、Meta AI研究创始负责人Yann LeCun新创立的公司AMI挖走,这反映了Meta在人工智能领域面临的人才流失和内部动荡,而LeCun的创业公司因聚焦“世界模型”等前沿方向并获得巨额融资,正吸引着原Meta核心人才[1][6][27][38] 关键人物背景与动向 - John Nguyen在Meta(FAIR)任职6年零3个月,是团队中坚力量,其研究路径完整跟随了Meta从联邦学习、大模型训练到多模态的技术演进主线[3][15][18][20] - John Nguyen拥有加州大学戴维斯分校统计学和计算机双学士及计算机硕士学位,自大学时期起便在亚马逊、Meta等公司实习,毕业后即加入Meta[12][13][14] - 此次挖角事件是LeCun创业后一系列人才追随的延续,此前已有谢赛宁、Mike Rabbat等FAIR前成员加入AMI[6] - 行业中存在顶尖人物创业并带走核心团队的先例,如乔布斯离开苹果、李飞飞创立公司、Ilya离开OpenAI等,这背后是人才对技术方向和方法论的追随[21][22][23][24][25] 技术研究方向与行业趋势 - John Nguyen在Meta的研究始于联邦学习,关注分布式训练效率与隐私保护,相关论文引用量达数百次(如547次、200次、177次)[16][18] - 随着大语言模型兴起,其研究重心转向大规模深度学习训练,解决大模型训练在工程层面的挑战[18][19] - 其后研究方向扩展至多模态模型,关注应用与能力构建[20] - 行业观点认为,当下稀缺的是既懂底层训练、又跨越多模态并能承接“世界模型”的人才,而“预测下一个token”的范式正逼近上限,行业开始转向对现实世界的建模[20][26] - LeCun创立的AMI及其追随者(如谢赛宁)认为,大语言模型主导的现状存在局限,担忧“语言对视觉的污染”,并将“世界模型”视为下一阶段的解决方案[8][9][10] 公司现状与竞争格局 - LeCun创立的AMI成立仅4个月,团队25人,在无产品、无收入、无客户的情况下获得了10.3亿美元(约合人民币71亿元)的种子轮融资,投前估值高达35亿美元(约合人民币241亿元),投资方包括英伟达、三星、丰田、淡马锡等,被称为“AI领域有史以来规模最大的种子轮”[28] - Meta面临内部动荡,FAIR部门被逐渐边缘化,且近期有传闻称其首席AI科学家(亚历山大王)可能被更换,尽管公司已辟谣,但形象已受损[5][31][32] - Meta在新模型开发上进展不顺,原计划去年底发布的新模型“牛油果”已推迟至2026年第一季度,截至3月底仍无正式消息[33][34][35] - Meta在追赶行业热点(文中喻为“龙虾”)时出现运营问题,包括高管邮件被误删以及内部数据未经授权泄露两小时,进一步强化了公司当前“不顺”的印象[36][37]
今年最大种子轮诞生
投资界· 2026-03-12 15:41
公司融资与估值情况 - Advanced Machine Intelligence (AMI) 完成约10.3亿美元(约合人民币70亿元)种子轮融资 [4] - AMI 投后估值已超过45亿美元(约合人民币超300亿元) [7] - 该轮融资刷新欧洲有史以来种子轮融资规模纪录,也是开年至今全球最大的一笔种子轮融资 [6] - 领投方包括凯辉创新基金、Greycroft、Hiro Capital、HV Capital及Jeff Bezos Expeditions,淡马锡、英伟达、Toyota Ventures、三星、Bpifrance Digital Venture、Eric Schmidt、Tim Berners-Lee等参与投资 [4] 公司核心团队与背景 - 公司掌舵者为“AI教父”杨立昆 (Yann LeCun),他是Meta前首席AI科学家,于2019年与Yoshua Bengio、Geoffrey Hinton共获图灵奖 [6][11] - 杨立昆于2023年12月离开效力12年的Meta,在巴黎创立AMI,专注于世界模型研究 [6][12] - 核心创始团队六人中有四位直接来自Meta的FAIR团队 [13] - 首席科学家是杨立昆的老朋友、纽约大学教授谢赛宁,他是扩散变换器 (DiT) 的共同作者之一,为Sora、SeedDance等模型打下基础 [13][14] - CEO Alexandre Lebrun是连续创业者,曾创立VirtuOz和Wit.ai,后者被Facebook收购 [14] - 首席研究与创新官 (CRIO) 冯雁是香港科技大学人工智能研究中心主任及讲座教授,曾担任Meta人工智能杰出顾问 [15] - 负责世界模型研究的Michael Rabbat是原FAIR蒙特利尔实验室创始成员,COO Laurent Solly曾长期负责Meta在法国及欧洲的业务 [16] 公司技术方向与理念 - AMI专注于开发新一代人工智能系统,即“世界模型”,旨在通过视频和空间数据学习来理解物理世界 [11][16] - 公司目标是构建具备四大核心能力的AI系统:理解真实世界、拥有持久记忆、能够推理与规划、可控且安全 [16] - 杨立昆认为大型语言模型 (LLM) 受限于文本的离散世界,缺乏对物理世界的系统认知,无法实现真正的推理或规划 [11][16] - AMI计划在可靠性、可控性与安全性至关重要的领域开发应用,包括工业过程控制、自动化、可穿戴设备、机器人、医疗健康等领域 [17] - 公司选择将总部设在巴黎而非硅谷,杨立昆认为硅谷“很多人和资金都被LLM‘洗脑’了” [17] 行业趋势与竞争格局 - 世界模型成为AI领域新焦点,被视为物理AI的核心引擎,让AI从“会生成”走向“会理解、会推演、会行动” [20][21] - 知名科学家李飞飞创立的World Labs不久前完成10亿美元(约合人民币70亿元)新融资,成立一年多估值达50亿美元,同样聚焦世界模型 [18] - 通用人工智能公司VAST宣布完成5000万美元A轮融资,2025年重点研发世界模型,首款产品将于近期发布 [19] - 具身基模和通用机器人企业极佳视界完成近10亿元Pre-B轮融资,并已发布其世界模型GigaWorld-Policy [19] - 大晓机器人完成天使轮融资,资金将用于加速开悟世界模型3.0 (Kairos 3.0) 的研发 [20] - 世界模型概念在自动驾驶领域也已流行,华为、小鹏汽车、蔚来等公司均发布了相关模型 [20]
速递|Yann LeCun联合创立的AMI Labs完成10.3亿美元融资,"六个月后,每家公司都会自称是世界模型来筹集资金"
Z Potentials· 2026-03-11 10:10
AMI Labs 融资与战略定位 - 公司以35亿美元的投前估值成功筹集了10.3亿美元资金 [1] - 公司由图灵奖得主Yann LeCun离开Meta后联合创立,正在研发旨在理解现实世界的“世界模型” [1] - 公司首席执行官预测“世界模型”将成为下一个热门词汇,并认为其公司有本质不同 [1] 技术方向与行业背景 - 世界模型是一种从现实而非仅从语言中学习的人工智能,该领域的参与者目前比生成式AI少 [1] - 公司认为大型语言模型存在局限性,其产生的幻觉可能带来危及生命的后果,因此需要基于Yann LeCun于2022年提出的JEPA架构提供替代方案 [2] - 开发世界模型从理论走向商业应用可能需要数年时间,公司是一个始于基础研究的非常雄心勃勃的项目 [2][3] 融资详情与投资者构成 - 公司最终筹集了约8.9亿欧元,远超最初寻求的5亿欧元目标 [3] - 本轮融资由凯辉创新基金、Greycroft、Hiro Capital、HV Capital和贝索斯探险基金共同领投 [4] - 投资者还包括NVIDIA、三星、Sea、淡马锡、丰田风投以及多位知名个人投资者,如蒂姆·伯纳斯-李夫妇、马克·库班、埃里克·施密特等 [4][5] 团队实力与运营规划 - 公司团队实力雄厚,除Yann LeCun担任主席外,还包括Meta欧洲区副总裁Laurent Solly担任首席运营官,并汇聚了谢赛宁、冯雁、Michael Rabbat等知名研究员 [3] - 资金将主要用于支撑算力与人才两大核心成本中心 [4] - 公司计划在巴黎、纽约、蒙特利尔和新加坡四个关键地点优先考虑质量而非数量来组建团队 [4] 商业模式与合作伙伴 - 公司目前暂无营收计划,但打算尽早与潜在客户接触,将模型置于真实场景中用真实数据验证 [4] - 数字健康初创公司Nabla是公司首个公开披露的合作伙伴,预计将获得早期模型访问权 [1][5] - 公司计划通过合作伙伴探索部署方案,并认为本轮投资中工业巨头和潜在合作伙伴的参与与此有关 [5] 研发理念与开源策略 - 公司将在研发过程中持续发表论文 [5] - 公司承诺将开源大量代码,认为开放能加速进程,构建社区和研究生态系统符合其根本利益 [6] - 公司创始人认为开放式研究正变得“日益罕见”,但仍坚信其价值 [6] 行业动态与竞争格局 - 开发世界模型的公司正获得巨额投资,例如SpAItial筹集了1300万美元种子轮融资,李飞飞的世界实验室上个月获得了高达10亿美元的融资 [3]
杨立昆再联手谢赛宁,英伟达参投,新公司押注「LLM 之后」
36氪· 2026-03-10 13:17
公司融资与估值 - 公司AMI已完成10.3亿美元融资,投前估值为35亿美元 [1] - 本轮融资由凯辉创新、Greycroft、Hiro Capital、HV Capital、贝索斯远征共同领投 [4] - 战略投资方包括英伟达、丰田创投、淡马锡、软银、马克·库班、穆里耶家族等,跟投方包括埃里克·施密特、阳狮集团、三星、蒂姆·博纳斯·李等 [4][5] 公司核心团队与背景 - 公司由前Meta首席AI科学家、图灵奖得主杨立昆创办 [1] - 首席科学官谢赛宁已加入,他是视觉表征学习权威,也是扩散变换器DiT的共同作者 [2] - 六位核心创始人中,四位直接来自Meta的FAIR团队,另外两位也有深厚的Meta渊源 [3][18] - 公司CEO由连续创业者亚历山大·勒布恩担任,COO劳伦·索利曾任Meta欧洲业务VP,是连接欧洲政商渠道的关键 [22][20] - 世界模型副总裁由原FAIR蒙特利尔实验室创始成员迈克尔·拉巴特担任,他主持研发了V-JEPA系列 [10][18] - 首席研究与创新官由香港科技大学讲席教授、计算机科学家冯雁担任 [19] 公司技术方向与愿景 - 公司以研发“世界模型”为主要方向,旨在开发能从真实世界学习抽象表征的AI系统 [1] - 技术路径基于杨立昆提出的JEPA架构,核心是让模型学习世界的“抽象表征”并在该空间做预测,而非还原所有细节 [6][10] - 公司旨在打造能理解世界、具备长期记忆、能进行真正推理和计划、且端到端安全可控的新一代AI系统 [8] - 杨立昆认为达到人类级别智慧的AI系统不会建立在LLM之上,需要概念性突破 [12] - 公司目标是在欧洲建立独立于美国和中国的前沿AI“第三极”,路线是开源 [24] 行业背景与竞争格局 - 大语言模型在2023年ChatGPT爆发后几乎成为AI代名词,但杨立昆持续公开批评其本质是文字统计规律,无法理解物理世界进行推理和规划 [5][6] - 公司认为当前AI需超越屏幕限制,理解情境、保存上下文、预测结果并随时间做出可靠行为 [8] - 杨立昆呼吁学界不要只做LLM,应去发明新技术,解决当前系统之外的问题 [12] - 公司投资方高度多元化,涵盖全球AI霸主、主权基金、科技大佬及终端应用公司,显示出对建立欧洲AI生态的广泛支持 [24] 相关技术与研发基础 - 谢赛宁是DiT架构共同作者,该架构用Transformer替代U-Net,提升了图像/视频生成模型的质量和可扩展性,为Sora、SeeDance等模型打下基础 [2][13] - 谢赛宁在纽约大学推进的世界模型研究包括使用Minecraft构建的多人视频世界模型“Solaris”,用于测试AI在动态环境下的预测与规划能力 [10] - 迈克尔·拉巴特在FAIR研发的V-JEPA 2通过视频自监督训练,仅用不到62小时机器人操作数据即可零样本控制机械臂完成抓取任务 [19] - 谢赛宁的其他代表作包括ConvNeXt、MAE和MoCo,这些工作对视觉网络架构和自监督学习产生了重要影响 [14] 公司运营与战略 - 公司总部位于巴黎,并计划设立纽约、蒙特利尔和新加坡办公室 [3] - 本轮融资将用于支持长期科研、全球范围招聘以及世界模型方向上的可靠产品开发 [2] - 杨立昆表示Meta可能会成为公司的第一个客户 [3] - 公司团队在某种意义上是对FAIR蒙特利尔和巴黎团队的“精华重组” [18]
“世界模型”到底是什么?
虎嗅APP· 2026-03-08 11:04
文章核心观点 - AI当前缺乏理解、预测和推演世界的能力,为解决此问题,OpenAI、谷歌、微软等大公司及顶尖学者正集中研究“世界模型”,这被视为通往AGI的关键一步[4][6] - 世界模型旨在让AI从“只会回答问题”的语言机器,转变为能够“观察、推理、行动”的真正智能体,其核心特质包括表示世界、预测未来以及在世界中规划和行动[24][26] - 当前世界模型的研究呈现多条技术路线并行的局面,主要包括视频生成、3D空间生成、在虚拟世界训练智能体以及直接学习世界抽象结构等,这些路线共同指向让AI理解并能在世界中行动的终极目标[48][101][134] - 世界模型若发展成熟,预计将对机器人、自动驾驶、穿戴式设备、内容生成与游戏、AI Agent等多个关键行业产生颠覆性影响,从效率提升转向范式级改变[106][117][121] 一、什么是世界模型? - **概念起源与目标**:世界模型的概念源于对人类心智模型的研究,旨在让机器像人类一样,在内部构建一个“世界如何运作”的模型,以进行预测和行动规划[8][9][10] - **理论发展**:在AI和强化学习早期研究中,Dyna架构首次明确将“世界模型”确立为智能体的基础能力,其核心是智能体学习“采取动作后世界如何变化”[12] - **现代框架**:2018年Google Brain的论文《World Models》提出了一个精炼化的理解框架:世界模型 = 观察世界(视觉模块V)+ 预测世界(记忆模块M)+ 在内部世界中学习行动(控制模块C)[17] - **核心特质**:研究者普遍认为世界模型应具备三大特质:1) 表示世界(理解环境中的物体与关系);2) 预测未来(模拟事件变化);3) 在世界里规划和行动(基于预测采取行动)[24] 二、为什么要研究世界模型? - **与大语言模型的区别**: - **任务与目标**:大语言模型预测下一个词/Token,世界模型预测下一帧画面、下一步状态变化[29] - **数据与输出**:大语言模型主要依赖静态文本数据,输出语言或图像;世界模型主要依赖动态时序数据(如视频),输出对未来状态的预测和可执行方案[29] - **学习方式**:大语言模型通过语言间接理解世界,是世界模型的补充;世界模型通过交互和推演直接理解世界,并能进行预测和干预[28][30] - **大语言模型的瓶颈**:部分顶尖学者认为大语言模型路线存在根本性瓶颈,例如Yann LeCun认为其只是在拟合语言统计相关性,对现实世界缺乏直接建模能力,若继续“堆量”难以实现真正的智能[33][37] - **研究驱动力**:1) 大模型的原生能力遇到天花板;2) 多模态时代到来,海量视觉/动作数据、强大算力等条件成熟,使得训练“真正的世界模型”成为可能[44][46] 三、当前推进世界模型的主要路线 - **三层结构框架**:可将世界模型领域拆解为三层:1) 底层思想与范式(抽象、预测、规划);2) 中间表现形式(世界如何被生成出来);3) 顶层目的层(智能体训练,让AI在世界中行动)[49][50][52] - **行业现状**:目前产业界的尝试多集中在第二层“世界生成”,这是整个领域最活跃的部分,也是世界模型体系的入口和根基[54][56] 四、世界模型的表现形式:世界生成 - **视频生成路线**: - **目标与代表**:让AI生成一个能随时间连续演化、动起来的世界,代表模型包括OpenAI Sora、谷歌Genie等[56][59] - **优势**:结果“看得见”,易于观察和评估;训练数据(互联网视频)易获得;对Scaling Law敏感,规模越大效果越好;能快速商业化落地[65][67] - **局限**:对世界的理解是“隐式”的,藏在模型权重中,难以直接读取或迁移到机器人等决策系统[67][69] - **3D生成(空间智能)路线**: - **目标与代表**:不是“画”出世界,而是“建”出世界的三维结构,关注几何关系与可操作性,代表是李飞飞的World Labs及其模型Marble[57][70][72] - **优势**:生成显式的3D结构信息,更利于物理模拟、规划和控制;在游戏、影视、室内设计等场景有商业转化优势[72][75] - **挑战**:高质量3D训练数据稀缺;几何结构建模难度大;对算力需求远超2D模型[76] 五、世界模型的目的:智能体训练 - **基于虚拟世界训练路线**:代表是Google SIMA,将AI放入游戏等虚拟生成的世界中训练,使其学会可迁移到真实世界的行动能力,最新版本SIMA 2展现出复杂任务理解、自主规划和强大泛化能力[84][86][87] 1. **直接学习世界抽象结构路线**:代表是Yann LeCun提出的JEPA架构,其核心是不生成具体画面,而是将世界压缩成抽象的高维潜在表示,并在此空间中预测未来的关键结构,优势是计算成本低、更易捕捉因果关系、输出信息更利于机器人行动[90][92][97][98] 六、世界模型会改写哪些关键行业? - **机器人**:世界模型让机器人拥有“世界的内部模型”,能进行预测和模拟,从而具备跨环境、跨任务的迁移和泛化能力,这将改变机器人行业过去每项新任务都需重新编程工程的范式[106][107][109] - **自动驾驶**:世界模型能让系统学习“世界如何运转”,进行高质量仿真和多种决策路径推演,从而获得接近人类的预判能力,被认为是推动自动驾驶走向大规模商业化的核心技术之一[110][113] - **穿戴式设备**:世界模型能让设备真正理解用户所处的3D环境并进行预测规划,使其从“信息终端”进化为随身的“世界理解引擎”和“数字伙伴”[114][116] - **内容生成、游戏与影视制作**:世界模型能根据简单设定自动生成并演化整个虚拟世界,将内容创作从“制作”变为“生成”,彻底改变叙事和创作方式,例如游戏世界可以即时生成和进化[117][118][120] - **AI Agent**:世界模型为AI Agent提供了一个可训练、可试错、接近真实的“内在世界”,解决了其与真实环境交互训练昂贵且危险的核心问题,是决定AI Agent能否走向现实世界的关键[121][122][124]
智驾平权系列六:AI 智能涌现新阶段,智驾 VLA 与世界模型之争
长江证券· 2026-02-27 08:50
报告投资评级 - 行业投资评级为“看好”,并维持该评级 [11] 报告核心观点 - 通用人工智能大模型迎来跨越式发展,为各类AI应用构建了坚实的技术底座,智能驾驶作为“物理AI”应用,注定向大模型演进 [3][6] - 通用大模型能力涌现,赋能智能驾驶模型基座,模型架构持续进阶,正逐步进入视觉-语言-动作模型和世界模型的物理AI时代,迈向智能涌现新阶段 [3][6][8] - 智能驾驶大模型从传统规则模型走向端到端大模型,并进一步向视觉-语言-动作模型和世界模型演进,国内头部玩家正加速迭代,智驾能力有望迎来飞跃 [8][107] 通用大模型技术演进 - AI大模型以Transformer为基底,依托算力指数级提升与海量多模态数据,实现了从单一语言理解到多模态融合、从专用任务适配到通用能力涌现的关键突破 [7][19] - 大语言模型发展历经多个关键阶段:2017年Transformer架构问世;2018-2020年预训练模型兴起;2021-2022年引入后训练对齐技术;2023-2024年多模态与推理模型发展;2025年进入以DeepSeek-R1为代表的成本高效推理模型时代 [23][26] - 模型训练范式从预训练规模化,发展到引入监督微调和基于人类反馈的强化学习进行后训练对齐,进入了“ChatGPT时刻” [27][30] - 2024年,模型开发开始强调提升推理能力,以OpenAI o1-preview为代表,模型推理能力飞跃,并引入Agent模式,实现了AI应用功能体验的质变,标志着商业化落地的重要拐点 [31][36][37] - DeepSeek-R1模型基于纯强化学习的创新技术路径,利用专家混合架构和优化算法,在表现出竞争力的同时大幅降低了运营成本,满足了国内算力不充裕背景下对超大参数模型训练的需求 [7][42] 智能驾驶大模型发展路径 - 智能驾驶从2023年开始,受特斯拉FSD V12引领,进入“端到端”大模型时代,车端模型参数规模普遍已达数十亿,云端达百亿级别,规模定律持续显现 [45] - 传统端到端模型通过神经网络直接建立视觉输入到驾驶轨迹的映射,属于“黑盒”方式,缺乏对物理世界规律的深入理解,且无需显式语义推理 [8][65] - 当前趋势是引入多模态大模型和强化学习,推动“端到端”模型向视觉-语言-动作模型范式演进,并融合世界模型,使智能驾驶进入物理AI时代 [8][51][67] - 特斯拉的自动驾驶架构演进经历了四个主要阶段:1)感知端到端;2)决策规划模型化;3)两段式端到端;4)一段式端到端,当前行业正迈向视觉-语言-动作模型和世界模型时代 [52][53] 视觉-语言-动作模型分析 - 视觉-语言-动作模型是一种融合视觉、语言和动作三大模态的端到端人工智能模型,它将感知、推理与控制一体化,直接根据视觉输入和语言指令生成可执行动作 [76] - 视觉-语言-动作模型的发展分为四个阶段:Pre-视觉-语言-动作模型阶段、模块化视觉-语言-动作模型阶段、端到端视觉-语言-动作模型阶段、增强型视觉-语言-动作模型阶段 [77][78][83] - 相较于“端到端+视觉语言模型”的中间形态,视觉-语言-动作模型实现了三个模态特征在统一空间中的集体建模与对齐,解决了双系统架构下泛化能力不足、交互稳定性难保证等问题,使智驾更具交互性、类人性和泛化性 [87] - 视觉-语言-动作模型架构主要由多模态编码器、大语言模型推理核心和解码器组成,输入经视觉和文本编码器处理,输出由轨迹解码器和文本解码器完成 [81][82] 世界模型分析 - 世界模型是一种生成式时空神经网络系统,旨在系统内部构建对物理环境的动态模拟与未来状态推演,让自动驾驶车辆具备“在脑海中预演未来”的能力 [91][92] - 世界模型通常覆盖三类任务:未来物理世界生成、行为规划与决策、联合预测与规划 [95] - 世界模型的核心优势在于能够预测和仿真未来、方便量化风险,并可通过仿真生成大量极端案例数据,但其挑战在于缺乏高级语义理解、实时高保真推演计算成本高,且本身不直接产出驾驶策略 [100] 视觉-语言-动作模型与世界模型的对比与融合 - 视觉-语言-动作模型与世界模型的核心目标不同:视觉-语言-动作模型侧重于实现人车交互与可解释的端到端自动驾驶,而世界模型侧重于构建一个内部预测与仿真系统 [100] - 视觉-语言-动作模型可以直接输出动作控制信号,是真正的端到端;而世界模型输出的是未来的场景状态,需要中间转译才能生成动作 [100][102] - 两者并非相互排斥,存在融合趋势,例如将世界模型的能力嵌入视觉-语言-动作模型的训练目标,或设计能够同时涵盖视觉、语言、动作与动态预测的统一融合模型,如World视觉-语言-动作模型 [104][105] 头部玩家技术路线与进展 - 国内头部智驾玩家加速模型迭代,向视觉-语言-动作模型和世界模型推进,模型架构、训练方式、算力、数据及参数量全面升级 [8][107] - 目前以小鹏、理想等为代表的主机厂主要采用视觉-语言-动作模型路线;以华为、蔚来等为代表的主机厂主要采用世界模型路线 [8][107] - **小鹏汽车**:推出第二代视觉-语言-动作模型,去掉语言转译,将架构从V-L-A改为V/L-A,采用近1亿段视频训练数据,基座大模型参数达720亿,预期复杂小路平均接管里程提升13倍 [112] - **理想汽车**:Mind视觉-语言-动作模型架构强化了3D空间信息处理、语言场景理解和集体行动生成能力 [116] - **华为**:提出世界引擎+世界行为模型架构,云端世界引擎训练世界模型,车端世界行动模型将感知数据直接映射为控制动作,跳过语言解析 [120] 投资建议 - 整车方面:智驾实力领先和处于强新车周期的主机厂具备较强确定性,重点推荐小鹏汽车、江淮汽车、赛力斯、比亚迪、吉利汽车、零跑汽车、理想汽车、小米集团、长城汽车、上汽集团、长安汽车等 [9][124] - 零部件方面:智驾升级催动产业链投资新机遇,重点推荐拓普集团、伯特利、星宇股份、均胜电子等,重点关注德赛西威、科博达等 [9][124]
“世界模型”火了!李飞飞AI公司融资10亿美元
第一财经资讯· 2026-02-19 13:13
World Labs融资与“世界模型”研发 - 人工智能初创公司World Labs在新一轮融资中筹集了10亿美元,资金将用于推动“世界模型”的研发 [1] - 本轮融资的投资方包括软件公司欧特克(投资2亿美元)、英伟达以及AMD [3] - 市场预估该公司此轮融资后的估值约为50亿美元 [3] World Labs的产品与战略 - 公司于去年年底推出了首个空间智能产品Marble,该产品被描述为可根据图像或文本提示生成三维世界的基础模型 [3] - 新融资将重点用于提升机器人和科学发现等领域的应用能力 [3] - 公司创始人李飞飞表示,空间智能模型未来可用于增强现实、虚拟现实或机器人领域 [3] “世界模型”的行业竞争格局 - “世界模型”的开发目标是让AI理解三维世界,并在其中进行导航和决策 [3] - 前Meta公司AI负责人杨立昆创立的AMI Labs也是一家“世界模型”初创公司,其认为教会AI理解物理世界至关重要 [3] - 谷歌DeepMind也在积极开发世界模型,其Genie模型可以生成和模拟三维环境 [3] 软件行业与三维工业模型的机遇 - 投资方欧特克在宣布投资World Labs后,当天收盘股价上涨近2% [4] - AI公司构建世界模型需要三维世界的感知、生成和交互能力,这为数不多的几家有能力提供三维工业模型的软件企业带来新的增长机会 [4] - 法国软件公司达索系统已与英伟达建立长期战略合作伙伴关系,共同构建“世界模型” [4] 行业领军者对“世界模型”的展望 - 英伟达CEO黄仁勋预测,物理AI是人工智能的下一个前沿领域,潜在规模高达90万亿美元 [4] - 达索系统首席执行官表示,当AI以科学、物理学和经过验证的工业知识为基础时,将成为人类智慧的倍增器,企业利用此类技术有望将生产效率提升超过十倍 [4]