Cosmos
搜索文档
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
我们相信 26 年会是多模态技术的大年,其中视频生成会快速进步让应用大规模落地,而世界模型 则会有研究上的科学突破,甚至开始从 research 走向 production。 在相当长的一段时间内, World Model 这一概念始终处于较为混沌的状态;直到近半年,随着技术 路径逐渐收敛,尤其是在具身智能与真实交互场景中出现了初步落地的案例,世界模型的轮廓开始 变得清晰。 作者:Cage、Haozhen 如果和语言模型对比:语言模型解决的是语义层面的压缩和推理,预测下一个 token;世界模型是 在解决下一步更根本的问题,AI agent 是否能真正理解时间与空间,并进行预测下一帧、下一个行 动。如果和视频生成模型对比:世界模型在交互性、实时性、长时记忆和物理合理性这四点上都需 要更进一步。 于是行业中的玩家开始在这些提升方向有了各自的 bet, World Model 领域逐步分化出两条路线: 一条以实时视频生成为核心,服务文娱、游戏等 for human 的消费者场景;另一条以显式 3D 结构 为中心,服务机器人、自动驾驶等 for AI 的领域。 本文沿着这个路线分化展开,拆解两条路线的技术趋势和落地 ...
Technicals Could Point to Upside for This New Crypto ETF
Etftrends· 2025-12-13 04:28
When bitcoin sneezes, altcoins often catch a cold or worse. For many altcoins, that's exactly the scenario that's playing across more than two months of bitcoin volatility and retrenchment. Understandably, that gives some investors pause about embracing crypto risk. Still, as the old saying goes, if there's blood in the streets, maybe it's a buying opportunity. Regardless of asset class, history shows that when market participants become so decidedly negative, markets often react in opposite fashion. Said d ...
NVIDIA’s Strategic Partnership With Synopsys Aims to Accelerate AI-First R&D
Yahoo Finance· 2025-12-09 00:08
公司与战略合作 - 英伟达与新思科技于2025年12月1日宣布达成一项多年期战略合作伙伴关系,其中包括英伟达向新思科技普通股投资20亿美元 [1] - 合作旨在将英伟达的加速计算和人工智能技术与新思科技的设计和仿真堆栈相集成,以帮助研发团队以更快的速度、更高的精度和更低的成本进行产品设计、仿真和验证 [2] - 合作计划将新思科技的AgentEngineer与英伟达的智能体堆栈(包括NIM微服务、NeMo Agent Toolkit和Nemotron模型)连接,以实现EDA和仿真工作流程中的自主设计能力 [2] 技术整合与产品开发 - 新思科技的应用程序将广泛使用英伟达的CUDA-X库和AI物理技术进行加速 [2] - 双方将利用英伟达Omniverse和新思科技Cosmos平台,为半导体、航空航天、汽车、能源、工业和医疗保健等多个行业构建下一代数字孪生 [3] - 合作将提供云就绪的产品,并利用新思科技的全球销售网络进行联合市场推广计划 [3] 交易细节与公司背景 - 英伟达此次投资的股票购买价格为每股414.79美元 [3] - 官方新闻稿指出,此次合作是非排他性的 [3] - 英伟达是人工智能和加速计算领域的领导者,提供从数据中心到边缘设备的GPU平台和软件 [4]
英伟达与新思科技宣布战略合作 共同推动跨行业设计与工程创新
证券时报网· 2025-12-02 19:15
合作背景与核心目标 - 英伟达与新思科技扩大战略合作伙伴关系,共同应对研发团队面临的工作流程复杂度提升、开发成本攀升以及上市周期压力等挑战 [1] - 合作旨在融合英伟达在AI与加速计算方面的优势以及新思科技在工程解决方案领域的领先地位,为研发团队提供更高精度、更快速度、更低成本的设计、仿真与验证能力 [1] - 英伟达以每股414.79美元的价格投资20亿美元认购新思科技普通股,占后者已发行股票的2.6% [1] 合作具体举措 - 全面加速新思科技的产品应用,利用英伟达CUDA-X库与AI-Physics技术优化其计算密集型应用组合,涵盖芯片设计、物理验证、分子仿真、电磁分析、光学仿真等领域 [3] - 推进智能体AI工程,整合新思科技AgentEngineer技术与英伟达Agentic AI技术栈,实现EDA及仿真分析工作流程的自主设计能力 [3] - 以数字孪生技术紧密连接物理与数字世界,合作推动下一代虚拟设计、测试与验证,采用英伟达Omniverse、英伟达Cosmos等技术服务于半导体、机器人、汽车、能源、工业、医疗等行业 [3] - 联合市场拓展,共同制定市场推广计划,依托新思科技全球数千名直销人员及渠道合作伙伴,面向多行业工程团队推广本地部署及云端解决方案 [3] 合作性质与展望 - 英伟达首席执行官黄仁勋表示,CUDA GPU加速计算正在重塑芯片设计方式,合作将重新定义工程与设计 [1] - 新思科技首席执行官Sassine Ghazi认为,双方合作将提供AI驱动的整体系统设计解决方案,帮助全球创新者更高效地实现技术创新 [2] - 此次合作并非排他性协议,两家公司将继续与更广泛的半导体及电子设计自动化生态系统合作 [4]
英伟达20亿美元入股新思科技,无排他协议,也不要求购买芯片
国际金融报· 2025-12-02 18:02
投资与战略合作 - 英伟达以每股414.79美元的价格收购新思科技4,821,717股普通股,总收购价为20亿美元 [1] - 此次交易为私募发行,依据1933年《证券法》豁免条款进行 [1] - 两家公司宣布扩大战略合作,将共同开发用于跨行业产品设计的新人工智能工具 [1] 合作目标与领域 - 合作旨在应对工程挑战,包括工作流程复杂性增加、开发成本上升和上市时间压力 [1] - 结合英伟达人工智能和加速计算优势与新思科技领先的工程解决方案,以提升设计精度、速度并降低成本 [1] - 合作将彻底改变设计流程,利用CUDA GPU加速计算在计算机内部创建功能齐全的数字孪生 [2] 合作具体内容 - 广泛加速新思科技应用:使用NVIDIA CUDA-X库和AI-Physics技术,加速其芯片设计、物理验证、分子模拟等计算密集型应用 [2] - 推进agentic AI工程:整合新思科技AgentEngineer™与英伟达AI技术堆栈,实现EDA及仿真分析工作流程的自主设计能力 [2] - 通过数字孪生连接物理和数字世界:为半导体、机器人、汽车等多个行业提供下一代虚拟设计、测试和验证解决方案,利用NVIDIA Omniverse、NVIDIA Cosmos等技术 [3] - 提供云端解决方案:通过云访问让各种规模的工程团队都能使用GPU加速工程解决方案 [3] - 制定联合市场推广计划:利用新思科技由数千名直销商和渠道合作伙伴组成的全球网络,推广本地部署和云端解决方案 [3] 公司关系与市场背景 - 英伟达近期进行了一系列重磅投资,包括对OpenAI高达1000亿美元的意向投资,与微软共同向Anthropic投资150亿美元,50亿美元入股英特尔,10亿美元投资诺基亚等 [4] - 英伟达与新思科技互为客户关系 [4] - 新思科技总裁兼首席执行官表示,20亿美元投资并非用于购买英伟达GPU,而是公司正常的商业运作方式 [4] - 两家公司首席执行官均表示此项交易并非排他性,双方将继续与更广泛的半导体和EDA生态系统合作 [5]
英伟达砸20亿入股EDA巨头新思科技,黄仁勋盛赞“巨大扩展机遇”、否认类似OpenAI交易闭环
华尔街见闻· 2025-12-02 03:25
合作概述 - 英伟达宣布与新思科技达成战略合作,斥资20亿美元入股新思科技,双方将进行多年合作,将英伟达AI计算技术深度整合到工业设计与工程领域,重塑从芯片到系统的整个设计流程 [1] - 合作公布后,新思科技股价盘初一度大涨6.9%,午盘涨幅收窄至5%以内,英伟达股价盘初曾跌近1.9%,但随后转涨,午盘刷新日高时日内涨近1.9% [1] - 此次合作并非排他性协议,也不涉及采购英伟达芯片的条款,性质不同于英伟达对OpenAI的投资 [3] 股权投资细节 - 英伟达以每股414.79美元的价格购买新思科技约480万股股票,较上周五收盘价折让约0.8%,通过私募配售方式发行 [4] - 投资将使英伟达成为新思科技的第七大股东,持股比例为2.6% [3] 技术合作内容 - 新思科技将使用英伟达的开发者工具套件和代码库,在芯片设计、物理验证和其他EDA流程的应用上展开合作 [4] - 合作包括使用英伟达CUDA-X库和AI物理技术,加速和优化新思科技的计算密集型应用组合,涵盖芯片设计、物理验证、分子模拟、电磁分析、光学仿真等 [6] - 双方将整合新思科技AgentEngineer技术与英伟达代理AI技术栈,实现EDA以及仿真和分析工作流程的自主设计能力 [6] - 在数字孪生领域,两家公司将合作为半导体、机器人、航空航天、汽车、能源、工业、医疗等行业实现下一代虚拟设计、测试和验证,利用英伟达Omniverse、英伟达Cosmos等技术 [6] 市场推广与生态系统 - 双方同意开发联合市场推广计划,利用新思科技数千名直销人员和渠道合作伙伴的全球网络,推广基于GPU加速的工程解决方案 [6] - 合作并非排他性,英伟达和新思科技继续与更广泛的半导体和EDA生态系统合作 [6] - 新思科技的技术被Alphabet和特斯拉等广泛的半导体和系统公司使用,交易将使新思科技能够在汽车、航空航天、工业和能源领域的设计和仿真工具中使用更先进的芯片 [5] 战略意义与市场机遇 - 英伟达CEO黄仁勋强调合作将使其技术覆盖规模达万亿美元的工业领域,远超消费端AI应用的市场空间 [3] - 黄仁勋指出工业公司在工程软件工具上的支出可能是数亿美元或非常低的数十亿美元,但在产品原型制作上的支出轻易就是10到20倍,通过数字孪生技术在虚拟环境中完成原型设计,市场机会增长了10到100倍 [7] - 黄仁勋提供关键数据点说明平台转变:2016年世界科学超级计算机90%是CPU,10%是GPU,今年90%是GPU,10%是CPU,平台转变已经发生,现在正为工程设计行业进行这一转变 [8] - 新思科技CEO表示通过合作可将需要运行两三周的工作负载缩短到几小时,向客户交付价值 [8] 与OpenAI投资的区别 - 黄仁勋明确表示与新思科技的合作并非排他性协议,也不涉及采购英伟达芯片的条款,性质不同于英伟达对OpenAI的投资 [3][8] - 合作被描述为“技术升级”,旨在加速AI和加速计算在自动设计行业的采用,而非封闭的商业闭环 [8][10] - 新思科技客户包括AMD,而英伟达也与新思科技的竞争对手Cadence Design合作,非排他性安排表明合作更多是技术生态系统的扩展 [10]
空间智能系列之三:物理AI:数字孪生、具身智能实现基石
申万宏源证券· 2025-11-14 20:45
报告行业投资评级 - 行业评级:看好 [1] 报告核心观点 - 物理AI是让AI走向现实世界的系统性工程,融合空间智能及世界模型,将引领下一个AI浪潮 [3][5][11] - 物理AI的实现依赖于世界模型、物理仿真引擎与具身智能控制器三大技术协同 [3][16] - 英伟达凭借“芯片-算法-平台”全栈布局,在物理AI领域具备先发优势 [3][25] - 数字孪生是物理AI目前最成熟的应用,智能驾驶与具身智能是未来最具想象空间的两大应用 [3][5][47] - 物理AI产业链已形成清晰的价值分布,各环节均出现重要变化和投资机会 [3][4][72] 物理AI概念与技术框架 - 物理AI核心结构可简化为“空间智能(感知基座)——世界模型(认知及决策中枢)——物理AI(系统整合载体)” [3][5][12] - 空间智能是AI感知、理解和推理三维空间及其内部物体关系的能力,当前先进的多模态大语言模型在空间推理任务上仍逊于人类 [13] - 世界模型为AI系统提供内部物理世界模拟器,使其能够预测行动结果而无需现实试错,学习方式多为无监督学习 [16] - 物理AI与传统AI在处理对象、核心能力、训练数据、技术基础和应用场景上存在显著差异 [24] - 物理AI的实现依赖于三大技术支柱协同:世界模型负责构建三维空间完整理解,物理仿真引擎负责实时计算物理交互,具身智能控制器连接虚拟推理和物理执行 [3][16] 英伟达的生态布局与优势 - 英伟达2019年提出Omniverse作为3D实时协作平台,已构建起较为完整的产业生态护城河 [3][25] - 2025年1月英伟达推出世界基础模型Cosmos并开源,能理解世界语言、物理特性、空间位置等要素,并合成物理数据 [30] - Cosmos模型获得重大更新,包括开源可定制的70亿参数推理视觉语言模型Cosmos Reason和专注于合成数据生成的Cosmos Transfer-2模型 [33][35] - 英伟达已建立完整的物理AI使用流程:构建虚拟3D环境(Omniverse)、生成合成数据(Cosmos)、训练验证(DGX平台)、部署(Jetson Thor等下一代机器人设备) [38][41][42] - Cosmos首批用户包括1X、Agile Robots、Figure AI、小鹏汽车等十余个国内外机器人和汽车厂商 [37] 世界模型进展与商业化应用 - 谷歌DeepMind推出通用世界模型Genie 3,基于文本提示以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境 [43] - 主流世界模型(如Meta V-JEPA、英伟达Cosmos、谷歌Genie3)在核心共性、技术侧重和优劣势上各有特点 [45] - 世界模型在训练端可生成符合物理规律的高质量合成数据,解决真实数据稀缺与长尾场景覆盖问题;在推理端通过物理推理模型实现感知-决策-执行闭环控制 [59][60][65] 物理AI核心应用场景 数字孪生 - 数字孪生是实体资产和流程的虚拟映射,企业借助其优化设计、仿真与运营效率,成为工业数字化转型的核心工具 [48] - 数字孪生通过集成多维数据源构建虚拟模型,并依赖物联网实现数字与物理世界的动态同步 [49] - 该技术为企业带来显著效益,宝马集团通过工厂数字孪生将规划效率提升近30%,纬创实现气流仿真速度提高15000倍 [52] - 数字孪生已渗透至制造业、能源、医疗与城市管理等广泛行业,如富士康通过虚拟工厂优化机器人部署 [54][57] 智能驾驶与具身智能 - 智能驾驶及具身智能目前主流方案包括端到端、VLA(视觉-语言-动作模型)、世界模型 [3][69] - 端到端模型是目前最成熟的前期方案,但因其“黑箱”输出遇到稳定性瓶颈;VLA模型凭借可解释性及LLM模型能力基础表现优异,但对边缘侧算力要求过高;世界模型可实现更前瞻推理,支持复杂思维实验,可能成为未来重要商业化路线 [3][69] - 智能驾驶领域代表厂商:特斯拉(端到端)、小鹏/理想/元戎(VLA)、英伟达/华为/蔚来/Momenta(世界模型) [69] - 具身智能领域代表:Google RT-2(端到端)、Figure(VLA)、DeepMind/Meta(世界模型) [69] 物理AI产业链梳理 芯片及控制器 - 芯片与控制器是物理AI的硬件中枢,承担环境感知、实时计算与运动控制的核心功能 [73] - 英伟达基于Blackwell架构推出Jetson AGX Thor和DRIVE Thor计算平台,Jetson Thor的AI计算能力是上一代Orin的7.5倍,最高达2070 TFLOPS(FP4),能效是上一代的3.5倍 [73][75] - 主控芯片领域呈现多元化竞争格局,除英伟达外,高通、地平线以及小鹏、蔚来等自研芯片厂商均在特定场景实现差异化竞争 [75][76] - 控制器厂商价值量提升,智微智能推出完整的机器人“大脑-小脑”分层方案,天准科技发布新一代千TOPS级高算力具身智能大脑产品星智007 [77][80][81] 数据供应 - 符合物理规律的高质量数据是训练物理AI模型的前提,获取成本与规模构成核心壁垒 [85] - CAE仿真与合成数据生成成为物理AI的“数据工厂”,索辰科技利用多物理场仿真技术生成高保真合成数据 [85][86] - CAD厂商积累大量细分场景下具备物理属性的空间信息,群核科技发布高质量3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景 [88] - 3D视觉厂商(思看科技、奥比中光、凌云光)负责现实世界感知与数字化,为仿真提供初始模型并进行数据采集校准 [91] 模型和算法 - 模型与算法构成物理AI产业的“智能核心”,产业格局呈现四类主要参与者:全球科技巨头(英伟达、谷歌)、专注于空间智能与世界模型的第三方平台、第三方算法解决方案提供商(如Momenta)、整机厂自研(小鹏、理想、优必选) [95][96][97][101] 落地和应用 - 落地应用是物理AI价值的最终体现,系统集成商与行业解决方案提供商是推动技术赋能千行百业的关键 [102] - 该环节核心竞争壁垒体现在对垂直行业的深度理解、与底层技术平台的深度合作关系以及提供端到端解决方案建立的客户粘性 [102][103] - 亚信科技将自研数字孪生平台、MaaS平台、智能体平台与NVIDIA Omniverse集成融合,为网络、工业制造、城市治理等场景提供一站式数字孪生解决方案 [104] 产业链核心标的 - 控制器:智微智能、天准科技、德赛西威 [3][109] - 数据供应:索辰科技、群核科技(拟上市)、思看科技、奥比中光-UW、凌云光 [3][112] - 模型和算法:索辰科技 [3][112] - 落地和应用:亚信科技 [3][112] - 整机厂商:小鹏汽车-W、极智嘉-W [3][112]
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 12:09
文章核心观点 - VLA(视觉-语言-动作)领域在ICLR 2026会议上呈现爆发式增长,相关投稿量从去年的个位数飙升至164篇,增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力,是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣,但需明确VLA定义并关注其与LBM(大型行为模型)的区别,同时主流评测存在“性能天花板”问题,模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干,以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”,而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM,但LBM不一定是VLA,这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一:高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二:具身思维链(ECoT)**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三:动作分词器**:核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇,新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四:强化学习(RL)**:作为VLA策略的微调利器,代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五:效率优化**:通过推理效率优化(如HyperVLA)和显存占用优化(如AutoQVLA)降低硬件门槛,使VLA研究走向平民化 [27][28][32] - **趋势六:视频预测**:利用视频生成模型对时序动态和物理规律的理解,赋予VLA物理直觉,例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七:更真实的评测基准**:社区正开发新评测方式以打破对现有测试集的过拟合,如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八:跨体态学习**:通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新,让模型能驱动不同结构的机器人,是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”,开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异,工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量(噪声、歧义、次优行为限制模型上限)和上下文学习机制向机器人领域的迁移 [49]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 08:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
锦秋基金领投企业Manifold AI流形空间连获两轮共亿元融资,打造下一代具身智能世界模型|Jinqiu Spotlight
锦秋集· 2025-10-20 20:18
投资事件 - 锦秋基金已完成对Manifold AI(流形空间)的投资 [2] - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [3] - Manifold AI近期的天使轮融资由锦秋基金领投,同创伟业、英诺天使基金跟投,种子轮由英诺天使基金领投、水木清华校友种子基金跟投,两轮融资共亿元,资金将用于下一代具身世界模型的训练与场景落地 [4] 公司技术与定位 - Manifold AI聚焦世界模型与具身智能,原创的具身世界模型技术旨在推动机器人大脑的规模化落地 [6] - 公司提出WorldScape具身基座世界模型方案,具备Reasoning-Dreaming-Acting三位一体能力,利用海量第一人称视角视频数据进行预训练,有望实现物理空间智能涌现 [10] - 预训练模型能力的提升使得绑定本体的动作映射只需极少量In Context Learning数据即可实现,大幅降低部署成本 [10] - 其技术孵化自清华大学电子系未来智能实验室,是世界范围内首个全域布局室外、室内、空域具身世界模型的团队,相关工作DriveScape、RoboScape、AirScape已发表于CVPR2025、NeurIPS2025、ACM MM2025等顶级会议 [10] - Manifold AI已率先接入NVIDIA Jetson Thor开发者套件用于具身世界模型的本体部署 [12] 行业背景与趋势 - 通用机器人面临本体多、数据少、应用分散的落地困局,基于视觉-语言-动作模型的方案存在预训练精度低、需大量本体数据进行模仿学习的问题 [6] - 海外如Tesla Optimus、Figure AI团队已转向使用海量第一人称视角视频数据的技术路线,从第一性原理出发模拟人类学习过程 [6] - 世界模型技术被视为本质解法,可使互联网上所有第一人称视角视频数据成为机器人学习素材,达到类GPT预训练范式所需规模 [7] - 近期行业进展包括OpenAI发布Sora2视频生成模型周活跃用户达8亿,Google发布Genie3世界模型将物理一致上下文视频窗口拉长至分钟级别,李飞飞World Labs发布RTFM世界模型实现单图实时生成可持久化交互3D空间,NVIDIA Cosmos和Meta V-JEPA2世界模型也在具身场景取得突破 [7] - 世界模型路线能撬动更多网络视频和人类训练数据,具有更大规模化潜力,其时空预测能力驱动交互更符合人类物理直觉 [16] 团队背景 - 创始人兼CEO武伟博士为前商汤科技高管,2015年加入商汤初创,有数百人团队管理经验,曾主导商汤开悟世界模型的研发和落地 [13] - 联合发起人包括清华大学教授、教育部长江学者,在AI模拟和世界模型方向早期整体布局,发表过包括十余篇Nature子刊在内的数百篇学术论文 [15] - 另一位联合发起人为清华大学信息学院助理教授,15岁考入清华,多次入选全球前2%顶尖科学家 [15] - 核心团队成员毕业于清华、北大、上交、港中大、UCLA等高校,曾在快手、Momenta、商汤等企业构建过超千万级用户的AI产品,具备机器人与大模型双重背景 [12] - 团队融合智驾产业落地经验和清华前沿实验室技术资源,是国内探索世界模型方向的先锋 [16]