世界模型
搜索文档
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 20:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
赛道分化加剧,2026年人工智能最强风口来袭
36氪· 2025-12-03 16:57
文章核心观点 - 2026年将成为人工智能发展的关键分水岭,AI将从“AI+”的修补模式,演进为AI原生重构系统底层逻辑、物理AI打通虚拟与现实、多模态技术融合以及世界模型实现规律预判的深度变革阶段 [1] AI原生引发系统应用底层革命 - AI原生意味着以AI为系统设计的底层逻辑与能力中枢,驱动从技术架构、业务流程、组织角色到价值创造方式的全方位重塑,是AI未来发展的关键方向 [3] - AI原生架构与传统“AI+”架构存在根本差异:设计起点从现有业务流程转向AI能力边界;数据流向从业务系统抽取数据给AI模型,转变为数据实时流入AI中枢驱动业务;系统角色从“辅助工具”转变为“决策引擎”;迭代速度从月级提升至天级 [4] - 真正的AI原生系统具备三个显著特征:以自然语言交互为基础,实现GUI与LUI混合;具备自主学习和适应能力,能根据上下文和环境变化调整输出;具备基于大语言模型和知识库自主完成任务的能力,实现端到端闭环 [4][5] - AI原生开发平台趋势明确,低代码/无代码工具催生大量“一人公司”模式,巨头正将AI智能体深度嵌入办公套件实现端到端闭环 [8] - AI原生应用大规模普及的前提是具备完善的工具和框架体系,如部署管理大模型的Hub平台、自动化微调工具、知识图谱管理工具等,产品化工具的积累是其快速普及的关键 [8] - 在办公场景,AI原生应用可将知识工作者的重复劳动时间减少40%以上,2026年AI原生是To C端最确定的增量市场,其核心竞争力在于对用户习惯的重构 [8] - AI原生应用的技术架构、工具产品及方法论将在1~2年内演进并达到可大规模复用的成熟度,之后全面爆发,短期内“AI原生应用”与“传统应用+AI”将共存 [9] 物理AI向现实世界全面渗透 - 2026年的AI将以物理实体形态渗透到城市、工厂、医院、家庭等场景,实现从“感知”到“行动”的跨越,即物理AI [10] - AI发展经历三阶段:感知AI(理解图像、文字、声音)、生成式AI(创造文本、图像、声音),现在正进入物理AI时代,AI能够进行推理、计划和行动 [10][11] - 物理AI的技术基础建立在三个关键组件之上:世界模型(构建对三维空间及物理定律的理解)、物理仿真引擎(实时计算复杂物理交互)、具身智能控制器(生成具体控制指令) [11][12] - 物理AI成为主流趋势的原因:一是机器人、无人系统等智能设备的物理交互需求驱动,要求AI具备在真实环境中稳定、泛化的感知、理解与执行能力;二是AI技术演进加速赋能物理实体 [14] - IDC预测,到2026年,AI模型、视觉系统及边缘计算的进步将使机器人可实现的应用场景数量增加3倍,并在制造、物流、医疗、服务等多个领域广泛部署 [14] 多模态将成为AI基础能力 - 2025年,多模态大模型以强大的跨模态理解和推理能力,成为推动产业智能化升级和社会数字化转型的中坚力量 [15] - 多模态大模型能同时处理文本、图像、音频、视频、3D模型等多种数据类型,实现信息的深度融合与推理 [15] - 其能力体系围绕“跨模态理解”与“跨模态生成”两大核心构建:理解方面包括语义匹配、文档智能解析、多模态内容深层解读;生成方面可实现文本、图像、音频、视频等不同模态内容的相互生成 [15][16] - 多模态大模型还展现出多模态思维链和上下文学习等高级认知能力,为构建更接近人类认知方式的AI系统奠定了基础 [16] - 原生多模态技术路线成为重要进化方向,即在训练之初就将多种模态数据嵌入同一个共享的向量表示空间,实现不同模态间的自然对齐与无缝切换,无需文本中转 [16] - 2026年,多模态大模型将以前所未有的速度重塑各行各业,已在文物保护、安防、智能驾驶、内容创作、工业质检、政务服务等领域展现出巨大价值,正从实验探索迈向实际应用 [17] - 技术案例如Sora 2在视频与音频生成上实现物理逼真、镜头控制、音效同步等突破;Nano Banana Pro在图像生成与编辑方面支持多图融合、4K输出等 [17] 世界模型引爆AI新一轮增长 - 世界模型让AI从“数据驱动”转向“规律驱动”,通过构建虚拟世界模型模拟物理规则实现前瞻性决策,是2026年最具颠覆性和挑战性的领域 [19][21] - 世界模型的价值在于“泛化能力”,能够将已知场景的认知迁移到未知场景,例如让自动驾驶系统在未见过道路上基于物理规律理解安全行驶 [22] - 世界模型是一种能够对现实世界环境进行仿真,并基于多模态输入数据生成视频、预测未来状态的生成式AI模型,是AI系统对现实世界的“内在理解”和“心理模拟” [22] - 与大语言模型相比,世界模型的主要数据是感知数据、模拟数据和遥测数据;架构是编码器加潜在动态的混合架构;目标是预测环境状态以支持决策;训练范式是自监督或强化学习;应用集中于机器人、控制、模拟等领域;认知基础是物理性和因果性 [24] - 世界模型具有三大核心特点:内在表征与预测,能将高维观测数据编码为低维潜在状态并预测未来状态;物理认知与因果关系,能理解和模拟重力、摩擦力等物理规律;反事实推理能力,能进行假设性思考 [24][25] - 技术层面关键包括因果推理、场景重建时空一致性、多模数据物理规则描述等,全球主流模型有谷歌Genie3、英伟达COSMOS,国内有华为盘古、蔚来NWM等 [25] - 在自动驾驶领域,世界模型可生成高动态、高不确定性场景解决长尾问题,通过闭环反馈机制降低成本、提升效率,案例如蘑菇车联MogoMind实现实时数字孪生与深度理解服务 [25] - 在具身智能中,世界模型能提供大规模高质量合成数据解决数据缺口,并重塑开发范式,未来将构建“物理+心智”双轨建模架构 [26]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 08:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
华为重投,头部具身智能机器人创企发布并开源“最强”具身世界模型!
Robot猎场备忘录· 2025-12-03 08:03
文章核心观点 - 国内领先的通用具身智能企业极佳视界发布并开源了行业领先的具身世界模型GigaWorld-0,该模型在全球范围内首次实现世界模型生成数据在VLA训练中占比达到90%,并使模型性能提升近300% [2][6] - 公司定位为物理AI公司,是国内第一家专注「世界模型 x 具身大脑」方向的科技公司,采取软硬件全栈自研路线,同时布局本体和大脑 [8][11] - 公司在2025年融资活跃,已完成四轮融资,并获得华为哈勃等机构投资,显示出资本市场对具备强大AI能力且涉及本体的初创公司的青睐 [7][21] 技术突破与产品发布 - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,由GigaWorld-0-Video和GigaWorld-0-3D两大协同组件构成,分别负责生成视觉逼真的操作数据和确保几何结构与物理动力学的准确性 [2][4] - 公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0,实现了开放世界“零样本”泛化 [13] - 公司于10月31日正式开源三大AI基础设施框架GigaDatasets、GigaModels和GigaTrain,并于11月28日开源GigaBrain-0 [14][16] - 公司推出首款具身智能人形机器人通用本体Maker H01,拥有丰富的传感器配置和高度开放的接口 [16] 公司背景与团队 - 公司于2023年1月在北京注册成立 [8] - 创始人兼CEO黄冠为清华大学人工智能方向博士,是连续创业者,拥有超过十年的AI技术和产业经验 [9] - 核心团队兼具领先的研究能力和大规模的产业落地经验,是少有的同时具备计算机视觉和大模型经验的创始团队 [10][15] - 团队关键成员包括首席科学家朱政博士、工程副总裁毛继明、产品副总裁孙韶言博士和算法负责人陈新泽 [15] 融资情况 - 公司于2025年10月30日完成由华为哈勃、华控基金联合投资的亿元级A1轮融资 [7] - 公司于2025年8月28日完成Pre-A和Pre-A+两轮数亿元融资 [7] - 公司于2025年2月完成由普超资本等投资的数千万天使++轮融资,2025年已完成4轮融资,累计完成6轮融资 [7] - 极佳视界是华为投资的第二家具身智能领域创企 [7] 商业化进展 - 在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作 [18] - 在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作,应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景 [18] 行业趋势与公司定位 - 双系统架构技术路径VLA模型已成为具身智能领域模型主流,但仍旧存在数据、黑盒风险、泛化能力等问题 [19] - 未来机器人通用大模型的架构演进方向之一是将世界模型引入决策推理流程,作为具身智能的核心支撑模块 [20] - 具备强大AI能力且同时涉及本体的初创公司已成为资本市场关注重点,此类公司在2025年接连完成大额融资并取得商业化突破 [21] - 公司路线是具身智能大模型和人形机器人本体同时涉及,在软硬件上全栈推进 [21]
ChatGPT三岁生日,谷歌却为它准备了“葬礼”
虎嗅APP· 2025-12-03 07:55
文章核心观点 - ChatGPT发布三年后AI行业格局发生颠覆性变化,谷歌Gemini 3的强势崛起对OpenAI形成巨大竞争压力[8][9][17][34] - AI技术演进从纯文本对话发展到多模态应用爆发,彻底重塑人类生产效率和社会结构[28][29][33][34] - OpenAI采用独特的融资模式,通过合作伙伴承担近1000亿美元债务来支撑算力扩张,自身财务风险极低[53][54][55][63] 人类被改写的三年 - 2022-2023年:ChatGPT突破图灵测试防线,主要特点是"对话"交互,Prompt Engineering成为热门技术但迅速被AI自身能力瓦解[24][25][27] - 2024-2025年:多模态AI爆发,GPT-4o、Midjourney等模型具备图像、音频、视频处理能力,Vibe Coding和Cursor等工具重塑生产关系[28][29][33] - 2025年成为"奇点体验年",谷歌Gemini 3的卓越表现引发行业格局变化[34] 谷歌重生,OpenAI变天 - 谷歌Gemini移动应用月活用户从5月约4亿激增至6.5亿,用户使用时间已超过ChatGPT[37][39] - 行业领袖评价发生逆转,Hugging Face联合创始人称"天已经变了",Salesforce CEO表示"回不去了"[42][43][44] - OpenAI面临多重压力,内部员工感到竞争压力,公司产品线扩张过快可能影响专注度[46][48][49] OpenAI的独特融资模式 - 合作伙伴为OpenAI承担近1000亿美元债务,相当于全球六大企业借款人净债务总和[53][54][58] - OpenAI自身账上几乎没有欠款,仅拥有40亿美元信贷额度且未动用[55] - 具体债务分布:甲骨文/Vantage债务380亿美元,软银债务200亿美元,CoreWeave债务超100亿美元[53][60][61] - 甲骨文已发售180亿美元债券,未来四年可能还需借款1000亿美元完成OpenAI合同[64] 技术演进对比 - GPT系列性能持续提升:GPT-5在速度、推理能力、token效率、准确性和上下文保留方面均达到最佳水平[23] - OpenAI计划未来8年投入1.4万亿美元用于算力建设,与英伟达、甲骨文、AMD等达成巨额交易[49] - 技术发展带来社会影响:CS课程教授开始教"不写一行代码的"编程课,企业开始大规模裁员[11]
第七届全球智能驾驶大会在苏州举办
中证网· 2025-12-02 20:00
大会概况与主题 - 第七届全球智能驾驶大会于12月1日在苏州相城区举办,主题为“智联世界 驾驭未来” [1] - 大会旨在助力构建智能驾驶全球化发展新格局 [1] 技术发展趋势 - 自动驾驶领域当前正围绕端到端、VLA与世界模型等主流技术路线展开探索 [1] - 世界模型通过对物理环境的高维认知建模,使智能体具备“理解世界、预测未来、自主决策”的能力 [1] - 依托苏州丰厚的车路云数据资源,顶尖院所与行业领袖将全面启动世界模型联合研发,旨在攻克下一代智能驾驶核心技术,驱动产业范式变革 [1] 专题交流与产业生态 - 大会围绕“探索汽车智能化产品出海路径”和“构建汽车数字化与服务化出海生态”两大主题展开专题交流 [1] - 中国机电产品进出口商会、中国汽研、岚图汽车、轻舟智航、曹操出行、奥托立夫等机构与企业代表参与讨论 [1] 政策与法规进展 - 现场对《江苏省无人驾驶装备商业示范应用工作指引(试行)》进行了解读 [1] - 该《工作指引》的出台为无人驾驶技术走向市场化、规模化应用提供了重要指导 [1] 苏州产业发展现状 - 苏州正奋力打造全球领先的“智驾之城”,已集聚相关企业超800家 [2] - 苏州智能车联网产业规模达1100亿元 [2] - 苏州成功获批国家5G车联网验证与应用项目,以及国家首批智能网联汽车“车路云一体化”应用试点 [2] 研发平台与产业链 - 江苏省智能驾驶技术重点实验室在苏州市政府指导下,由苏州数智科技集团牵头,联合清华大学苏州汽车研究院、Momenta共同组建,并于今年正式获评省级重点实验室 [2] - 苏州构建了以智能汽车、基础支撑、信息交互为核心的产业链生态,覆盖自动驾驶算法、激光雷达、高精地图、高级辅助驾驶等30余个细分领域 [2] - 产业形成“1+5+4”空间格局:以相城区为核心区,常熟市、苏州工业园区、吴江区、吴中区、高新区为重点区,张家港市、太仓市、昆山市、姑苏区为联动区 [2]
Runway重夺全球第一!1247分碾压谷歌Veo3,没有千亿算力也能干翻科技巨头
新浪财经· 2025-12-02 19:45
行业地位与技术优势 - Runway Gen-4.5 在 Artificial Analysis 文本转视频排行榜中以 **1,247** 的 ELO 分数位列第一,超越了谷歌 Veo 3(1,226)、快手 Kling 2.5 Turbo(1,225)和 OpenAI Sora 2 Pro(1,206)等竞争对手 [1][2][5][23][24][28] - 该模型在视频生成的运动质量、提示词遵循度和视觉保真度方面树立了全新标杆,实现了前所未有的物理精确度,物体能以逼真的重量、动量和力量运动 [3][8][26][31] - 模型能够处理从照片级真实感、电影感到风格化动画的广泛美学风格,并在复杂场景、精细构图、物理准确性和生成富有表现力的角色方面表现出色 [8][31][32][34] 公司发展历程与市场定位 - Runway 是第一家将文生视频技术做成可供大众使用的 SaaS 产品的公司,于2023年初率先推出 Gen-1(视频生视频)和 Gen-2(文生视频)[7][30] - 公司是第一个让“AI视频生成”成为独立商业赛道的企业,其产品化进程早于谷歌 Imagen Video、Meta Make-A-Video 等实验室项目,甚至早于2024年初发布的 OpenAI Sora [7][30][31] - 创始人认为,与拥有无限资源的大厂竞争时,公司的核心优势在于对视频生成愿景的极度专注以及在有限资源下进行训练和推理效率的极度创新 [14][37] 技术理念与未来愿景 - 公司将视频模型视为“通用模拟引擎”,认为其通过学习大量观察数据能捕捉物理世界规律,超越了语言模型仅对现实进行抽象的局限 [18][41] - 模型训练被描述为一种需要“品味”和直觉的过程,涉及成千上万个参数的微调,而非依赖单一的“魔法按钮” [17][19][40][42] - 视频模型未来的应用场景被设想将远超影视制作,包括非线性娱乐体验、具身智能的合成数据训练以及个性化学习等 [23][46] 技术细节与开发基础 - Gen-4.5 在视频模型的预训练数据效率和后训练技术方面均取得显著进步,并成为用于世界建模的新基础模型 [5][28] - 整个模型的开发过程,从初期研发、预训练、后训练到推理,完全基于英伟达 GPU 完成 [9][32] - 尽管能力有飞跃,模型仍表现出物体恒存性、成功偏差和因果推理方面的常见限制 [9][10][32][33]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经· 2025-12-02 19:22
世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]
特斯拉再添一把火,「世界模型」如何重塑自动驾驶?
钛媒体APP· 2025-12-02 17:05
特斯拉FSD技术进展 - 系统采用以视频为主的多模态输入进入端到端模型,直接输出控制指令,感知、预测、决策、控制在单一神经网络中耦合回传[1] - 为应对输入数据量巨大的维度灾难,公司利用海量车队数据总结“关键token”,通过稀疏化和聚合保留最有用信息,以降低推理时延[3][4] - 在车端模型中引入可解释的中间输出,包括全景分割、3D占据网络、基于三维高斯渲染的场景重建和语言化输出,以辅助审视推理过程[6] - 生成式高斯喷溅技术具备更强泛化能力,生成场景仅需220毫秒,无需初始化,可建模动态物体,并能与端到端AI模型联合训练[9] - 开发神经世界模拟器,该模拟器基于自建海量数据集训练,可根据当前状态与下一步动作生成未来状态,用于闭环评估和生成对抗性场景[10][13] 世界模型的核心能力与定义 - 世界模型是一个生成式时空神经系统,将多模态输入压缩成潜在状态,该状态编码几何、语义信息及因果上下文,并能在潜在空间内推演环境未来[18] - 核心能力包括将高维多模态感知输入映射到低维潜在状态,该状态需包含环境几何、语义信息并能随时间更新以捕捉状态转移[20] - 需具备在给定候选动作条件下生成多步未来场景的能力,进行“假如采取此动作,场景会如何变化”的因果推理,而非单纯预测[21] - 模型生成的未来场景直接用于评估不同动作的风险和收益,实现预测与规划的深度耦合,从而在端到端框架中直接输出控制信号[22] - 需在潜在状态空间内表示多参与者的位置、速度、意图并跟踪其互动,同时给出一组可能的未来轨迹,而非唯一答案,以供系统权衡[23] 中国公司的世界模型实践 - 蔚来汽车发布中国首个驾驶世界模型NWM,可在100毫秒内推理216种可能驾驶场景并选取最优决策,能用3秒历史视频生成长达20秒的未来视频[28][30] - 蔚来NWM首个版本已推送,新增功能包括驾驶员失能处置升级为“自主安全靠边”、追尾预防与保护最大可将被动前移距离降低93%、通用障碍物预警增强等[33] - 华为坚持WA世界-行动模型路线,跳过语言层直接从多模态感知信息生成驾驶指令,其WEWA架构通过云端World Engine进行“梦境训练”并OTA下发参数至车端[36][39][40] - 商汤绝影推出“开悟”世界模型用于生成高保真仿真数据,可生成11个摄像头视角时空一致视频达150秒,日生产能力一块A100 GPU相当于10辆真实车采集能力[41][44] - 商汤WorldSim-Drive数据集包含超过100万段生成式驾驶片段,覆盖50多种天气与光照条件,目前已有20%的训练数据来自世界模型生成[44][45] 世界模型与VLA的路线对比 - 世界模型采用潜在时空表示,核心是一个可随时间演化的物理世界模拟器,通过自监督压缩器将感知数据编码为潜在状态并演化未来[46] - VLA模型以视觉-语言-行动统一架构为特征,引入大型语言模型将视觉感知映射为自然语言,利用语言链式推理生成决策或动作指令[46] - 世界模型推理依赖动作条件的内在仿真,在潜在世界中生成不同未来场景并用代价函数选择最佳动作,适合物理世界的对抗和长期评估[49] - VLA模型推理依赖语言链路,利用LLM的常识和逻辑推理能力通过自然语言解释场景、制定规则后输出控制信号,赋予系统更强可解释性[49] - 世界模型着重长时域、多主体和物理一致性,可生成复杂环境长期演化;VLA模型更强调语义推理与高层交互,具备链式思考能力[49]
世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源
量子位· 2025-12-02 12:59
文章核心观点 - 国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,首次实现VLA模型训练数据中90%由世界模型生成 [3] - 使用GigaWorld-0生成数据训练的VLA模型,在新纹理、新视角、新物体位置三大泛化维度上性能提升近300% [1][3] - 该突破标志着具身智能正式迈入数据高效、高泛化、低成本的新阶段,破解了高质量真实机器人交互数据稀缺的行业瓶颈 [3] GigaWorld-0模型架构与技术突破 - 模型由GigaWorld-0-Video和GigaWorld-0-3D两大协同组件构成,分别负责生成视觉逼真的操作数据和确保几何结构与物理动力学的准确性 [5] - GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer作为生成主干,显著降低内存占用与推理延迟 [7][9][10] - 在DiT前馈网络模块中集成混合专家架构,每个视频Token动态路由至多个专家网络,实现细粒度的内容控制 [11][12][13] - GigaWorld-0-3D融合生成式重建技术与可微分物理引擎,提升稀疏观测条件下的场景建模能力并精准复现机械臂交互的动力学行为 [14][16][18] 高效训练框架与性能 - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,通过将FP8与稀疏注意力结合,显著降低显存占用与训练成本 [19] - 自研的GigaTrain高效训练框架支持多种先进训练技术,在8×H20等常规硬件上可高效完成微调,并已全面开源 [20] - 在PBench基准测试中,尽管GigaWorld-0仅激活20亿参数,为对比模型中最小,却在整体评分上取得最高性能(Domain Overall Score: 82.07),领先于参数量更大的模型 [23][24][25] 公司背景与行业影响 - 极佳视界是国内首家以世界模型为切入点的物理AI公司,专注于世界模型平台与具身基础模型的双轮闭环 [27] - 公司核心团队拥有顶尖的研究能力和大规模的产业落地经验,技术已应用于自动驾驶、具身智能等多个方向 [27][28] - 公司在11月刚刚完成亿元级A1轮融资,由华为哈勃、华控基金联合投资,这是两个月内连续完成的第三轮融资 [29]