Workflow
空间智能
icon
搜索文档
李飞飞聊AI下一个十年:构建真正的空间智能
自动驾驶之心· 2025-11-12 08:04
文章核心观点 - 空间智能是人工智能的下一个前沿,旨在构建能够理解和交互物理及虚拟世界的“世界模型”,这将重塑创造力、机器人技术和科学发现等领域[5][16] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色,但在空间理解、物理推理和与环境交互方面存在根本性局限,与人类能力相距甚远[5][14][15] - 实现空间智能需要构建具备生成性、多模态性和交互性的世界模型,这是一项超越以往AI挑战的复杂任务,需要新的训练方法、大规模数据和模型架构[17][21][22] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常行为(如停车、接钥匙)到专业活动(如消防员救援、科学发现)的物理世界互动[10][13] - 该能力是人类想象力和创造力的基础,从史前洞穴壁画到现代电影、游戏和工业设计,都依赖于基于空间的想象力[10] - 在人类文明进程中,空间智能在关键科学发现(如埃拉托色尼计算地球周长、沃森和克里克发现DNA双螺旋结构)中扮演了核心角色[11][12] 当前AI在空间智能方面的局限 - 最先进的多模态模型在估算距离、方向、大小等基本空间任务上表现仅略高于随机水平,在“心智旋转”测试中能力极为有限[14] - AI生成的视频虽令人惊叹,但往往在数秒后便失去连贯性,无法预测基本物理规律,也无法识别捷径或穿越迷宫[14] - 当前AI对世界的理解是割裂的,缺乏人类那种将事物在空间上的关系、意义及彼此关联进行整体性理解的能力[15] 构建空间智能世界模型的核心框架 - **生成性**:模型需能生成在语义、几何和物理层面保持一致的虚拟世界,并且对当前世界的理解必须与过去状态保持连贯[18] - **多模态性**:模型应能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并预测或生成完整的世界状态[19] - **交互性**:当动作或目标成为输入时,模型需能生成与先前世界状态、物理规律相一致的下一个世界状态,甚至预测实现目标所需的后续行动[20] 实现世界模型的技术挑战与研究方向 - **新的通用训练任务函数**:需要定义能反映几何与物理规律的通用目标函数,其复杂程度远超语言模型中的“下一token预测”[23] - **大规模训练数据**:需研发能从互联网海量二维图像或视频帧中提取深层空间信息的算法,并利用合成数据及深度、触觉等额外模态[24] - **新型模型架构与表征学习**:需突破现有MLLM与视频扩散模型范式,探索具备三维或四维感知能力的分词、上下文和记忆机制[25] 空间智能的潜在应用与影响 - **创造力与叙事**:工具如World Labs的Marble平台正赋能电影制作人、游戏设计师和建筑师快速创建可自由探索的三维世界,颠覆传统创作流程[32][33] - **机器人技术**:世界模型将通过提供可扩展的训练数据解决方案,缩小模拟与现实差距,加速具备泛化能力的机器人的发展[35][36] - **科学、医疗与教育**:空间智能系统能模拟实验、加速药物发现、实现沉浸式学习,在拯救生命和加速科学发现方面具有深远影响[38][39][40]
腾讯研究院AI速递 20251112
腾讯研究院· 2025-11-12 00:06
生成式AI行业人才与战略布局 - OpenAI成功招募英特尔CTO兼首席AI官Sachin Katti,由其负责为OpenAI打造面向AGI的算力基础设施 [1] - Katti拥有20多年无线通信和AI基础设施领域经验,曾创办多家科技公司并在斯坦福任教,今年4月刚被英特尔提拔为CTO [1] - OpenAI计划未来8年斥资约1.4万亿美元打造AI基础设施,Katti的加入对公司自主算力布局意义重大 [1] 语音识别与多语言模型进展 - Meta AI FAIR团队发布Omnilingual ASR语音识别模型套件,能为超过1600种语言提供自动语音识别能力,78%语言字符错误率低于10% [2] - 该框架采用社区驱动设计,用户仅需提供少量样本即可将模型扩展到新语言,首次实现大规模ASR框架的上下文学习能力 [2] - 同时开源Omnilingual ASR Corpus数据集(覆盖350种服务欠缺语言)和70亿参数的Omnilingual wav2vec 2.0语音表征模型 [2] 空间智能与代码模型开源发布 - 商汤发布并开源SenseNova-SI系列空间智能大模型(2B和8B版本),其中8B模型在四个核心空间智能任务上平均成绩60.99,领先GPT-5和Gemini-2.5-Pro [3] - 该系列模型首次在空间智能领域验证了“尺度效应”,构建了六大核心维度的空间能力分类体系,包括空间测量、空间重构、视角转换等 [3] - 火山引擎推出Doubao-Seed-Code代码模型,调用价格降低,0-32k区间输入仅1.20元/百万Token,是支持视觉理解能力的编程模型,可参照UI设计稿生成代码 [3] 前沿科技与基础设施创新 - 浙江大学和新加坡南洋理工大学首次系统性提出在太空构建碳中和数据中心的完整技术框架,利用近乎无限的太阳能和深空散热条件 [4] - 研究提出两种方案:在遥感卫星上集成AI加速器构建“轨道边缘数据中心”,以及组建计算卫星星座形成“轨道云数据中心” [4] - 创新性提出“全生命周期碳利用效率”评估模型,初步建模显示长期碳效率有望超越中等碳强度地面数据中心 [4] AI能力发展预测与行业应用现状 - Anthropic研究员指出AI长任务能力每7个月翻一番,预测2026年中期模型将能自主工作8小时,年底前至少有一个模型在多个行业匹配人类专家 [5] - 麦肯锡调查显示88%组织至少在一个业务环节使用AI,但仅39%表示AI带来实质性财务回报(EBIT增长) [7] - 62%组织已试验AI Agent类应用,但真正在任何一个部门推AI Agent的公司不到一成,高绩效企业中50%打算推动AI主导的变革性改变(普通企业仅14%) [7] 模型研发理念与下一代AI方向 - 月之暗面核心团队打假Kimi K2训练成本460万美元传言,称训练成本很难量化,已在研究K2的VL版本 [6] - 杨植麟解释K2 Thinking现阶段优先考虑绝对性能而非token效率,KDA混合线性注意力模块可能出现在K3中 [6] - 李飞飞发表长文强调空间智能是人类智能基石,定义世界模型必须具备生成性、多模态性、交互性三种能力 [8] AI社交平台发展与用户参与 - Sora上线40天内实现近200万周活跃用户,其中70%用户参与创作,远超传统互联网90-9-1规则 [9] - 团队将Sora定位为社交创作平台而非单人工具,推荐算法优先推送“有二创价值”内容,强调真实人际关系和共创体验 [9] - 采用积分制灵活变现,平衡平台、创作者和版权方三方利益,通过降低创作门槛实现用户民主化创作 [9]
AI教母李飞飞:空间智能才是走向AGI的唯一路径
虎嗅APP· 2025-11-11 18:52
文章核心观点 - 当前大语言模型存在根本性局限,被描述为“能言善辩却缺乏经验,知识渊博却脱离现实”的“睁眼瞎”,无法真正理解物理世界[4][7][28] - AI发展的下一步关键方向是赋予机器“空间智能”,即理解和交互物理世界的能力,这被视为通往通用人工智能(AGI)的唯一路径[4][17][28] - 空间智能的载体是全新的“世界模型”,其具备生成性、多模态和交互性三大核心能力,将取代以语言模型为中心的发展路线[17][18][38] AI当前局限与空间智能定义 - 大语言模型在需要物理世界理解的简单任务上表现不佳,例如无法准确回答杯子旋转90度后的样子或预测物体运动轨迹[5][8][36] - AI生成内容(如视频)经常出现违背物理定律的“穿帮”镜头,例如人物多出手指或物体穿墙而过,暴露了其缺乏对物理规律的基本认知[6][36] - 空间智能是人类与生俱来的基础认知能力,是想象力和创造力的“脚手架”,使人类能够进行侧方停车、接住抛来的钥匙、在黑暗中倒水等日常活动[12][14][32][34] - 人类历史上的重大科学发现和发明创造,如埃拉托斯特尼计算地球周长、沃森和克里克发现DNA双螺旋结构,都深刻依赖于空间智能[21][34] 世界模型的核心特征与技术挑战 - 世界模型必须同时具备三种基本能力:生成性(创造符合物理和几何规律的3D世界)、多模态(处理文本、图像、视频、深度信息、手势等多种输入)、交互性(预测动作指令下的世界状态变化)[18][22][39][40][41] - 构建世界模型的技术挑战远超语言模型,因为世界是四维(三维空间+时间)且受无数复杂物理定律约束,而语言只是一维的序列化信号[18][42] - 关键技术障碍包括:定义能同时反映几何和物理定律的通用训练任务函数、从海量互联网图像和视频等二维数据中提取深层空间信息、开发全新的三维或四维模型架构[44][45][46] 空间智能的应用前景与行业影响 - 在创意产业,World Labs的Marble模型将赋能电影制作人、游戏设计师和建筑师,通过自然语言提示词快速创建和迭代可交互的3D世界,大幅降低专业3D软件的使用门槛[23][49] - 在机器人技术领域,世界模型能通过模拟环境为机器人提供海量训练数据,使其掌握成千上万种实用技能,从而成为家庭、医院等场景中得力的助手和看护[23][52] - 在科学研究中,空间智能系统可模拟人类无法亲临的环境(如深海、外太空),并行测试假设,加速在材料科学、气候科学和医学等领域的发现进程[27][56] - 在教育领域,学生可通过沉浸式体验“走进”古罗马街道或细胞内部,教师能利用互动环境进行个性化教学,专业人士可在高度逼真的仿真环境中练习复杂技能[27][56]
LLM只是“黑暗中的文字匠”?李飞飞:AI的下一个战场是“空间智能”
36氪· 2025-11-11 18:22
文章核心观点 - AI发展的下一个关键前沿是“空间智能”,旨在解决当前AI(尤其是大语言模型)缺乏对物理世界常识和空间规律理解的根本缺陷 [1][4][12] - 空间智能被定义为连接感知、想象和行动的终极能力,是推动AI实现下一次巨大飞跃并迈向通用人工智能(AGI)的关键 [3][4][14] - 实现空间智能需要构建超越现有范式的“世界模型”,该模型需具备生成性、多模态和交互性三大核心能力 [14][15][16][17] 当前AI的局限性 - 当前AI被比喻为“黑暗中的文字匠”,虽掌握海量抽象知识,但对物体形状、力学作用、空间导航等物理世界常识几乎一无所知 [1][12] - 顶尖多模态模型在估算距离、方向、尺寸或进行物体“心理旋转”时表现接近随机猜测,无法预测基础物理现象,导致生成视频在数秒后失去连贯性 [12] - 这种缺陷严重限制了自主机器人、沉浸式元宇宙体验等应用的发展,使其仍处于早期概念或雏形阶段 [1][8] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常动作(如停车、接钥匙)到专业活动(如消防员救援、科学家发现DNA结构)的一切空间互动 [9][10][11] - 它是想象与创造的根基,从史前岩画到现代工业设计、数字孪生和机器人训练,都依赖于基于空间的想象力 [10] - 对AI而言,空间智能意味着超越语言界限,通过想象、推理、创造与互动来理解世界,而不仅仅是描述世界 [13] 实现空间智能的技术路径 - 核心是构建“世界模型”,这类新型生成模型需能理解、推理、生成及与语义-物理-几何-动态复合的虚实世界互动 [14] - 模型需具备三大能力:1)生成性:创造符合几何与物理规律的虚拟空间 [15];2)多模态:处理图像、视频、文本、手势等多样输入 [16];3)交互性:基于行动推演世界状态,并能推导达成目标的行动序列 [17] - 面临的关键技术挑战包括:定义新型通用训练目标函数、获取并处理大规模多模态训练数据、开发能处理三维/四维信息的新型模型架构 [18][19] 空间智能的应用前景 - 在创意产业,如World Labs的Marble平台,可使电影制作人、游戏设计师快速创建可探索的3D世界,降低传统3D设计成本,开启新维度的叙事与沉浸式体验 [20][22][23] - 在机器人技术领域,世界模型能通过模拟数据缩小模拟与现实差距,训练机器人具备感知、推理、规划和行动能力,应用于实验室辅助、家庭护理等场景 [24][25] - 长远来看,空间智能将深刻影响科学(模拟实验、加速材料研究)、医疗保健(药物发现、医学影像诊断)和教育(沉浸式学习、技能培训)等领域 [26][27] 行业影响与未来展望 - 空间智能被视为AI未来十年的决定性课题,其发展需要整个AI生态系统(研究人员、创新者、企业、政策制定者)的共同参与 [21] - 该技术旨在增强人类能力而非取代人类,目标是提升创造力、加速发现并放大人类关怀,同时尊重人类的判断力、创造力和同理心 [21][27] - 公司如World Labs已展示初步成果(如Marble模型),但完全释放空间智能潜力仍面临严峻挑战,是未来十年的核心研发方向 [20][28]
李飞飞终于把空间智能讲明白了:AI 的极限不是语言,世界远比文字更广阔!
AI科技大本营· 2025-11-11 17:08
文章核心观点 - 当前人工智能的发展范式存在核心局限,过度依赖语言模型而缺乏对物理世界的理解,行业需要从“语言智能”向“空间智能”进行根本性的范式转换 [5][6][15] - 空间智能是人工智能的新疆界,其目标是构建能够理解、推理并与语义、几何、物理和动态上都极为复杂的真实或虚拟世界互动的“世界模型” [6][16][21] - 李飞飞及其创立的World Labs公司正致力于构建世界模型,其首个产品Marble已能通过多模态输入生成并维持一致的三维环境,为创意、机器人、科学发现等领域带来变革 [6][22][24][26] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,驱动着推理、规划以及与物理世界的互动,是想象力和创造力的基础 [10][12][13] - 当前最先进的多模态大语言模型在空间感知能力上存在根本性局限,其表现往往不比随机猜测好多少,无法有效估算距离、方向、尺寸或预测基本物理现象 [14][15] - 空间智能将连接想象、感知与行动,为机器在医疗健康、创意表达、科学发现和日常辅助等领域真正改善人类生活开辟可能 [15][24][29] 世界模型的技术框架与原则 - 构建具备空间智能的人工智能需要世界模型,其能力远非当今的大语言模型所能及,该领域尚处萌芽阶段,是未来十年最具决定性的挑战 [16][21] - 世界模型需具备三大基本能力:生成性(生成具有感知、几何和物理一致性的世界)、多模态(处理多种形式的输入)、交互性(能根据输入的动作输出下一个状态) [17][19][20] - 实现世界模型面临巨大技术障碍,包括需要定义通用的训练任务函数、利用互联网规模的图像视频数据作为训练材料、以及开发超越当前范式的新模型架构 [23] 空间智能的应用前景 - 在创造力领域,World Labs的Marble平台将为电影制作人、游戏设计师等提供前所未有的空间能力和编辑可控性,快速创建可完全探索的三维世界 [22][26][27] - 在机器人技术领域,世界模型将通过提供模拟数据和训练环境,规模化机器人学习,使其成为能在各种场景下协助人类的伙伴与协作者 [24][28][32] - 在更长远的未来,空间智能将深远影响科学、医疗和教育领域,例如加速药物发现、增强医学影像诊断、以及实现沉浸式学习等 [29][30]
开源又赢闭源,商汤8B模型空间智能碾压GPT-5,AI看懂世界又进了一步
36氪· 2025-11-11 16:45
产品发布与性能表现 - 商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个参数版本 [1] - SenseNova-SI-8B模型在四大核心基准测试(VSI-Bench、MMSI-Bench、MindCube-Tiny、ViewSpatial)中获得60.99的平均成绩,大幅领先同级别开源及专注空间理解的模型,如Qwen3-VL-8B(40.16)和SpatialMLLM(35.05)[1] - 在8B参数规模下,该模型平均成绩已领先闭源模型GPT-5(49.68)与Gemini-2.5-Pro(48.81)[2] 技术突破与训练方法 - 性能提升得益于系统性的训练机制设计,公司研究团队构建了“空间能力分类体系”并扩充空间理解数据规模 [2] - 首次在空间智能领域验证了“尺度效应”,即随着数据量与质量的增长,模型的空间认知能力同步增强 [5] - 该训练方法具备通用性,能支持多种基座模型进行空间能力的增强迁移 [5] 具体能力对比与优势 - 在六道典型空间智能题目测试中,SenseNova-SI-8B全部答对,而GPT-5在俯视图判断、相对方位判断等题目上均出现误判 [6][8][10][12][15][16] - 测试题目覆盖空间智能多个关键维度,包括视角转换、物体方位与移动方向推理等,显示该模型在空间理解与推理上表现更稳定 [18] 战略整合与行业应用 - SenseNova-SI作为空间能力组件,将接入公司今年7月发布的“悟能”具身智能平台,补强模型在三维结构认知方面的基础能力 [19] - 公司同步开源了空间智能测评平台EASI,旨在统一测评口径、展示模型进展和推动开源生态合作 [19] - 空间智能是支撑具身智能与世界模型发展的核心能力,将为自动驾驶、机器人等落地应用提供更坚实的基础 [24]
李飞飞最新发文:下一个十年,空间智能将成为人类认知的“脚手架”
钛媒体APP· 2025-11-11 14:19
文章核心观点 - 空间智能是人工智能尚未攻克的下一个前沿,其本质是构建对物理世界的整体认知,超越当前AI仅擅长处理文本和二维图像的局限 [3][7][19] - 世界模型是解锁空间智能的关键技术路径,这是一种新型生成模型,旨在理解、推理、生成并与复杂世界互动,其能力远超现有大型语言模型 [8][27][30] - 空间智能的应用将重塑多个行业,包括创意领域、机器人技术、科学发现、医疗健康和教育,其核心价值在于增强人类能力而非取代人类 [12][34][40] 空间智能的定义与核心价值 - 空间智能是人类认知的“脚手架”,支撑着与物理世界的日常互动,是想象力、创造力与文明进步的底层动力 [3][5][23] - 空间智能的本质是“整体化的世界观”,涵盖万物在空间中的关联、意义与价值,使人类既能被动观察世界,也能主动创造世界 [5][24][25] - 历史上诸多文明突破以空间智能为核心驱动力,例如埃拉托斯特尼计算地球周长、珍妮纺纱机提升生产力八倍、沃森与克里克发现DNA结构 [4][24] 当前AI在空间智能领域的局限 - 尽管生成式AI已能生成连贯文本和照片级图像,但当前AI的空间能力仍“远不及人类”,在估计距离、方向、物体大小或进行“心理旋转”时表现不佳 [6][25] - 现有AI系统本质上是“黑暗中的文字匠”,擅长处理文本序列与二维图像,却无法构建对物理世界的整体认知,缺乏想象、推理、创造与互动能力 [7][19][25] - AI生成的短视频常在几秒后失去时空连贯性,最先进的机器人也仅能在高度受限的环境中完成简单操作 [6][25] 世界模型的技术路径与核心能力 - 世界模型具备三大核心能力:生成能力(生成感知、几何和物理一致的模拟世界)、多模态能力(处理图像、视频、文本、手势等输入)、交互能力(根据动作预测新世界状态) [9][10][28] - 交互能力的本质是“理解因果关系”,模型需从海量数据中学习动作与结果的关联,掌握世界运行的底层逻辑,实现“动作-状态-动作”的闭环响应 [10][11][30] - 世界实验室已展示首个成果“Marble”,这是首个可通过多模态输入提示生成并维持一致3D环境的世界模型,计划尽快向公众开放 [11][33][34] 空间智能的应用前景 - 在创意领域,空间智能将重构叙事与设计的创作范式,实现“所想即所得”,大幅降低创意落地的时间与成本门槛,例如帮助建筑师快速可视化未建成结构 [13][35][36] - 在机器人领域,世界模型能通过模拟生成海量训练数据,加速机器人学习过程,使其从简单工具转型为人类的智能伙伴与合作者,例如协助科学家处理实验仪器或帮助老年人完成家务 [14][37][38] - 在科学、医疗与教育领域,空间智能将模拟复杂实验场景、加速药物研发、实现沉浸式学习,例如让学生“身临其境”探索细胞机制或历史事件 [15][16][39][40] 发展愿景与行业影响 - AI发展的驱动力是增强人类能力,空间智能正是这一愿景的体现,旨在赋能人类创作者、护理者、科学家与梦想家 [34][40][42] - 实现空间智能需要整个AI生态系统的集体努力,包括研究者、创新者、企业与政策制定者的协作 [34][41] - 空间智能将成为AI下一个十年的核心赛道,世界模型有望引领人类进入“智能普惠”的新纪元 [18][34][42]
李飞飞万字长文爆了!定义AI下一个十年
36氪· 2025-11-11 11:00
AI的下一个前沿,是「空间智能」。 它是一项能让「看见」升华为「推理」,让「感知」蜕变为「行动」,让「想象」落地为「创造」的技术。 但「空间智能」究竟是什么?为何如此重要?该如何构建它?又该如何应用它? 今天,李飞飞撰万字长文分享了自己关于构建和使用「世界模型」以解锁空间智能的思考。 新文章中,她为真正具备空间智能的「世界模型」所需达成的目标勾勒了一个框架。 具体来说,构建这样的AI必须具备三大核心能力: 让AI拥有故事讲述家的想象力去创造, 拥有急救人员般的敏捷性去导航, 并拥有科学家的严谨去推理空间。 李飞飞与LeCun共识的一点是,「世界模型」是解锁空间智能的核心。 它必须能生成遵循物理定律、在空间上保持一致的世界,能处理从图像到动作的多模态输入,并能预测这些世界将如何演变或与之互动。 空间智能的应用疆域,正沿着一条清晰路径演进。 当下,它正赋能创意,World Labs Marble项目已经将这些能力交到了创作者和故事讲述者的手中。 下一步,它将驾驭物理世界,机器人实现感知与行动之间的闭环。 而最具变革性的科学应用,虽然需要更长时间,但有望对人类福祉产生深远影响。 哲学家维特根斯坦曾写道:「我语言的极 ...
李飞飞最新长文火爆硅谷
量子位· 2025-11-11 08:58
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心在于构建能够理解、推理、生成并与物理世界交互的“世界模型”,这将推动AI实现从处理抽象知识到理解物理现实的质的飞跃 [1][6][28] - 当前以大语言模型为代表的AI在空间智能方面存在根本性局限,无法像人类一样进行空间推理、物理规律预测和连贯的世界生成 [22][23][24] - 具备空间智能的世界模型必须拥有三项核心能力:生成性(创造物理一致的世界)、多模态(处理图像、视频、动作等输入)、交互性(预测世界随互动演变的状态) [5][31] - 空间智能的应用潜力巨大,将彻底革新创造力(如叙事、游戏设计)、机器人技术、科学发现、医疗和教育等多个领域 [4][27][51] 空间智能的定义与重要性 - 空间智能是支撑人类认知的脚手架,驱动着人类的推理、规划及与世界互动的方式,体现在日常动作(如停车、接钥匙)和极端情况(如消防员救援)中 [14][15][20][21] - 人类通过空间智能推动文明进步,历史案例包括埃拉托色尼计算地球周长、珍妮纺纱机的发明、DNA双螺旋结构的发现 [18][19] - 空间智能是人类想象力与创造力的基石,从原始洞穴壁画到现代电影、电子游戏,都依赖于以空间为根基的想象 [17] 当前AI在空间智能方面的局限 - 多模态大语言模型虽具备初步空间感知能力,但在估计距离、方向、大小等任务上表现不佳,无法进行“心智旋转”或预测基本物理规律 [23] - 顶级AI擅长阅读、写作和模式识别,但在对物理世界的表征或交互上存在根本性局限,生成的视频常在几秒后失去连贯性 [23][24] - AI缺乏人类整体性理解世界的方式,即同时理解物体在空间上的关系、语义意义及现实重要性 [25] 世界模型的核心能力与构建挑战 - **生成性**:模型需能生成具有几何、物理与动态一致性的虚拟世界,其输出应允许生成显式、可观测的世界状态,并保持时间上的连贯 [31][32][33] - **多模态**:模型需能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并以多样的方式输出 [34][35][36][37] - **交互性**:当动作或目标作为输入时,模型需能生成与世界先前状态、物理规律相一致的下一个状态,未来甚至能预测下一步行动 [38] - 构建世界模型面临巨大技术壁垒,因其需要协调语义、几何、动力学与物理等远比语言复杂的多维规则 [39][40][41][42] World Labs的研究进展与方向 - 公司致力于世界模型的基础性突破,研究方向包括定义新的通用训练任务函数、利用大规模图像视频数据、开发新的模型架构与表征学习 [43][44] - 开发了基于帧的实时生成模型RTFM,以空间为基础的帧作为记忆形式,实现高效实时生成并保持一致性 [45] - 推出了Marble的早期版本,这是全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,旨在让用户探索和构建创意世界 [46] 空间智能的应用潜力 - **创造力**:工具如Marble平台将空间表达能力赋予电影人、游戏设计师等,使其能快速创造、迭代三维世界,实现多维叙事体验 [51][52][53] - **机器人**:空间智能是实现具身智能的关键,将使机器人能理解、导航并与世界交互,中期目标是完善感知与行动的闭环 [54][55][60] - **科学**:具备空间智能的系统可模拟实验、验证假设,探索从深海到外星的环境,变革气候科学、材料研究等领域的计算建模 [56] - **医疗**:AI可通过多维建模加速药物研发,辅助影像诊断,支持环境感知式监护系统,并发挥机器人在辅助医护方面的潜力 [56] - **教育**:能实现沉浸式学习,让抽象概念可感知,学生可多维探索细胞或“亲历”历史,专业人士可在仿真环境中练习技能 [57] 行业影响与未来愿景 - 空间智能模型将推动造世界的权力从专业团队扩展到个体创作者、教育者,结合VR/XR设备带来全新的沉浸与互动体验 [59] - 世界模型生成的仿真数据将极大促进机器人学习,缩小模拟与现实的差距,使其能在海量状态和环境中学习 [60] - 未来的创新将来自多样化的机器人设计(如纳米机器人、软体机器人),世界模型需对环境与机器人感知进行一体化建模 [60] - 该技术旨在增强而非取代人类,目标是让AI成为拓展人类能力、加速发现、放大关怀的力量,提升生命价值 [47][50][57][62][63]
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
机器之心· 2025-11-11 07:47
文章核心观点 - 空间智能是人工智能的下一个前沿,它将彻底改变人类创造和交互现实与虚拟世界的方式,重塑叙事、创意、机器人学、科学发现等领域 [5][17] - 当前以大语言模型为代表的AI在空间智能方面与人类存在巨大差距,缺乏对物理世界的整体性理解和交互能力 [14][15] - 实现空间智能需要构建全新的“世界模型”,该模型需具备生成性、多模态性和交互性三大核心能力 [17][18][19][20] - 空间智能的应用潜力巨大,将赋能创造力、机器人技术、科学、医疗和教育等多个领域,其目标是增强而非取代人类能力 [30][38][40] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,定义了人类如何与物理世界互动,是想象力与创造力的基础 [10][13] - 人类依赖空间智能完成日常行为,如停车、接钥匙、在人群中穿行等,这种流畅性是机器尚未具备的 [10] - 在人类文明发展的关键时刻,空间智能屡次扮演核心角色,例如埃拉托色尼计算地球周长、发明珍妮纺纱机、发现DNA双螺旋结构等 [11][12] - 当前最先进的多模态AI模型在估算距离、方向、大小等任务上表现仅略高于随机水平,无法预测基本物理规律,生成的视频缺乏连贯性 [14] 构建空间智能世界模型的框架 - 世界模型是一种新型生成式模型,需在语义、物理、几何与动态等多重复杂世界中进行理解、推理、生成与交互 [17] - 核心能力一:生成性——能生成在感知、几何与物理层面保持一致的世界,对世界的理解必须与过去状态保持连贯 [18] - 核心能力二:多模态性——能处理多种形式的输入(如图像、视频、文本指令、手势等),并预测或生成完整的世界状态 [19] - 核心能力三:交互性——能根据输入的动作生成下一个世界状态,输出需与物理规律及动态行为相一致 [20] - 构建世界模型面临三大挑战:定义通用训练任务函数、获取和处理大规模多模态训练数据、开发新型模型架构与表征学习算法 [23][24][25] 空间智能的应用前景 - 在创造力领域,空间智能将改变故事创造与体验方式,例如World Labs的Marble平台使创作者能快速创建并迭代可自由探索的三维世界 [32][33] - 在机器人领域,世界模型将扩展机器人的学习能力,通过仿真训练帮助机器人理解、导航并与物理世界互动,成为人类的伙伴与协作者 [34][35][36] - 在科学、医疗与教育等长远领域,空间智能能模拟实验、加速药物发现、实现沉浸式学习,从而增强人类的专业能力与加速发现 [38][39][40] - 空间智能的应用涵盖不同时间维度,从面向创作者的工具到中期的机器人学雄心,再到长期的变革性科学应用 [30]