Workflow
ImageNet
icon
搜索文档
深度|AI教母李飞飞:AI绝对是一种文明级技术;人们正在忽视“人”在AI中的重要性
Z Potentials· 2026-01-10 11:49
文章核心观点 - 李飞飞博士的成长经历、学术背景与人文思考共同塑造了她对人工智能发展的独特视角,她强调AI的发展史是集体智慧的结晶,而非单一英雄的旅程 [9][27] - ImageNet的成功源于在正确时机提出了“大数据”的关键科学假设,并结合了众包等创新方法,其标志着现代AI诞生的关键拐点 [20][21][29] - 当前AI浪潮中,技术本身和增长被过度讨论,而“人”的核心地位——包括人的尊严、主体性和在AI发展中的发言权——被严重忽视 [38][41] - 李飞飞博士创立的WorldLabs致力于开发空间智能(spatial intelligence),这是继语言智能后下一个关键的AI前沿,旨在赋能创作、设计、机器人仿真等多个领域 [45][47][56] - 面对AI的未来,培养“学习如何学习”的能力比传统学位更重要,同时需要重新设计教育评估体系,以引导人们善用AI工具实现能力倍增 [57][58][60] 个人背景与成长经历 - 李飞飞博士的童年是一段“双城记”,在北京出生,成都长大,15岁移民美国新泽西 [13] - 其父亲热爱自然、充满童心,对成绩和奖项完全不关心,这与许多人对“中国父母”的刻板印象不同 [14] - 其母亲非常自律,要求专注,并展现了在陌生环境中生存下去的坚定信念 [16] - 高中数学老师Bob Sabella是其重要的导师,曾牺牲午休时间一对一为其补课,这体现了教育者的巨大付出 [16] - 在普林斯顿大学本科期间,她同时在校园图书馆打工(时薪约6美元)并帮助家庭经营干洗店长达七年,这段经历赋予了她关注社会各阶层的广泛视角 [8][17] ImageNet的诞生与意义 - ImageNet是一个在2007年至2009年间构建的大规模计算机视觉数据集,旨在用于训练和评估视觉智能 [20] - 其真正意义在于标志着大数据时代的关键拐点,在此之前的AI领域并未真正使用“大数据”,发展处于停滞(即“AI寒冬”) [20] - 现代AI的诞生源于三大关键要素在2012年的汇聚:ImageNet提供的大数据、GPU提供的并行计算能力以及神经网络算法 [21] - ImageNet的灵感部分来源于心理学研究,例如Irv Biederman教授关于儿童视觉学习能力的工作,体现了跨学科思想碰撞的重要性 [26] - 项目成功的关键在于将“视觉物体分类”定义为正确的科学假设,而不仅仅是追求数据规模 [29][31] ImageNet的执行与挑战 - 构建ImageNet面临的核心挑战是需要对数千万张高质量图像进行人工标注,工作量巨大 [32] - 团队最终采用亚马逊的Mechanical Turk平台进行众包,利用全球在线人力进行大规模并行处理,从而标注了数十亿张图像并筛选出1500万张高质量图像 [34] - 为确保数据质量,团队设计了多步骤质量控制机制,包括前置测试和混入已知答案的“黄金标准”图片进行隐性监控 [36] - 正确的激励机制设计对于防止标注者作弊(如在每张图都标出熊猫)至关重要 [35][36] 对当前AI发展的观察与批判 - AI是一种“文明级技术”,对美国经济影响深远,有说法称去年美国4%的GDP增长中有50%(即2个百分点)可归因于AI [38] - 当前讨论过于聚焦技术、增长与少数“天才”,而忽视了无数代科学家、工程师和跨学科研究者的集体贡献 [27][28] - 人们正在忽视“人”在AI中的核心地位:是人创造、使用并受AI影响,人也应拥有对AI发展的发言权,人的尊严不应被剥夺 [9][41] - 李飞飞博士自称为“务实的乐观主义者”,不相信乌托邦或末日论两种极端,并指出美国与西欧对AI的担忧比其他地区更甚 [43] WorldLabs与空间智能 - WorldLabs是李飞飞博士创立的公司,致力于构建下一代AI,其技术核心是开发空间智能(spatial intelligence) [45] - 空间智能是人类观察、理解并与三维世界互动的能力,例如将三明治装袋、粉刷房间或在山地徒步 [47] - 相比语言智能,AI在空间智能方面仍处于非常早期的阶段 [47] - WorldLabs的模型(代号Marble)允许用户通过文字或图片提示,快速生成可探索的三维世界,应用于舞台布景设计、电影VFX、游戏开发、教育及机器人训练模拟等领域 [48][50][51] - 该技术也在精神病学研究(如暴露疗法)中得到应用,可以低成本模拟各种触发环境 [53] 被低估的趋势与未来能力 - **空间智能的重要性被低估**:当前讨论过度集中于语言和大语言模型,而对三维世界建模的能力支撑着从娱乐、沉浸式体验到机器人仿真等广泛应用 [56] - **AI对教育的影响被低估**:AI将极大加速学习效率,可能改变以学校和学位为核心的人力资本评估体系 [56] - **AI对经济结构的复杂影响被低估**:关于AI对劳动力市场的讨论常在乌托邦和末日论间摇摆,而中间复杂、现实的过渡状态(各类岗位的深刻变化)被政策制定者和社会低估 [57] - **“学习如何学习”的能力变得至关重要**:在AI时代,个人使用工具快速学习和自我升级的能力、开放态度比传统学位更受重视 [57] - 教育评估体系需要革新,重点不应是监管AI使用,而是明确展示工具的标准与人类学习者应达到的更高标准 [60] 人文思考与教育理念 - 物理学习教会她的不仅是知识,更是提出大胆问题的勇气和热情,这后来成为其科研的指引 [9][22] - 她鼓励每个人寻找属于自己的“北极星”——即个人的梦想、使命与激情,这构成了生命力的核心 [61] - 在AI时代,教育的核心旅程之一是学会认识自己,并确立和追寻自己的北极星 [61]
空间智能是未来10年AI发展的新前沿
观察者网· 2026-01-04 09:34
艾伦·图灵(1912-1954)英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家,被誉为 计算机科学与人工智能之父。 自从进入这一领域,对视觉与空间智能的探索始终是指引我前行的"北极星"。正因如此,我投入多年时 间构建了ImageNet——第一个大规模视觉学习与评测数据集。它与神经网络算法、以图形处理器 (GPUs)为代表的现代计算能力一道,构成了现代人工智能诞生的三大关键要素。也正因如此,过去 十年来,我在斯坦福大学的实验室持续将计算机视觉与机器人学习相结合。更因为如此,一年多以前, 我与联合创始人贾斯丁·约翰逊(Justin Johnson)、克里斯托弗·拉斯纳(Christoph Lassner)、本·米尔登 霍尔(Ben Mildenhall)一同创立了世界实验室(World Labs)——希望第一次真正、完整地把这种可能 性变为现实。 在这篇文章中,我将尝试解释什么是空间智能,它为何重要,以及我们正在如何构建能够释放这一能力 的世界模型。这种进展,将深刻重塑创造力、具身智能,以及人类社会的整体进步路径。 【文/李飞飞,翻译/鲸生】 1950年,当计算还主要停留在自动算术和简单逻辑层面时 ...
从干洗店到伊丽莎白女王工程奖,李飞飞逆行硅谷技术神话,聚焦AI去人性化风险
36氪· 2025-11-21 18:18
获奖与核心贡献 - 2025年春,李飞飞教授荣获“伊丽莎白女王工程奖”,该奖项被视为工程领域的诺贝尔奖,以表彰其在计算机视觉与深度学习领域的奠基性贡献 [1] - 评审团认为其研究“让机器第一次以接近人类的方式看见世界”,开创了数据驱动的视觉识别方法 [1] - 作为ImageNet项目的核心推动者,她提出的“数据驱动深度学习”设想最初颇具争议,但最终成为主流共识;2012年ImageNet竞赛后,媒体迅速关注到深度学习趋势,到2013年几乎所有的计算机视觉研究都转向了神经网络 [8] 技术理念与行业影响 - 李飞飞强调“工程不止是算力与算法,更是责任与共情”,认为技术突破不等于理解的进步 [2] - 她提出“以人为本”的AI理念,并于2019年与人在斯坦福共同创立Stanford Institute for Human-Centered Artificial Intelligence(HAI),其使命明确AI必须服务于人类最广义的福祉 [9] - ImageNet项目改变了计算机视觉乃至整个AI的发展路径,推动了大规模数据驱动方法成为主流 [8] 对AI风险的警示与伦理倡导 - 李飞飞持续警示AI的“去人性化”风险,强调如果人工智能忘记了人类价值,它将失去存在的意义 [2] - 她指出AI技术是双刃的,既可治愈疾病、发现药物,也可能带来虚假信息传播和劳动力市场剧烈变革等风险 [14] - 她明确反对AI军事化,例如在2018年面对Google与美国国防部合作的Project Maven时,表示“AI应该是造福人类的,Google不能让公众认为我们在开发武器” [12] - 她多次强调建立基于法律体系的AI伦理监管机制的紧迫性,认为需要通过教育和法律框架来保障 [17] 行业生态与政策观点 - 在2025年5月的Semafor Tech活动上,李飞飞呼吁特朗普政府减少对大学财政的干预,指出其削减了数十亿美元的大学科研拨款并吊销数千名学生签证,这将为AI伦理发展带来潜在风险 [20] - 她强调公共部门尤其是高等教育是美国创新生态系统的关键组成部分,几乎所有人工智能经典知识都来自学术研究,政府应为高等教育提供充足资源以支持好奇心驱动的研究 [20] - 她还指出美国对某些国家公民的签证配额是人才留下的难题,希望学生能够获得工作签证并找到移民途径 [20] 身份视角与行业反思 - 李飞飞认为其移民、女性、亚裔、学者的多重边缘身份赋予了她独特的视角,使其能持续意识到技术体系的结构性偏差 [10][22] - 她表示科技行业对女性的期待过度符号化,女性科学家常承担“角色式的想象”,而非被平等视为研究者参与核心讨论 [23] - 她推动行业性别多样性常态化,并在斯坦福开展AI4All教育计划,旨在扶持女性与少数族裔进入AI领域 [23] - 尽管ImageNet是计算机视觉的基石,但其“people”子树曾因潜在种族主义倾向遭批评,团队后删除了约60万张照片进行清理 [26]
“AI教母”李飞飞最新访谈:没想到AI会这么风靡,下一个前沿是空间智能
金十数据· 2025-11-21 15:38
AI行业现状与影响 - AI被视为文明级技术,影响范围深远,触及每个人的生活、工作和未来[2] - 当前AI技术的权力集中在少数大型科技公司手中,主要来自美国[3] - AI投资金额巨大,行业正处于快速发展阶段[2] 技术发展方向 - 空间智能被定义为AI下一个前沿,即理解、感知、推理并与三维世界互动的能力[1][4][25] - 空间智能与语言智能互为补充,是视觉智能的延续和拓展[4][25] - World Labs公司开发的Marble模型能够根据简单提示生成三维世界,应用场景包括设计构思、游戏开发、机器人仿真训练和AR/VR教育[26] 市场竞争格局 - 中美两国被公认为全球AI领域的领先国家[24] - 中国AI专利和论文数量激增,Deepseek等产品引发关注[24] - 全球多个地区都渴望在AI领域占据一席之地[24] 就业市场影响 - AI技术正在深刻改变劳动版图,Salesforce公司50%客服岗位已交给AI处理[28] - 技术革新将带来岗位重塑,个人需要持续学习,企业和社会也需承担责任[1][28] - 历史经验表明,蒸汽机、电力、电脑等技术都曾经历阵痛期[28] 能源消耗挑战 - 训练大型模型需要消耗大量电力,数据中心能源需求巨大[31] - 能源领域的创新是关键解决方案,需要发展更多可再生能源[1][31] - 各国需要审视能源政策和产业结构,为可再生能源投资提供契机[31] 技术应用前景 - AI应用前景广阔,涵盖软件工程、创意、医疗保健、教育和金融服务等领域[31] - 市场将持续扩张,AI可作为助手或协作工具提升人们的生产力和福祉[31] - 技术突破需要投入大量资源,为研究提供资金支持至关重要[31] 教育理念应对 - 在AI时代应注重培养孩子的求知欲、批判性思维和责任感等传统价值观[1][30] - 教育需要关注孩子的主观能动性、尊严和个性发展,而非单纯焦虑专业选择[30] - 避免依赖AI偷懒,要正确使用工具进行有效学习[33] 内容真实性风险 - AI技术可能被用于制造虚假图像、虚假声音和虚假文本[33] - 信息真实性问题既是AI面临的挑战,也是社交媒体主导的交流方式带来的问题[33] - 需要防止技术被滥用,确保信息的真实性和可靠性[33]
李飞飞给AGI泼了盆冷水
36氪· 2025-11-18 08:17
AI发展路径与当前局限 - 现代AI的黄金配方是神经网络、大数据与GPU的结合,ChatGPT的成功仍基于此配方[4][5] - 单纯依靠扩大数据规模和算力的Scaling Law不足以实现智能突破,当前AI仍难以完成精确计数物体、推导物理定律等对人类简单的任务[1][8] - 距离具备创造力、抽象能力和情感智能的AI系统还有很长的路,需要根本性的技术创新而非简单堆叠算力[1][9] 对AGI概念的看法 - AGI定义模糊,更像营销话术而非严谨科学术语,科学家应关注解决根本性技术挑战而非概念争论[1][7] - AI与AGI的区别不明确,该领域核心问题始终是机器能否像人一样思考和行动[7] 空间智能与世界模型的前景 - 语言智能不足,人类在关键场景依赖空间智能,研究空间智能对机器人、具身智能发展有极大作用[3][9] - 世界模型是推动AI下一阶段发展的关键,能生成完整虚拟世界并让智能体互动推理,是机器人规划操作的基础[9][10] - 空间智能可增强人类在空间理解、物体操作和现实世界任务中的能力,并影响设计、工程和科学发现[10] 机器人技术与创业挑战 - 机器人领域数据极难获取,缺乏结构化动作标注,且涉及物理系统、硬件等复杂因素,"苦涩的教训"不完全适用[15][16] - 自动驾驶发展近20年仍未完全成熟,而三维空间操控物体的机器人技术面临更大挑战[3][16] - AI创业竞争空前激烈,涉及模型技术之争和顶尖人才争夺,World Labs团队拥有约30人[12][14] 历史项目与核心理念 - ImageNet项目收集了1500万张图片、2.2万个物体类别,为现代AI发展奠定基础[5] - AI进步是几代研究者共同积累的成果,而非个人奇迹[6] - World Labs产品Marble能通过一句话或一张图像生成可探索的三维世界,核心关注空间智能而非仅生成视频[11]
李飞飞站队LeCun,AGI全是炒作,80分钟重磅爆料出炉
36氪· 2025-11-17 17:52
AI发展历程与驱动力 - 21世纪初AI领域处于漫长寒冬,更常被称为机器学习,公众关注度低且资金投入少[10][14] - 2006-2007年启动ImageNet项目,从互联网搜集1500万张图像并打上22000个类别的精准标签,该项目开源并启动年度挑战赛[21][23] - 2012年多伦多大学研究团队使用2块英伟达GPU和ImageNet数据训练出AlexNet,标志着深度学习与现代AI起步的关键时刻[23][24] - 大数据、神经网络和GPU构成现代AI发展的黄金三件套[6][26] - 2015年中至2016年中,硅谷大厂刻意避谈AI一词,一年后AI拐点出现,众多公司开始将自己定位为AI公司[26] 世界模型与空间智能 - AI未来十年的下一个前沿是空间智能与世界模型,其核心在于将语言之外的智能、具身AI机器人和视觉智能串联起来[28][33] - 世界模型被定义为一个基础层,通过输入一张图或一句话即可生成一个可无限探索的3D世界,人们可在此基础上进行推理、交互和创造[37][38] - 人类作为具身智能体同样能从世界模型和空间智能中获益,例如科学家通过2D X射线衍射照片在脑海中构建3D模型从而发现DNA双螺旋结构[39] - 2024年通过TED演讲系统化阐述空间智能和世界模型理念,并创办World Labs公司以推动该领域发展[34][36] 技术应用与行业影响 - World Labs推出的Marble平台应用于电影虚拟制片、游戏互动内容及机器人模拟训练等领域[41] - 在电影拍摄中,Marble平台通过描述生成可导航的3D世界,使虚拟摄像机自由走位且场景可反复修改,艺术家团队称制作时间缩短40倍[43] - 游戏开发者可将Marble生成的世界导出至游戏引擎用作关卡原型,助力小团队打造大片级场景而不受美术资源限制[43] - 机器人领域面临数据困境,其输出为真实三维世界中的动作,训练数据极难获取,需通过遥操作、合成环境等方式收集[44][45] - 机器人是物理系统,更像自动驾驶汽车而非大语言模型,需同时解决算法模型、硬件本体和应用场景问题,发展路径漫长且挑战多维[45][46] 研究理念与未来方向 - 智能通过大数据学习获得,关键是为机器人提供足够多且多样的世界经验,Marble平台通过提示词生成各种场景供机器人在虚拟世界练习[46] - 在AI与AGI之间没有清晰科学界限,AGI更像营销用语而非严谨科学术语,其定义未统一[26] - 研究者应关注最令人兴奋且难以入眠的科学问题,而非仅聚焦盈利最多的领域,同时不过度放大失败可能性,并重视团队协作价值[47]
李飞飞最新播客:从洞穴实验理解世界模型|Jinqiu Select
锦秋集· 2025-11-17 16:43
文章核心观点 - AI的本质是“智能”的延伸,而非“人工”,是人类理解世界能力的拓展[3][10] - 推动AI发展的核心三要素始终是数据、神经网络和GPU算力,这一组合构成了现代AI的基石[6][24][26] - 当前AI发展的关键瓶颈和未来机遇在于“世界模型”,其旨在解决机器在空间、视觉和行动上理解世界的难题,是连接语言智能与具身智能的桥梁[3][34][40] - 单纯依靠大数据和算力扩展的“苦涩教训”路径在机器人等具身智能领域可能行不通,因为面临数据难以获取、物理系统复杂性等独特挑战[4][47][48] - 公司World Labs发布的全球首个大规模世界模型Marble,展示了生成可导航、可交互三维世界的技术能力,并在影视制作、游戏开发、机器人模拟等领域展现出应用潜力[39][53][59][60] AI发展历程与驱动要素 - AI学科诞生于20世纪50年代,经历了从早期逻辑系统、专家系统到机器学习、神经网络的发展阶段[16][17] - 2006至2007年启动的ImageNet项目,通过整理1500万张网络图片和22000个概念分类,为AI提供了关键的大规模数据集[23] - 2012年成为深度学习与现代AI的开端,多伦多团队利用ImageNet数据、NVIDIA的两块GPU,成功训练出在物体识别上取得突破的神经网络[23][24] - 在2016年前后,科技公司曾因市场接受度问题而避免使用“AI”一词,这一情况在约2017年后发生根本性逆转[28][29][30] - ChatGPT的成功本质仍是数据、神经网络和GPU三要素共同作用的结果,而非技术路径的根本改变[25][26] 世界模型的概念与重要性 - 世界模型是一种基础能力,旨在让机器能够推理、互动并创造世界,其核心是从二维信息理解三维甚至四维世界的能力[3][34][41] - 与大型语言模型不同,世界模型关注的是空间智能,对于机器人、自动驾驶、科学发现(如从二维X射线衍射图推理三维DNA结构)等领域至关重要[40][44] - 公司World Labs于2022年开始布局世界模型研究,认为其与语言模型同等重要甚至互补,是AI未来的关键方向[3][39][53] - 世界模型的应用可显著提升效率,例如在影视虚拟制作领域,有案例显示其能将制作时间缩短40倍[59] 机器人与具身智能的挑战 - 在机器人领域应用“苦涩教训”(即简单模型+大数据)面临两大挑战:训练数据与输出动作难以完美对齐,以及机器人作为物理系统的复杂性[4][47][48] - 机器人训练数据稀缺,尤其缺乏体现真实三维动作的数据,网络视频虽有价值但存在对齐问题,需补充遥操作或合成数据[47][48] - 机器人更接近自动驾驶汽车,不仅需要“大脑”(算法模型),还需要“身体”(硬件)和具体的应用场景,其产品化涉及供应链、硬件成熟度等多方面因素[4][49] - 与在二维平面上运动的自动驾驶汽车相比,在三维世界中行动并操控物体的机器人面临更长的技术发展路径[49] World Labs与Marble产品进展 - World Labs由四位深耕技术研究的联合创始人资助,团队约30人,主要为研究员和研究工程师,致力于将前沿模型与产品结合[53][65] - 公司推出的产品Marble是全球首款允许通过文本或图像提示生成可导航、可交互三维世界的模型[53][54] - Marble采用点状可视化设计,旨在帮助用户理解模型运行并提升体验愉悦感,该特性受到用户积极反馈[55] - 目前Marble已应用于电影虚拟制作、游戏开发、机器人模拟训练及心理学研究等多个领域,展现出横向应用潜力[59][60] - World Labs的技术路线强调空间智能超越二维视频生成,专注于在深度空间中创造、推理和互动[63] 对AGI与未来技术发展的看法 - AGI(人工通用智能)更像一个营销词汇而非严谨科学概念,AI本身即是追求机器像人一样思考和行动的“北极星”目标[32][33] - 当前技术路径(扩展数据、算力、模型)虽能继续推进,但仍需重大创新以解决AI在抽象推理、情感智能、科学发现(如推导物理定律)等方面的不足[34][35][36] - 人类智能以极低功耗(约20瓦)完成复杂任务,这凸显了生物智能的高效性与当前AI技术的差距[52] 人才与行业生态观察 - AI领域竞争激烈,主要体现在模型、技术和高成本人才的争夺上[67][68] - 对于职业发展,建议关注自身热情、团队使命和所能产生的影响,而非过度纠结细节或盲目追逐热点[71][72] - 斯坦福以人为本AI研究所(HAI)的建立,旨在推动AI在科研、教育、政策等领域的负责任发展,并加强科技界与政策制定者(如华盛顿、布鲁塞尔)的沟通[73][74]
李飞飞长文火爆硅谷
投资界· 2025-11-14 16:01
文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]
李飞飞万字长文爆了!定义AI下一个十年
创业邦· 2025-11-12 11:08
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心是构建能够理解、推理并与复杂物理世界互动的“世界模型” [8][16][26] - 世界模型需具备生成式、多模态和互动性三大核心能力,以解锁超越当前大语言模型的机器空间智能 [27][29][30] - 空间智能的应用将重塑创意产业、机器人技术和科学研究,其发展需要整个AI生态系统的集体努力 [38][44][48] 空间智能的定义与重要性 - 空间智能是人类认知的基石,使我们能够通过感知与行动的循环来理解和互动物理世界 [18][21] - 该能力驱动着从日常活动(如停车)到专业领域(如科学发现)的推理与规划 [18][21] - 当前AI在空间任务上表现不佳,例如估算距离或心理旋转物体,其能力远未达到人类水平 [22] 构建世界模型的技术框架 - 世界模型必须能生成遵循物理定律且在几何和动态上保持一致的世界 [27] - 模型需处理多模态输入,如图像、视频、文本指令和动作,并预测完整的世界状态 [29] - 当给定动作或目标时,模型应能输出与之协调的世界下一个状态 [30] - 技术挑战包括定义新的通用训练任务函数、利用互联网规模的数据以及开发新的模型架构 [32][33][34] 当前进展与案例 - World Labs已开发出名为Marble的平台,能通过多模态提示生成并维持一致的三维环境 [37][40] - 该平台展示了实时生成性帧基模型等创新架构,旨在实现高效生成和空间持久性 [35][37] 应用领域与前景 创意产业 - 空间智能将变革故事叙述和设计,使创作者能快速构建可探索的三维世界,不受预算或地理限制 [40][42] - 应用包括为电影、游戏、建筑和工业设计提供新的叙事维度和沉浸式体验 [42][43] 机器人技术 - 世界模型将通过模拟数据弥合训练差距,规模化机器人学习,以理解、导航和互动物理世界 [44] - 未来机器人可作为人类协作者,在实验室或家庭等场景中扩展劳动力,但需与人类目标对齐 [45] 科学、医疗与教育 - 在科学研究中,空间智能可模拟实验、测试假设并探索人类无法触及的环境 [48] - 医疗健康领域有望通过分子相互作用建模和医学影像分析加速药物发现与诊断 [48] - 教育将受益于沉浸式学习体验,使抽象概念触手可及,并支持安全的技能练习 [49]
李飞飞聊AI下一个十年:构建真正的空间智能
自动驾驶之心· 2025-11-12 08:04
文章核心观点 - 空间智能是人工智能的下一个前沿,旨在构建能够理解和交互物理及虚拟世界的“世界模型”,这将重塑创造力、机器人技术和科学发现等领域[5][16] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色,但在空间理解、物理推理和与环境交互方面存在根本性局限,与人类能力相距甚远[5][14][15] - 实现空间智能需要构建具备生成性、多模态性和交互性的世界模型,这是一项超越以往AI挑战的复杂任务,需要新的训练方法、大规模数据和模型架构[17][21][22] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常行为(如停车、接钥匙)到专业活动(如消防员救援、科学发现)的物理世界互动[10][13] - 该能力是人类想象力和创造力的基础,从史前洞穴壁画到现代电影、游戏和工业设计,都依赖于基于空间的想象力[10] - 在人类文明进程中,空间智能在关键科学发现(如埃拉托色尼计算地球周长、沃森和克里克发现DNA双螺旋结构)中扮演了核心角色[11][12] 当前AI在空间智能方面的局限 - 最先进的多模态模型在估算距离、方向、大小等基本空间任务上表现仅略高于随机水平,在“心智旋转”测试中能力极为有限[14] - AI生成的视频虽令人惊叹,但往往在数秒后便失去连贯性,无法预测基本物理规律,也无法识别捷径或穿越迷宫[14] - 当前AI对世界的理解是割裂的,缺乏人类那种将事物在空间上的关系、意义及彼此关联进行整体性理解的能力[15] 构建空间智能世界模型的核心框架 - **生成性**:模型需能生成在语义、几何和物理层面保持一致的虚拟世界,并且对当前世界的理解必须与过去状态保持连贯[18] - **多模态性**:模型应能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并预测或生成完整的世界状态[19] - **交互性**:当动作或目标成为输入时,模型需能生成与先前世界状态、物理规律相一致的下一个世界状态,甚至预测实现目标所需的后续行动[20] 实现世界模型的技术挑战与研究方向 - **新的通用训练任务函数**:需要定义能反映几何与物理规律的通用目标函数,其复杂程度远超语言模型中的“下一token预测”[23] - **大规模训练数据**:需研发能从互联网海量二维图像或视频帧中提取深层空间信息的算法,并利用合成数据及深度、触觉等额外模态[24] - **新型模型架构与表征学习**:需突破现有MLLM与视频扩散模型范式,探索具备三维或四维感知能力的分词、上下文和记忆机制[25] 空间智能的潜在应用与影响 - **创造力与叙事**:工具如World Labs的Marble平台正赋能电影制作人、游戏设计师和建筑师快速创建可自由探索的三维世界,颠覆传统创作流程[32][33] - **机器人技术**:世界模型将通过提供可扩展的训练数据解决方案,缩小模拟与现实差距,加速具备泛化能力的机器人的发展[35][36] - **科学、医疗与教育**:空间智能系统能模拟实验、加速药物发现、实现沉浸式学习,在拯救生命和加速科学发现方面具有深远影响[38][39][40]