空间智能 - 财报，业绩电话会，研报，新闻

空间智能

搜索文档

搜狐财经· 2025-12-03 08:35

文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限，缺乏对物理世界的深度理解，导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿，其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”，该模型能赋予AI对物理规则进行推理和预测的能力，已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大，但在处理与物理世界相关的任务时表现不佳，常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识：豆包模型在图像生成中将骆驼比例严重失调，并添加了不符合生物特征的动物[7]；OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿，且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号，处理过程有信息损耗，而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学，指对空间信息进行感知、理解与操作的综合智能，涉及三维思维和空间想象，是人类从婴儿期发展的本能[12] - 在人类文明进步中，空间智能是关键驱动力，例如用于计算地球周长、发明珍妮纺纱机（使单人工效提升八倍）以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域，旨在让机器获得理解并交互于三维世界的能力，这是AI发展的终极愿景之一，例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久，早在1970年代，大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用，例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗，但这些应用或需人为操控，或对环境适应能力不强，容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用，但其系统仍难以在复杂城市街道上进行安全推理，例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节，即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键：世界模型 - 在数据（高质量语言数据可能在2026年左右耗尽）和算力（训练GPT-4成本可能超过1亿美元）存在限制的背景下，模型成为推动AI发展的关键[19] - “世界模型”于2018年提出，灵感来自人脑构建并运用“内部世界”的机制，旨在让AI能够整合感官信息，对物理世界进行直觉式推理和预测，例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径，因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月，英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月，拥有全球最大室内场景空间数据集的空间智能企业群核科技，开源了空间语言模型SpatialLM，该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月，谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3，为智能体训练及游戏开发等领域带来新可能性[22] - 近期，李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble，支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力，促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点：真实世界的复杂性与不确定性难以用现有数学模型全面处理；某些领域（如地球内部构造）数据获取有限；物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大，但发展空间智能和世界模型代表了AI技术演进的重要方向[24]