群核科技黄晓煌：积极拥抱开源，推动属于空间大模型的「DeepSeek时刻」来临

核心观点 - 群核科技在首届技术开放日上发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 旨在通过开源推动全球空间智能技术发展[3] - 公司基于酷家乐平台构建"空间编辑工具-空间合成数据-空间大模型"的飞轮模式通过工具沉淀数据并加速模型训练[4] - 开源是公司核心战略之一自2018年启动开源计划希望成为全球空间智能服务提供商[4] 技术成果发布 - SpatialLM 1.5是基于大语言模型训练的空间语言模型支持通过对话交互系统实现端到端可交互场景生成[4] - 模型能输出包含空间结构、物体关系、物理参数的"空间语言" 根据文本描述自动生成结构化场景脚本并智能匹配家具布局[4] - 生成场景富含物理正确的结构化信息可批量输出多样化场景用于机器人路径规划、避障训练等应用解决训练数据短缺问题[6] - SpatialGen是基于扩散模型的多视角图像生成模型可根据文字描述、参考图像和3D布局生成时空一致的多视角图像[7] - 支持生成3D高斯场景并渲染漫游视频用户可自由穿梭生成场景获得沉浸式体验[7][8] 数据资源与技术优势 - 截至2025年6月30日公司拥有超过4.41亿个3D模型和超过5亿个结构化3D空间场景[4] - SpatialGen数据集包含12,328个场景和100万个物体使用全景视频格式[9] - 相比传统大语言模型空间大模型在真实感全息漫游、结构化可交互及复杂室内场景处理方面具有显著优势[3] 开源与行业影响 - SpatialLM 1.0于2025年3月开源后迅速登上Hugging Face趋势榜前三已有初创企业基于其代码训练自有模型[6] - 两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源[10] - SpatialGen在技术开放日当天已可在开源网站下载使用 SpatialLM 1.5将以"SpatialLM-Chat"形式完成开源[10] AI视频生成解决方案 - 基于SpatialGen探索AI视频生成解决方案通过新范式解决时空一致性难题[3] - 正在研发基于3D技术的AI视频生成产品计划2025年内发布可能是全球首款深度融合3D能力的AI视频生成Agent[9] - 通过构建3D渲染与视频增强一体化生成管线弥补当前AIGC视频生成中时空一致性不足的问题[9]