Workflow
空间大模型
icon
搜索文档
群核科技发布空间大模型,旨在解决AI视频空间一致性难题
36氪· 2025-08-29 12:00
8月25日,在首届技术开放日(TechDay)上,群核科技正式发布了其空间大模型的最新成果:新一代 空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,并宣布将延续开源战略,逐步向全球开发者开 放模型。 作为专注于3D室内场景认知与生成的模型体系,群核空间大模型主要围绕真实感全息漫游、结构化可 交互及复杂室内场景处理三个方向构建其技术优势。 本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型 。群核科技首席科学家周子寒在 技术交流中解释,SpatialLM并非在视觉语言模型(VLM)上增加新模态,而是让大语言模型学会了一 种新的"空间语言"。这种语言能以数字文本的形式,精确描述场景中物体的空间结构、几何信息、相互 关系及物理参数。 通过对话系统SpatialLM-Chat,用户输入简单的文本指令,模型即可自动生成包含物理正确信息的结构 化3D场景脚本,并智能匹配家具进行布局。该模型还能通过自然语言进行场景问答与编辑,例如,在 现场演示中,当输入"去客厅餐桌拿药"指令后,模型不仅理解了物体对象,还调用工具自动规划出行动 路径,展示了其在机器人场景中的应用潜力。 群核 ...
群核科技开源两款空间大模型,想解决 Genie3 没能彻底解决的问题
Founder Park· 2025-08-27 19:41
世界模型技术发展现状 - Google DeepMind发布Genie 3 世界模型 与OpenAI开源模型形成竞争[2] - 世界模型分为两类流派:Sora类视频模型基于2D图像序列模拟数字世界 Genie 3属于此类 另一类是李飞飞World Labs倡导的基于3D场景还原的大型世界模型[4][5] - 当前两类模型存在落地问题:视频模型因缺少3D维度导致空间一致性不足 3D模型因数据短缺导致视角切换时出现崩坏[6] 群核科技空间大模型技术突破 - 公司发布业界首个3D室内场景认知与生成空间大模型 开源SpatialLM 1.5空间语言模型和SpatialGen空间生成模型[6] - SpatialGen采用多视角扩散+3DGS重建技术 生成可自由漫游的真实3D空间 支持任意视角切换和路径漫游 实现100%光影一致性[8][14] - SpatialLM 1.5基于大语言模型训练 支持通过对话生成结构化场景脚本 智能匹配家具布局 10秒内可生成1000个不重复场景[10][11] - 模型依托自研CAD引擎和KooEngine光线追踪技术 支持参数调整并达到影视级材质质感[15] 数据与技术优势 - 公司通过酷家乐平台积累超4亿个3D模型及5亿个结构化3D空间场景[18] - 2018年发布全球最大室内深度学习数据集InteriorNet 含数万套标注物体坐标和空间关系的场景数据[18] - 2025年开源3D高斯语义数据集InteriorGS 首次将3D高斯技术引入AI训练 降低数据存储成本[18] - 形成工具-数据-模型三位一体飞轮:工具层生成结构化数据 数据层提供高质量标注 模型层实现跨越式进化[18][19] 应用场景与商业化前景 - 解决AI短剧行业痛点:传统工具存在场景不连贯和制作效率低问题 空间大模型可保证全场景物理一致性[20][21][22] - 支持机器人训练场景:自动生成带物理参数和空间关系的3D数据 为具身智能提供结构化信息[11][41] - 电商3D展厅应用:消除视角切换时物体尺寸不一致等穿帮问题 提升虚拟场景可用性[20] - 内部推进X项目:基于3D技术的AI视频生成产品 计划2025年内发布 通过3D渲染与视频增强一体化解决空间一致性问题[24] 技术实现路径 - SpatialLM 1.5基于Qwen3底模训练 采用空间语言描述3D信息 与CAD领域语言兼容[27][28][33] - SpatialGen基于扩散模型训练 使用自研渲染引擎生成的多视角图片数据[33] - 资产库与模型解耦设计 支持调用第三方资产库 确保开源兼容性[37] - 通过数据规模扩展提升空间一致性 遵循scaling law演进规律[39] 发展阶段与挑战 - 当前空间大模型处于类似GPT-2阶段 具备基础生成和交互能力 但未达到通用水平[20][42] - 主要挑战在于3D数据获取难度:无法通过互联网快捷获取 需依赖工具生成或实地扫描[31] - 未来演进方向:探索从文本直接到3D表征的技术路径 提升视觉效果与一致性的平衡[40]
空间智能卡脖子难题被杭州攻克!难倒GPT-5后,六小龙企业出手了
量子位· 2025-08-27 13:49
从视频生成到AI短剧,令人出戏的空间穿帮、扭曲视角和断裂逻辑屡见不鲜,往往需要反复调教才能勉强可用。 空间一致性 ,已成为横亘在 虚拟世界与现实世界之间的最大技术壁垒。 一片喧嚣中,杭州"六小龙"之一 群核科技 低调却重磅地发布了自己的 空间大模型 ,选择了一条与众不同的路径: 深耕室内场景,并直指行业核心痛点「空间一致性」 。 不管怎么移动都很丝滑~生成的视角也都是合理的。 白交 发自 凹非寺 量子位 | 公众号 QbitAI 最近3D内容生成模型好生热闹,像谷歌Genie 3、World Labs、混元、昆仑争相发布并开测世界模型。 当前主流技术路线可以分为两类, 一类是以Genie 3为代表的"视频生成派" ,虽能生成动态交互内容,但本质仍是二维序列的仿真。虽然视 觉效果很逼真,但难以从根本上保证三维空间的视角与结构一致性。 另一类则是 以World Labs、混元为代表的"3D场景生成派" ,虽能实现360度漫游,却受限于高质量3D数据的匮乏,时常在视角切换中出现 场景崩坏、内容穿帮问题。 而群核的空间大模型,正是致力于突破当前模型遇到的这些挑战。 它不仅在三维空间的视角一致性上表现得可靠,其漫游自由 ...
群核科技黄晓煌:积极拥抱开源,推动属于空间大模型的「DeepSeek时刻」来临
IPO早知道· 2025-08-25 21:10
核心观点 - 群核科技在首届技术开放日上发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 旨在通过开源推动全球空间智能技术发展[3] - 公司基于酷家乐平台构建"空间编辑工具-空间合成数据-空间大模型"的飞轮模式 通过工具沉淀数据并加速模型训练[4] - 开源是公司核心战略之一 自2018年启动开源计划 希望成为全球空间智能服务提供商[4] 技术成果发布 - SpatialLM 1.5是基于大语言模型训练的空间语言模型 支持通过对话交互系统实现端到端可交互场景生成[4] - 模型能输出包含空间结构、物体关系、物理参数的"空间语言" 根据文本描述自动生成结构化场景脚本并智能匹配家具布局[4] - 生成场景富含物理正确的结构化信息 可批量输出多样化场景用于机器人路径规划、避障训练等应用 解决训练数据短缺问题[6] - SpatialGen是基于扩散模型的多视角图像生成模型 可根据文字描述、参考图像和3D布局生成时空一致的多视角图像[7] - 支持生成3D高斯场景并渲染漫游视频 用户可自由穿梭生成场景获得沉浸式体验[7][8] 数据资源与技术优势 - 截至2025年6月30日 公司拥有超过4.41亿个3D模型和超过5亿个结构化3D空间场景[4] - SpatialGen数据集包含12,328个场景和100万个物体 使用全景视频格式[9] - 相比传统大语言模型 空间大模型在真实感全息漫游、结构化可交互及复杂室内场景处理方面具有显著优势[3] 开源与行业影响 - SpatialLM 1.0于2025年3月开源后迅速登上Hugging Face趋势榜前三 已有初创企业基于其代码训练自有模型[6] - 两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源[10] - SpatialGen在技术开放日当天已可在开源网站下载使用 SpatialLM 1.5将以"SpatialLM-Chat"形式完成开源[10] AI视频生成解决方案 - 基于SpatialGen探索AI视频生成解决方案 通过新范式解决时空一致性难题[3] - 正在研发基于3D技术的AI视频生成产品 计划2025年内发布 可能是全球首款深度融合3D能力的AI视频生成Agent[9] - 通过构建3D渲染与视频增强一体化生成管线 弥补当前AIGC视频生成中时空一致性不足的问题[9]