Workflow
群核科技开源两款空间大模型,想解决 Genie3 没能彻底解决的问题
Founder Park·2025-08-27 19:41

世界模型技术发展现状 - Google DeepMind发布Genie 3 世界模型 与OpenAI开源模型形成竞争[2] - 世界模型分为两类流派:Sora类视频模型基于2D图像序列模拟数字世界 Genie 3属于此类 另一类是李飞飞World Labs倡导的基于3D场景还原的大型世界模型[4][5] - 当前两类模型存在落地问题:视频模型因缺少3D维度导致空间一致性不足 3D模型因数据短缺导致视角切换时出现崩坏[6] 群核科技空间大模型技术突破 - 公司发布业界首个3D室内场景认知与生成空间大模型 开源SpatialLM 1.5空间语言模型和SpatialGen空间生成模型[6] - SpatialGen采用多视角扩散+3DGS重建技术 生成可自由漫游的真实3D空间 支持任意视角切换和路径漫游 实现100%光影一致性[8][14] - SpatialLM 1.5基于大语言模型训练 支持通过对话生成结构化场景脚本 智能匹配家具布局 10秒内可生成1000个不重复场景[10][11] - 模型依托自研CAD引擎和KooEngine光线追踪技术 支持参数调整并达到影视级材质质感[15] 数据与技术优势 - 公司通过酷家乐平台积累超4亿个3D模型及5亿个结构化3D空间场景[18] - 2018年发布全球最大室内深度学习数据集InteriorNet 含数万套标注物体坐标和空间关系的场景数据[18] - 2025年开源3D高斯语义数据集InteriorGS 首次将3D高斯技术引入AI训练 降低数据存储成本[18] - 形成工具-数据-模型三位一体飞轮:工具层生成结构化数据 数据层提供高质量标注 模型层实现跨越式进化[18][19] 应用场景与商业化前景 - 解决AI短剧行业痛点:传统工具存在场景不连贯和制作效率低问题 空间大模型可保证全场景物理一致性[20][21][22] - 支持机器人训练场景:自动生成带物理参数和空间关系的3D数据 为具身智能提供结构化信息[11][41] - 电商3D展厅应用:消除视角切换时物体尺寸不一致等穿帮问题 提升虚拟场景可用性[20] - 内部推进X项目:基于3D技术的AI视频生成产品 计划2025年内发布 通过3D渲染与视频增强一体化解决空间一致性问题[24] 技术实现路径 - SpatialLM 1.5基于Qwen3底模训练 采用空间语言描述3D信息 与CAD领域语言兼容[27][28][33] - SpatialGen基于扩散模型训练 使用自研渲染引擎生成的多视角图片数据[33] - 资产库与模型解耦设计 支持调用第三方资产库 确保开源兼容性[37] - 通过数据规模扩展提升空间一致性 遵循scaling law演进规律[39] 发展阶段与挑战 - 当前空间大模型处于类似GPT-2阶段 具备基础生成和交互能力 但未达到通用水平[20][42] - 主要挑战在于3D数据获取难度:无法通过互联网快捷获取 需依赖工具生成或实地扫描[31] - 未来演进方向:探索从文本直接到3D表征的技术路径 提升视觉效果与一致性的平衡[40]