Workflow
SpatialLM 1.5
icon
搜索文档
群核科技发布空间大模型,旨在解决AI视频空间一致性难题
36氪· 2025-08-29 12:00
8月25日,在首届技术开放日(TechDay)上,群核科技正式发布了其空间大模型的最新成果:新一代 空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,并宣布将延续开源战略,逐步向全球开发者开 放模型。 作为专注于3D室内场景认知与生成的模型体系,群核空间大模型主要围绕真实感全息漫游、结构化可 交互及复杂室内场景处理三个方向构建其技术优势。 本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型 。群核科技首席科学家周子寒在 技术交流中解释,SpatialLM并非在视觉语言模型(VLM)上增加新模态,而是让大语言模型学会了一 种新的"空间语言"。这种语言能以数字文本的形式,精确描述场景中物体的空间结构、几何信息、相互 关系及物理参数。 通过对话系统SpatialLM-Chat,用户输入简单的文本指令,模型即可自动生成包含物理正确信息的结构 化3D场景脚本,并智能匹配家具进行布局。该模型还能通过自然语言进行场景问答与编辑,例如,在 现场演示中,当输入"去客厅餐桌拿药"指令后,模型不仅理解了物体对象,还调用工具自动规划出行动 路径,展示了其在机器人场景中的应用潜力。 群核 ...
群核科技扭亏之后:既要扩张又要节流
北京商报· 2025-08-29 01:24
首份招股书失效后,群核科技近日向港交所递交更新后的招股书。2025年上半年营收3.99亿元,同比增 长9%,经调整净利润转正,但销售及营销开支、研发开支较上半年同期分别缩水20.7%和16.8%;截至 2025年6月底,赎回负债40亿元。 严重依赖订阅业务的营收结构也未改变。2025年上半年,群核科技来自企业及个人客户的软件订阅营收 占比97.7%,向企业客户提供的专业服务营收占比2.3%。2024年推出的空间智能解决方案SpatialVerse, 客户数10个。 根据群核科技的计划,上市募集的资金将用于国际扩张策略、推出新产品等。招股书更新后,这家首个 公开上市计划的杭州"六小龙"企业紧接着发布两款空间开源模型。在研发、销售开支递减,赎回负债高 悬的当下,群核科技的盈利能否持续,还需要时间解答。 专业服务营收占比2.3% 2025年2月14日,群核科技首次向港交所递交招股书。8月14日,因公司未在6个月内获批,招股书自动 失效。近日,群核科技再次向港交所递表,披露了2025年上半年的最新业绩。 除软件产品外,群核科技也向企业客户提供专业服务,主要包括建模服务、技术配置服务及客户培训, 具体按个别磋商的项目合 ...
“六小龙”之群核科技扭亏背后:既要扩张又要节流
北京商报· 2025-08-27 22:39
财务表现 - 2025年上半年营收3.99亿元人民币 同比增长9% 但增速较2023年的10.5%和2024年的13.8%有所放缓 [1][4] - 经调整净利润1782.5万元人民币 实现扭亏为盈 上年同期为经调整净亏损7319.6万元人民币 [7] - 2022-2024年持续亏损 经调整净亏损分别为3.38亿元 2.42亿元 7004.9万元人民币 [7] 业务结构 - 营收高度依赖订阅业务 2025年上半年软件订阅营收占比97.7% 专业服务营收仅占2.3% [1][4] - 订阅收入集中度持续提升 从2022年的90.6%上升至2025年上半年的97.7% [4] - 空间智能解决方案SpatialVerse于2024年推出 目前获得10名客户 订单总值约300万元人民币 [1][5] 成本控制 - 销售及营销开支从2024年上半年的1.71亿元减少至2025年上半年的1.36亿元 同比下降20.7% [1][10] - 研发开支从2024年上半年的1.8亿元减少至2025年上半年的1.5亿元 同比下降16.8% [1][10] - 销售人员数量持续减少 从2023年底的615名降至2024年底的540名 再降至2025年6月底的501名 [10] 战略规划 - 计划将上市募集资金用于国际扩张 重点市场包括韩国 东南亚 印度 美国及日本 [1][10] - 拟建立250人的销售团队 未来3-5年年度市场推广预算约2000万元人民币 [10] - 计划扩大AIGC及几何建模研发团队 未来3-5年规模将达到30-35人 [10] 产品创新 - 发布两款空间开源模型SpatialLM 1.5与SpatialGen 支持对话交互和3D场景生成 [7] - 计划2025年推出基于3D技术的AI视频生成产品 解决AIGC视频时空一致性问题 [7] - 行业专家认为AI视频是短期内较可行的功能场景 但客户痛点和盈利模式尚不明确 [9][11] 资本结构 - 截至2025年6月底存在赎回负债40亿元人民币 [1] - 公司提示自成立以来持续亏损 未来可能继续亏损 [10]
群核科技开源两款空间大模型,想解决 Genie3 没能彻底解决的问题
Founder Park· 2025-08-27 19:41
世界模型技术发展现状 - Google DeepMind发布Genie 3 世界模型 与OpenAI开源模型形成竞争[2] - 世界模型分为两类流派:Sora类视频模型基于2D图像序列模拟数字世界 Genie 3属于此类 另一类是李飞飞World Labs倡导的基于3D场景还原的大型世界模型[4][5] - 当前两类模型存在落地问题:视频模型因缺少3D维度导致空间一致性不足 3D模型因数据短缺导致视角切换时出现崩坏[6] 群核科技空间大模型技术突破 - 公司发布业界首个3D室内场景认知与生成空间大模型 开源SpatialLM 1.5空间语言模型和SpatialGen空间生成模型[6] - SpatialGen采用多视角扩散+3DGS重建技术 生成可自由漫游的真实3D空间 支持任意视角切换和路径漫游 实现100%光影一致性[8][14] - SpatialLM 1.5基于大语言模型训练 支持通过对话生成结构化场景脚本 智能匹配家具布局 10秒内可生成1000个不重复场景[10][11] - 模型依托自研CAD引擎和KooEngine光线追踪技术 支持参数调整并达到影视级材质质感[15] 数据与技术优势 - 公司通过酷家乐平台积累超4亿个3D模型及5亿个结构化3D空间场景[18] - 2018年发布全球最大室内深度学习数据集InteriorNet 含数万套标注物体坐标和空间关系的场景数据[18] - 2025年开源3D高斯语义数据集InteriorGS 首次将3D高斯技术引入AI训练 降低数据存储成本[18] - 形成工具-数据-模型三位一体飞轮:工具层生成结构化数据 数据层提供高质量标注 模型层实现跨越式进化[18][19] 应用场景与商业化前景 - 解决AI短剧行业痛点:传统工具存在场景不连贯和制作效率低问题 空间大模型可保证全场景物理一致性[20][21][22] - 支持机器人训练场景:自动生成带物理参数和空间关系的3D数据 为具身智能提供结构化信息[11][41] - 电商3D展厅应用:消除视角切换时物体尺寸不一致等穿帮问题 提升虚拟场景可用性[20] - 内部推进X项目:基于3D技术的AI视频生成产品 计划2025年内发布 通过3D渲染与视频增强一体化解决空间一致性问题[24] 技术实现路径 - SpatialLM 1.5基于Qwen3底模训练 采用空间语言描述3D信息 与CAD领域语言兼容[27][28][33] - SpatialGen基于扩散模型训练 使用自研渲染引擎生成的多视角图片数据[33] - 资产库与模型解耦设计 支持调用第三方资产库 确保开源兼容性[37] - 通过数据规模扩展提升空间一致性 遵循scaling law演进规律[39] 发展阶段与挑战 - 当前空间大模型处于类似GPT-2阶段 具备基础生成和交互能力 但未达到通用水平[20][42] - 主要挑战在于3D数据获取难度:无法通过互联网快捷获取 需依赖工具生成或实地扫描[31] - 未来演进方向:探索从文本直接到3D表征的技术路径 提升视觉效果与一致性的平衡[40]
将数据优势发挥到极致:「杭州六小龙」开源搭建空间智能的第一步
机器之心· 2025-08-26 17:38
三维空间数据与大模型发展 - 高质量三维空间数据是AI发展的关键支撑 直接决定领域发展上限 [1] - 视频生成模型如可灵即梦依托UGC平台海量数据实现技术进步 [3] - 数据-模型-工具形成飞轮循环 三维领域数据短缺长期制约空间理解能力 [4] 空间智能技术突破 - 空间语言模型SpatialLM 1.5基于Qwen3底模构建 具备3D空间描述语言能力 [13] - 模型支持端到端场景生成:输入文本生成结构化场景脚本 智能匹配家具模型并布局 [16] - 生成场景含物理正确结构化信息 支持批量输出多样化场景 适用于机器人路径规划与具身智能训练 [17] 空间生成模型SpatialGen - 基于扩散模型架构生成多视角图像 确保物体在不同镜头下空间属性一致 [19][21] - 数据集规模达12,328个合成场景 包含100万物体 使用全景视频训练 [22] - 通过AnySplat算法重建高斯点云 实现无伪影、无失真的时空一致性漫游视频 [18][25] 技术优势与挑战 - 三大技术优势:大规模高质量数据集、灵活视角选择、参数化布局可控生成 [28] - 多视角一致性依赖数据规模优势 通过Scaling Law持续优化但存在根本性限制 [26][29] - 文本直接生成3D存在视觉效果与空间一致性的权衡 当前以多视角图像为中间环节效果更优 [31] 开源生态与行业合作 - SpatialLM参数规模6亿至80亿 数据规模约10GB 保持无需微调的多任务处理能力 [34] - SpatialGen已面向全球开源 支持对接任意资产库 模型与资产库解耦设计 [33] - 开源平台包括Hugging Face、Github及魔搭社区 推动行业协同创新 [36]
Meta与Midjourney合作开发AI图像和视频模型;群核科技发布空间大模型丨AIGC日报
创业邦· 2025-08-26 08:04
AI技术合作与产品发布 - Meta与Midjourney合作开发图像和视频生成AI模型 研究团队将技术应用于未来AI产品和模型[2] - 钉钉发布8.0版本推出AI办公应用"钉钉ONE" 通过自然语言对话实现Agent驱动的工作信息流[2] - 百度推出AI搜索App"梯子AI" 依托多模型能力实现无广告智能搜索 提供自动模式与深度模式双路径搜索 整合影视资源聚合功能并保留少儿声纹识别[2] 空间AI模型技术突破 - 群核科技发布空间大模型SpatialLM 1.5 基于大语言模型训练 支持通过对话交互系统实现端到端场景生成[2] - 推出空间生成模型SpatialGen 基于扩散模型架构 可根据文字/图像/3D布局生成多视角图像 支持3D高斯场景渲染与漫游视频生成[2] 行业数据服务与智能平台 - 提供包含2万+LP数据与10万+基金数据的全生命周期服务 覆盖独角兽企业与1万+专精特新小巨人企业[7] - 平台包含产业图谱与行业标签体系 支持通过扫码体验"睿兽AI智能"功能[8]
群核科技黄晓煌:积极拥抱开源,推动属于空间大模型的「DeepSeek时刻」来临
IPO早知道· 2025-08-25 21:10
核心观点 - 群核科技在首届技术开放日上发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 旨在通过开源推动全球空间智能技术发展[3] - 公司基于酷家乐平台构建"空间编辑工具-空间合成数据-空间大模型"的飞轮模式 通过工具沉淀数据并加速模型训练[4] - 开源是公司核心战略之一 自2018年启动开源计划 希望成为全球空间智能服务提供商[4] 技术成果发布 - SpatialLM 1.5是基于大语言模型训练的空间语言模型 支持通过对话交互系统实现端到端可交互场景生成[4] - 模型能输出包含空间结构、物体关系、物理参数的"空间语言" 根据文本描述自动生成结构化场景脚本并智能匹配家具布局[4] - 生成场景富含物理正确的结构化信息 可批量输出多样化场景用于机器人路径规划、避障训练等应用 解决训练数据短缺问题[6] - SpatialGen是基于扩散模型的多视角图像生成模型 可根据文字描述、参考图像和3D布局生成时空一致的多视角图像[7] - 支持生成3D高斯场景并渲染漫游视频 用户可自由穿梭生成场景获得沉浸式体验[7][8] 数据资源与技术优势 - 截至2025年6月30日 公司拥有超过4.41亿个3D模型和超过5亿个结构化3D空间场景[4] - SpatialGen数据集包含12,328个场景和100万个物体 使用全景视频格式[9] - 相比传统大语言模型 空间大模型在真实感全息漫游、结构化可交互及复杂室内场景处理方面具有显著优势[3] 开源与行业影响 - SpatialLM 1.0于2025年3月开源后迅速登上Hugging Face趋势榜前三 已有初创企业基于其代码训练自有模型[6] - 两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源[10] - SpatialGen在技术开放日当天已可在开源网站下载使用 SpatialLM 1.5将以"SpatialLM-Chat"形式完成开源[10] AI视频生成解决方案 - 基于SpatialGen探索AI视频生成解决方案 通过新范式解决时空一致性难题[3] - 正在研发基于3D技术的AI视频生成产品 计划2025年内发布 可能是全球首款深度融合3D能力的AI视频生成Agent[9] - 通过构建3D渲染与视频增强一体化生成管线 弥补当前AIGC视频生成中时空一致性不足的问题[9]
群核科技发布两款空间开源模型 将坚持开源共建技术生态
证券日报网· 2025-08-25 19:18
核心产品发布 - 公司发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 专注于3D室内场景认知与生成 [1] - SpatialLM 1.5基于大语言模型训练 支持通过对话交互系统实现端到端可交互场景生成 [2] - SpatialGen基于扩散模型架构 可根据文字描述、参考图像和3D空间布局生成多视角图像 [3] 技术突破与应用 - SpatialLM 1.5能输出包含空间结构、物体关系和物理参数的"空间语言" 解决传统大模型对物理世界理解的局限 [2] - 模型生成场景富含物理正确的结构化信息 可快速批量输出多样化场景用于机器人路径规划和避障训练 [2] - SpatialGen生成的多视角图像确保物体在不同镜头下保持准确空间属性和物理关系 支持3D高斯场景渲染和全息漫游视频 [3] - 现场演示显示模型能理解"去客厅餐桌拿药"指令 自动规划机器人最优行动路径 [2] 商业化进展 - 基于SpatialGen的AI视频生成解决方案旨在解决时空一致性难题 计划年内发布全球首款深度融合3D能力的AI视频生成Agent [3] - 公司构建"空间编辑工具-空间合成数据-空间大模型"的智能飞轮 截至6月30日拥有超过4.41亿个3D模型和5亿个结构化3D空间场景 [4] 开源战略 - 两款模型将逐步在HuggingFace、GitHub和魔搭社区等平台面向全球开发者开源 [5] - 公司自2018年启动开源战略 通过开放数据和算法能力推动空间智能技术发展 [4]