三维空间数据与大模型发展 - 高质量三维空间数据是AI发展的关键支撑 直接决定领域发展上限 [1] - 视频生成模型如可灵即梦依托UGC平台海量数据实现技术进步 [3] - 数据-模型-工具形成飞轮循环 三维领域数据短缺长期制约空间理解能力 [4] 空间智能技术突破 - 空间语言模型SpatialLM 1.5基于Qwen3底模构建 具备3D空间描述语言能力 [13] - 模型支持端到端场景生成:输入文本生成结构化场景脚本 智能匹配家具模型并布局 [16] - 生成场景含物理正确结构化信息 支持批量输出多样化场景 适用于机器人路径规划与具身智能训练 [17] 空间生成模型SpatialGen - 基于扩散模型架构生成多视角图像 确保物体在不同镜头下空间属性一致 [19][21] - 数据集规模达12,328个合成场景 包含100万物体 使用全景视频训练 [22] - 通过AnySplat算法重建高斯点云 实现无伪影、无失真的时空一致性漫游视频 [18][25] 技术优势与挑战 - 三大技术优势:大规模高质量数据集、灵活视角选择、参数化布局可控生成 [28] - 多视角一致性依赖数据规模优势 通过Scaling Law持续优化但存在根本性限制 [26][29] - 文本直接生成3D存在视觉效果与空间一致性的权衡 当前以多视角图像为中间环节效果更优 [31] 开源生态与行业合作 - SpatialLM参数规模6亿至80亿 数据规模约10GB 保持无需微调的多任务处理能力 [34] - SpatialGen已面向全球开源 支持对接任意资产库 模型与资产库解耦设计 [33] - 开源平台包括Hugging Face、Github及魔搭社区 推动行业协同创新 [36]
将数据优势发挥到极致:「杭州六小龙」开源搭建空间智能的第一步
机器之心·2025-08-26 17:38