空间智能数据集
搜索文档
空间智能爆发只需24个月?群核科技首席科学家唐睿预言:具身智能才是AGI终极形态 | 万有引力
AI科技大本营· 2026-01-28 19:01
文章核心观点 - 人工智能正经历从“对话系统”向“行动智能”的根本性转变,而“空间智能”被视为实现这一转变及通往AGI的关键拼图[1][2][3] - 空间智能是具身智能的基础设施,通过生成3D场景和仿真数据,解决后者训练数据严重不足的核心痛点[10][11] - 行业正走向2D/视频生成与3D生成的融合演进,而非路线之争,旨在利用各自优势解决时空一致性与多视角重建等问题[11][61][64][65] - 空间智能的下一个行业爆点将依赖于硬件突破,预计在24个月内,当个人能低门槛捕获和还原现实空间时,行业将迎来质变[11][76] - 群核科技(酷家乐)凭借在计算机图形学与海量空间数据的长期积累,自2017年起锚定空间智能方向,致力于构建“3D界的ImageNet”及开源生态[4][13][34][36][73] 空间智能的定义、价值与行业定位 - **空间智能的核心**:旨在赋予机器观察、理解并在三维世界中行动的能力,是具身智能的“眼睛”和“训练场”[3][10][11] - **与具身智能的关系**:空间智能服务于具身智能,通过生成3D可交互场景和仿真数据,为具身智能与物理世界交互提供训练和验证基础[10][11][58] - **通往AGI的路径**:若AGI需在物理世界中行动,则空间智能或世界模型至关重要;若AGI仅存在于屏幕空间,则对空间智能的依赖度降低[59][60] 技术发展路径与行业共识 - **数据获取的挑战与方案**:室内空间数据获取比室外自动驾驶更困难,涉及隐私、任务多样化及高成本问题[41][42][43] - 当前解决方案主要依赖“正向设计”(设计师创作)和“逆向捕获重建”(合成数据),但这仍是“从蛋里孵蛋”[11][71] - **终极解决方案**在于感知硬件的普及,当眼镜、手机、手表等设备能无感采集空间数据时,数据瓶颈将被彻底打破[11][71][72] - **2D/视频与3D技术的融合**: - **视频辅助3D**:利用Video Diffusion模型生成多视角视频帧,作为3D重建的中间素材[63] - **3D反哺视频**:引入3D表征或隐空间作为媒介,利用3D的结构稳定性来约束视频生成,解决长视频的时空一致性问题[64] - 融合是受当前计算资源(如GPU显存)限制下的务实选择,未来若有“Killer concept”出现(如3D版Transformer),技术范式可能翻篇[67] - **空间智能的四个进化层次**: 1. **空间感知泛化**:感知设备从军工、航天下沉至消费级,未来将普及到个人可穿戴设备[45] 2. **空间理解质变**:从处理2D图像转向直接处理3D点云/高斯数据,实现精准的几何与物理属性感知[47] 3. **空间推理与决策智能化**:通过仿真和合成数据产生高质量交互数据,使智能体学会在物理世界中行动[48] 4. **空间行动** - **合成数据的层级需求**:根据应用场景,对合成数据的要求分为三层:“视觉级”(静态逼真)、“游戏级”(基础交互)、“物理仿真级”(Sim-Ready,需高精度物理属性)[52][53][54][55][56][57] 群核科技的战略与实践 - **技术路线转折点**:公司于2017年受AlphaGo启发,从用GPU“模拟物理世界”(渲染)转向“模拟智能体”,结合自身海量空间数据探索空间智能[12][13] - **核心研究重点**: - 空间内几何体和材质的高质量生成[37][38] - 空间内物体的合理摆放与布局[38] - 与浙江大学合作研究“光的布局”,甚至探索用AI大模型拟合光线物理传播过程[39][40] - **商业化与行业影响**:其开源及闭商业数据集已成为众多头部具身智能或3D空间生成团队的客户基础,并已与字节跳动、Adobe、谷歌、浙江大学等机构展开深度论文合作[36][37] - **开源生态建设**: - **目的**:在领域标准未定之时,通过开源数据和模型(如Spatial-LM)抛砖引玉,集结社区智慧共建生态,降低创业门槛[73][74] - **策略**:提供API及预训练模型,使更多团队能在其基础上微调,参与空间智能与具身智能的探索[74] - **规划**:预计在年底发布与空间生成相关的大模型[74] 市场前景与未来预测 - **关键突破点**:下一个真正爆点在于硬件突破,预计在未来24个月内,当个人能便捷地对现实空间进行捕获和还原时,行业将发生质变[11][76] - **发展驱动力**:“AI开发AI”的循环已经开启,软件迭代速度极快,但硬件感知能力的进化是补齐短板的关键[45][75] - **行业现状**:领域仍处前沿探索期,存在大量论文和商业机会,共识是普遍缺乏数据,非共识(或探索方向)在于技术路径的具体选择[70][72]