模态编码 - 财报，业绩电话会，研报，新闻

模态编码

搜索文档

量子位· 2025-04-20 21:24

具身智能数据挑战 - 高质量数据是具身智能突破的关键[1] - 现实数据采集成本过高，合成数据技术成为重要解决方案[2] - 当前具身智能数据存在数量少、场景单一、语义标签粗略等问题[16][17] - 自动驾驶已建立城市级仿真数据闭环，但室内环境缺乏3D合成平台[4][18] 技术路线之争 - 两条主流技术路径："视频合成+3D重建"与"端到端3D生成"[3] - 视频合成路线存在模态转换链路过长、误差累积、精度瓶颈等问题[24][39] - 端到端3D生成路线理论效率高但面临常识欠缺、现实合理性不足等挑战[67][69][70] - 视频合成路线代表案例：群核科技SpatialLM+SpatialVerse[28][31]、Hillbot Cosmos+Sapien[35][37] - 端到端3D生成代表方法：GNNs[49]、自回归Transformer[53][54]、扩散模型[60]、程序化生成[62] 模态编码创新方案 - 提出"模态编码"技术，将空间设计规则转化为可学习的数学结构[5][75][77] - Sengine SimHub通过强化学习嵌入行业知识，生成兼具功能性与合理性的3D场景[76][78] - 模态编码支持从户型图/功能需求到结构化3D数据的自动转译，提升语义理解能力[81] 行业现状与趋势 - 机器人运动控制能力已成熟，但环境感知与推理能力仍是短板[98] - 现有合成数据技术难以满足家庭场景的多样性与交互真实性需求[18][40] - 未来需构建支持规则嵌入、偏好吸纳、交互可控的空间数据生成体系[90][94] - 合成数据将成为具身智能迈向通用能力的关键推动力[100] 代表性研究进展 - 李飞飞团队BEHAVIOR基准基于mesh网格生成，缺乏语义标注[25][30] - ATISS利用自回归Transformer生成合理室内布局[54][57] - DiffuScene通过扩散模型生成物理合理的完整场景[60][62] - Infinigen Indoors通过程序化生成实现高可控性3D场景[62][80] - SceneTeller展示语言到3D场景的强映射能力[65][67]

NVIDIA Cosmos World Foundation Models

NVIDIA Cosmos World Foundation Models

SpatialLM