SpatialLM

搜索文档
具身空间数据技术的路线之争:合成重建VS全端生成
量子位· 2025-04-20 21:24
具身智能数据挑战 - 高质量数据是具身智能突破的关键[1] - 现实数据采集成本过高,合成数据技术成为重要解决方案[2] - 当前具身智能数据存在数量少、场景单一、语义标签粗略等问题[16][17] - 自动驾驶已建立城市级仿真数据闭环,但室内环境缺乏3D合成平台[4][18] 技术路线之争 - 两条主流技术路径:"视频合成+3D重建"与"端到端3D生成"[3] - 视频合成路线存在模态转换链路过长、误差累积、精度瓶颈等问题[24][39] - 端到端3D生成路线理论效率高但面临常识欠缺、现实合理性不足等挑战[67][69][70] - 视频合成路线代表案例:群核科技SpatialLM+SpatialVerse[28][31]、Hillbot Cosmos+Sapien[35][37] - 端到端3D生成代表方法:GNNs[49]、自回归Transformer[53][54]、扩散模型[60]、程序化生成[62] 模态编码创新方案 - 提出"模态编码"技术,将空间设计规则转化为可学习的数学结构[5][75][77] - Sengine SimHub通过强化学习嵌入行业知识,生成兼具功能性与合理性的3D场景[76][78] - 模态编码支持从户型图/功能需求到结构化3D数据的自动转译,提升语义理解能力[81] 行业现状与趋势 - 机器人运动控制能力已成熟,但环境感知与推理能力仍是短板[98] - 现有合成数据技术难以满足家庭场景的多样性与交互真实性需求[18][40] - 未来需构建支持规则嵌入、偏好吸纳、交互可控的空间数据生成体系[90][94] - 合成数据将成为具身智能迈向通用能力的关键推动力[100] 代表性研究进展 - 李飞飞团队BEHAVIOR基准基于mesh网格生成,缺乏语义标注[25][30] - ATISS利用自回归Transformer生成合理室内布局[54][57] - DiffuScene通过扩散模型生成物理合理的完整场景[60][62] - Infinigen Indoors通过程序化生成实现高可控性3D场景[62][80] - SceneTeller展示语言到3D场景的强映射能力[65][67]
深度|具身合成数据的路线之争,谁将率先走出困境?
Z Potentials· 2025-04-08 20:30
具身智能技术路线之争 - 核心观点:具身智能领域存在两条主要技术路线——"视频合成+3D重建"与"端到端3D生成",前者存在模态转换误差累积问题,后者理论效率更高但面临常识欠缺挑战 [1] - 当前机器人高难度动作主要依赖遥控/预设编程,环境感知与推理能力仍是短板 [1] - 合成数据被视为具身智能突破关键,英伟达指出机器人领域缺乏互联网规模数据,室内环境3D合成平台尤为稀缺 [1][6] 具身智能现实挑战 - 智能困境:机器人运动控制能力成熟,但空间理解力不足,难以处理陌生环境中的语义推理 [3][4] - 数据困境:现有数据来源(真实扫描/游戏引擎/开源数据集)存在场景单一、效率低、语义粗糙等问题,缺乏物理一致性(如可承重桌面、可开启门) [6] - 家庭环境多样性导致传统数据采集方式不经济,需依赖合成数据覆盖变体 [8] 技术路线一:视频合成+3D重建 - 代表方案:李飞飞团队BEHAVIOR基准生成mesh壳体但缺乏结构语义 [13],群核科技SpatialLM+SpatialVerse通过LLM理解3D语义但仍存物理精度问题 [16] - Hillbot采用NVIDIA Cosmos生成视频片段,通过Sapien/ManiSkill重建3D场景并赋予物理属性 [21] - 核心缺陷:路径长导致误差累积,生成结果结构精度有限 [11][16] 技术路线二:端到端3D生成 - 主要方法: - 图神经网络(GNN):MIT超图模型优化空间关系,HAISOR结合强化学习优化人机交互布局 [27][29] - 自回归Transformer:ATISS基于房间平面图生成多样化布局,InstructScene实现文本指令到结构图转化 [30][33] - 扩散模型:LEGO-NET迭代优化布局,DiffuScene生成物理合理场景 [31][37] - 程序化生成:Infinigen/ProcTHOR通过规则合成高可控性场景 [35][38] - LLM应用:FlairGPT分解设计任务,SceneTeller实现文本到3D场景直接生成 [36][41] - 核心挑战:生成质量低、常识欠缺(物体重叠/通道阻塞)、程序化生成缺乏设计弹性 [39][40][42] 生境科技模态编码解决方案 - 提出"模态编码"技术,将设计知识(如餐桌靠近厨房)转化为可学习的数学结构 [44] - Sengine SimHub引擎通过空间模态编码+强化学习,实现户型图到3D场景的自动转译,考虑功能/动线/家具逻辑等实际因素 [44][48] - 系统内嵌训练流程提升生成稳定性,使合成数据更贴近真实空间逻辑 [45] 行业技术对比 - 视频合成路线:依赖真实视频的先天常识优势,但信息效率低 [1][39] - 端到端生成路线:理论效率高但需解决常识嵌入问题,代表模型包括ATISS/LEGO-NET/DiffuScene等 [11][31][33] - 未来方向:需构建可嵌入规则的空间数据生成体系,模态编码或成关键突破点 [49][50] 代表性研究 - GNN:HAISOR优化人机交互布局 [29],PlanIT实现高层语义规划 [52] - 扩散模型:DiffuScene生成物理合理场景 [37],LEGO-NET学习人类布局偏好 [52] - 程序化生成:Infinigen提供无限变体高质量数据 [46][52],ProcTHOR支持大规模交互环境 [38][52] - LLM应用:FlairGPT分步骤拆解设计约束 [52],SceneTeller实现语言到空间映射 [41][52]
陆家嘴财经早餐2025年3月29日星期六
Wind万得· 2025-03-29 06:36
热点聚焦 - 中国领导人强调对外开放政策不变,重申中国是外商理想投资目的地[3] - 证监会修改IPO配售规则,新增银行理财、保险资管产品为优先配售对象,禁止战略投资者限售期内出借股份[3] - 美国2月核心PCE同比上涨2.8%超预期,个人支出环比仅增0.1%引发滞胀担忧[3] - 市场监管总局将审查长和向贝莱德出售巴拿马港口交易[3] 环球市场 - 美股三大指数全线下跌:道指跌1.69%,纳指跌2.7%,科技七巨头指数跌3.29%[5] - 欧洲股指普遍下跌:德国DAX跌0.96%,法国CAC40跌0.93%[5] - 亚太股指多数下跌:日经225跌1.8%,韩国综指跌1.89%[5] - COMEX黄金期货涨0.88%至3118美元/盎司创历史新高[6] - LME期锡涨3.5%领涨基本金属,期锌跌3.4%表现最差[6] 宏观政策 - 国务院部署跨境电商综试区扩围及口岸便利化措施[11] - 国资委将推央企稳增长举措,深化"AI+"专项行动[11] - 税收征管法修订拟加强打击高收入者偷逃税行为[11] - 央行单日净回笼145亿元,本周全口径净投放3036亿元[13] 国内股市 - 证监会对东旭集团欺诈发行拟罚款17亿元,19人遭市场禁入[15] - A股三大指数集体下跌:上证跌0.67%,两市超4300股下跌[15] - 六大行2024年合计净利润1.4万亿元,日均盈利38亿元[16] - 美的集团拟50-100亿元回购股份,净利润同比增长14.3%[19] 金融监管 - 央行探索拓展宏观审慎功能,充实存款保险基金等化险资源[20] - 金融监管总局拟提高货币经纪公司注册资本门槛[20] - 中国人寿原总裁杨超涉嫌严重违纪被调查[21] 楼市动态 - 上海土拍现新地王:静安大宁地块楼板价92659元/平方米[23] - 杭州西湖区宅地溢价115.39%,楼面价超8.8万元/平方米[23] - 安徽全面取消住房限购,推行"房票"货币化安置[23] 产业政策 - 四部门将整治App违规收集个人信息问题[25] - 工信部将出台生物制造、量子科技等细分产业政策[25] - "中国环流三号"实现电子温度突破1亿摄氏度[26] 商品市场 - 上金所上调黄金合约保证金至12%,涨跌幅限制至11%[40] - 碳酸锂价格跌至7.41万元/吨,近5日累计跌150元[42] - 十部门推动铝产业发展,目标2027年再生铝产量1500万吨[40] 债券外汇 - 2月地方政府债发行1.3万亿元,专项债占比91%[45] - 人民币中间价报7.1752,在岸夜盘收报7.2630[48] - 我国2月国际收支货物贸易顺差482亿美元[49]
群核科技亮相GTC,创始人黄晓煌回应卖英伟达股票创业:光谈钱就没意思了
IPO早知道· 2025-03-21 19:52
群核科技开源空间理解模型SpatialLM - 公司在GTC2025全球大会上宣布开源基于大语言模型的3D场景语义生成框架SpatialLM,突破传统大语言模型对物理世界几何与空间关系的理解局限 [3][5] - SpatialLM赋予机器类似人类的空间认知和解析能力,为具身智能领域提供基础空间理解训练框架,企业可针对特定场景微调模型以降低训练门槛 [5] - 公司董事长黄晓煌表示目标是打造从空间认知理解到空间行动交互闭环的具身智能训练平台,去年发布的空间智能解决方案SpatialVerse通过合成数据方案为机器人搭建"数字道场"实现仿真环境训练 [5] 公司技术发展路径 - 公司利用GPU高性能计算提升渲染效率,将原本需要几十分钟的渲染时间缩短至十秒,使酷家乐产品快速获得市场认可 [8] - 当前业务方向是利用海量三维可交互数据集和空间认知能力构建"数字道场",为人形机器人提供虚拟训练环境 [8] - 公司技术路线与英伟达黄仁勋主张的物理AI助力具身智能发展理念高度契合,黄仁勋在GTC大会提出AI发展将经历生成式AI、代理式AI到物理AI三个阶段 [8] 创始人背景与合作进展 - 创始人黄晓煌毕业于浙江大学,获英伟达全额奖学金赴UIUC深造GPU高性能计算,曾任职英伟达开发CUDA框架 [8] - 公司已与硅谷头部科技企业在内的国内外具身智能企业达成空间和具身智能训练合作 [5] - 黄晓煌在GTC大会期间与英伟达CEO黄仁勋会面,双方就技术理念进行深入交流 [7][8]