SpatialVerse

搜索文档
具身智能数据:AI时代的石油
东吴证券· 2025-06-05 09:23
报告行业投资评级 未提及 报告的核心观点 - 数据是推动具身智能技术快速突破和落地应用的关键,优质数据集能驱动智能体感知与理解环境,加速具身智能模型的训练与部署,帮助机器人完成复杂任务 [3][17] - 具身智能数据按采集方式分为真实数据和仿真数据,两者互补,未来训练将大量混合使用 [3][22] - 目前具身智能数据多为厂商自采集,存在丰富开源数据集,但大规模真机数据采集成本高 [3] - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟两部分 [3] - 建议重点关注布局具身智能数据集的企业,如均胜电子、海天瑞声、索辰科技、华如科技 [3][76] 根据相关目录分别进行总结 具身智能数据集基本概念 - 具身智能的关键因子包括算法、算力、机器人硬件和数据,目前数据是世界级难题 [11] - 数据是具身智能技术突破和应用的关键,但高质量、多样化数据集稀缺,构建此类数据集是基础工作,且数据集的标准和有效很重要 [17] - 数据采集的关键价值包括促进通用智能形成、增强环境理解能力、支持任务迁移与泛化、提升实时决策能力,其难点包括高昂成本、数据复杂性、覆盖面不足、仿真 - 现实差距和设备差异性 [21][20] - 具身智能数据分为真实数据和仿真数据,真实数据通过传感器在真实环境交互采集,来源有机器人遥操和动作捕捉;仿真数据借助计算机模拟技术在虚拟环境生成,两者互补,未来将混合使用 [22][24] - 具身智能数据质量把控重要,中国信通院等编制了相关标准,国家地方共建具身智能机器人创新中心牵头立项行业标准并发布多项报告,加速具身智能行业良性发展 [27] 国内外具身智能真实数据集现状 - 当前具身智能机器人数据多为厂商自采集,采集方式有直接接触和间接接触两种,真机数据采集成本高,市面上存在丰富高质量开源数据集 [32] - 介绍了多个具身智能开源数据集,如智元的AgiBot World、谷歌的Open X - Embodiment、国地共建中心的RoboMind等,涵盖演示数量、场景任务、动作技能等信息 [30] - 智元的AgiBot World是全球首个基于全域真实场景等的百万真机数据集,长程数据规模、场景范围覆盖面等优于谷歌相关数据集,涵盖多种场景和操作对象,基于特定机器人采集数据 [35] - 谷歌的Open X - Embodiment是开放的大规模标准化机器人学习数据集,研究人员训练了RT - 1和RT - 2模型 [38] - 国地共建中心的RoboMind数据集解决了全球开源数据集的一些问题,采用多种形态机器人采集数据,涵盖多任务多场景,计划开源数据 [41] - 特斯拉Optimus机器人的数据有三个来源,目前数据来自VR遥操和动捕手套 [45] - 国家地方共建人形机器人创新中心启用具身智能训练场,助力数据采集 [46] 国内外具身智能仿真数据集现状 - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟,场景生成引擎有合成视频 + 3D重建和AIGC直接合成3D数据两种技术路径 [3][52] - 群核科技是空间智能领军企业,其SpatialVerse为机器人提供优质数据服务,构建物理正确的数据集库 [60] - Hillbot专注具身合成数据,利用3D生成式AI技术生成数据和模拟互动 [61] - World Labs专注空间智能,发布空间智能模型,生成逼近物理世界的3D环境建模 [64] - 智元推出AgiBot Digital World仿真框架,开源海量仿真数据集,涵盖多种场景、物品、材质和技能 [67] - CMU联合开源生成式物理引擎Genesis,为机器人提供统一模拟平台 [68] - 英伟达的NVIDIA Isaac Sim结合Cosmos可生成可控合成数据,同时发布的Isaac GR00T Blueprint可帮助开发者生成合成轨迹数据 [74] 相关标的 - 重点关注布局具身智能数据集的企业,包括均胜电子(数据场)、海天瑞声(机器人数据集)、索辰科技(数据仿真)、华如科技(数据仿真) [76]
“杭州六小龙”的招聘迷局
吴晓波频道· 2025-04-27 23:18
核心观点 - 文章探讨以"杭州六小龙"为代表的中国新生代科创企业如何在"极客精神"与"商业扩张"之间寻找平衡[2][9] - 极客精神代表专注、创新和技术驱动,而扩张意味着规模化和商业化,两者存在天然矛盾[5][6] - 科创企业需要在驾驭资本洪流的同时保持极客初心,才能实现长期成功[47] 企业案例 强脑科技 - 专注于脑机接口技术,国际地位与马斯克的Neuralink相当[2] - 招聘理念以"寻找真正的极客"为核心,目前在招职位不超过20个[4][7] - 创始人工作重心在研发和严格筛选面试者,保持"小而精而美"的极客状态[2][4] 宇树科技 - 半年内在中国一线城市成立三家子公司,被视为规模化扩张开端[12] - 招聘延伸至销售、公关等非技术岗位,显示技术落地野心[12][13] - 目标是让四足机器人从春晚表演转变为能赚钱的商品[13] 智元机器人 - 成立仅一年团队规模已达1000多人,外包和实习生占比近50%[14] - 在招职位超过200个,涉及多个职能领域[14] - 快速扩张可能带来管理盲区和战略失误风险[14] DeepSeek - 团队控制在150人左右,实行精英化策略[24] - 拒绝融资和上市,招聘需求极为克制[24] - 实行"三无政策":无固定团队、无汇报关系、无年度计划[27] - 废除KPI考核,岗位分工在工作中自然形成[27] 游戏科学 - 《黑神话:悟空》开发团队仅140人,远少于传统游戏大厂[27] - 保持极客基因,初始团队只有7人[27] OpenAI - 从非营利研究机构转向商业化过程中面临挑战[28] - 2024年营收37亿美元但亏损50亿美元,GPT-5训练成本可能超10亿美元[28] - 员工从11人增至1500人,人力成本约15亿美元[28] - 商业化过程中超过20位关键人员离职[28] 群核科技 - "杭州六小龙"中首个谋求IPO的公司[33] - 研发团队615人,占员工总数44.3%[30] - 2023年营收6.64亿元,2024年平均月活跃访客8630万[30] - 现金及等价物仅余2亿元,面临盈利压力[33] - 大量招聘销售人才,BOSS直聘上需求超360个[35] 行业观察 - 科创企业扩张可能导致管理问题,如图森未来团队从2000人降至解散,市值从160亿跌至1.13亿美元[14][18][19] - 过度追求规模可能扼杀创新,如谷歌"20%时间"政策逐渐失效[39] - 纯粹依赖小型团队难以形成商业势能,如Pebble最终败给Apple Watch[40][41] - 新兴共生模式出现,如腾讯元宝接入DeepSeek后日活增长20倍[43] - 大公司与小企业深度耦合,如亚马逊云服务与Stability AI合作[45] - "技术换生态"的共生模式正在改写传统商业规则[46]
具身空间数据技术的路线之争:合成重建VS全端生成
量子位· 2025-04-20 21:24
具身智能数据挑战 - 高质量数据是具身智能突破的关键[1] - 现实数据采集成本过高,合成数据技术成为重要解决方案[2] - 当前具身智能数据存在数量少、场景单一、语义标签粗略等问题[16][17] - 自动驾驶已建立城市级仿真数据闭环,但室内环境缺乏3D合成平台[4][18] 技术路线之争 - 两条主流技术路径:"视频合成+3D重建"与"端到端3D生成"[3] - 视频合成路线存在模态转换链路过长、误差累积、精度瓶颈等问题[24][39] - 端到端3D生成路线理论效率高但面临常识欠缺、现实合理性不足等挑战[67][69][70] - 视频合成路线代表案例:群核科技SpatialLM+SpatialVerse[28][31]、Hillbot Cosmos+Sapien[35][37] - 端到端3D生成代表方法:GNNs[49]、自回归Transformer[53][54]、扩散模型[60]、程序化生成[62] 模态编码创新方案 - 提出"模态编码"技术,将空间设计规则转化为可学习的数学结构[5][75][77] - Sengine SimHub通过强化学习嵌入行业知识,生成兼具功能性与合理性的3D场景[76][78] - 模态编码支持从户型图/功能需求到结构化3D数据的自动转译,提升语义理解能力[81] 行业现状与趋势 - 机器人运动控制能力已成熟,但环境感知与推理能力仍是短板[98] - 现有合成数据技术难以满足家庭场景的多样性与交互真实性需求[18][40] - 未来需构建支持规则嵌入、偏好吸纳、交互可控的空间数据生成体系[90][94] - 合成数据将成为具身智能迈向通用能力的关键推动力[100] 代表性研究进展 - 李飞飞团队BEHAVIOR基准基于mesh网格生成,缺乏语义标注[25][30] - ATISS利用自回归Transformer生成合理室内布局[54][57] - DiffuScene通过扩散模型生成物理合理的完整场景[60][62] - Infinigen Indoors通过程序化生成实现高可控性3D场景[62][80] - SceneTeller展示语言到3D场景的强映射能力[65][67]
深度|具身合成数据的路线之争,谁将率先走出困境?
Z Potentials· 2025-04-08 20:30
具身智能技术路线之争 - 核心观点:具身智能领域存在两条主要技术路线——"视频合成+3D重建"与"端到端3D生成",前者存在模态转换误差累积问题,后者理论效率更高但面临常识欠缺挑战 [1] - 当前机器人高难度动作主要依赖遥控/预设编程,环境感知与推理能力仍是短板 [1] - 合成数据被视为具身智能突破关键,英伟达指出机器人领域缺乏互联网规模数据,室内环境3D合成平台尤为稀缺 [1][6] 具身智能现实挑战 - 智能困境:机器人运动控制能力成熟,但空间理解力不足,难以处理陌生环境中的语义推理 [3][4] - 数据困境:现有数据来源(真实扫描/游戏引擎/开源数据集)存在场景单一、效率低、语义粗糙等问题,缺乏物理一致性(如可承重桌面、可开启门) [6] - 家庭环境多样性导致传统数据采集方式不经济,需依赖合成数据覆盖变体 [8] 技术路线一:视频合成+3D重建 - 代表方案:李飞飞团队BEHAVIOR基准生成mesh壳体但缺乏结构语义 [13],群核科技SpatialLM+SpatialVerse通过LLM理解3D语义但仍存物理精度问题 [16] - Hillbot采用NVIDIA Cosmos生成视频片段,通过Sapien/ManiSkill重建3D场景并赋予物理属性 [21] - 核心缺陷:路径长导致误差累积,生成结果结构精度有限 [11][16] 技术路线二:端到端3D生成 - 主要方法: - 图神经网络(GNN):MIT超图模型优化空间关系,HAISOR结合强化学习优化人机交互布局 [27][29] - 自回归Transformer:ATISS基于房间平面图生成多样化布局,InstructScene实现文本指令到结构图转化 [30][33] - 扩散模型:LEGO-NET迭代优化布局,DiffuScene生成物理合理场景 [31][37] - 程序化生成:Infinigen/ProcTHOR通过规则合成高可控性场景 [35][38] - LLM应用:FlairGPT分解设计任务,SceneTeller实现文本到3D场景直接生成 [36][41] - 核心挑战:生成质量低、常识欠缺(物体重叠/通道阻塞)、程序化生成缺乏设计弹性 [39][40][42] 生境科技模态编码解决方案 - 提出"模态编码"技术,将设计知识(如餐桌靠近厨房)转化为可学习的数学结构 [44] - Sengine SimHub引擎通过空间模态编码+强化学习,实现户型图到3D场景的自动转译,考虑功能/动线/家具逻辑等实际因素 [44][48] - 系统内嵌训练流程提升生成稳定性,使合成数据更贴近真实空间逻辑 [45] 行业技术对比 - 视频合成路线:依赖真实视频的先天常识优势,但信息效率低 [1][39] - 端到端生成路线:理论效率高但需解决常识嵌入问题,代表模型包括ATISS/LEGO-NET/DiffuScene等 [11][31][33] - 未来方向:需构建可嵌入规则的空间数据生成体系,模态编码或成关键突破点 [49][50] 代表性研究 - GNN:HAISOR优化人机交互布局 [29],PlanIT实现高层语义规划 [52] - 扩散模型:DiffuScene生成物理合理场景 [37],LEGO-NET学习人类布局偏好 [52] - 程序化生成:Infinigen提供无限变体高质量数据 [46][52],ProcTHOR支持大规模交互环境 [38][52] - LLM应用:FlairGPT分步骤拆解设计约束 [52],SceneTeller实现语言到空间映射 [41][52]
群核科技亮相GTC,创始人黄晓煌回应卖英伟达股票创业:光谈钱就没意思了
IPO早知道· 2025-03-21 19:52
群核科技开源空间理解模型SpatialLM - 公司在GTC2025全球大会上宣布开源基于大语言模型的3D场景语义生成框架SpatialLM,突破传统大语言模型对物理世界几何与空间关系的理解局限 [3][5] - SpatialLM赋予机器类似人类的空间认知和解析能力,为具身智能领域提供基础空间理解训练框架,企业可针对特定场景微调模型以降低训练门槛 [5] - 公司董事长黄晓煌表示目标是打造从空间认知理解到空间行动交互闭环的具身智能训练平台,去年发布的空间智能解决方案SpatialVerse通过合成数据方案为机器人搭建"数字道场"实现仿真环境训练 [5] 公司技术发展路径 - 公司利用GPU高性能计算提升渲染效率,将原本需要几十分钟的渲染时间缩短至十秒,使酷家乐产品快速获得市场认可 [8] - 当前业务方向是利用海量三维可交互数据集和空间认知能力构建"数字道场",为人形机器人提供虚拟训练环境 [8] - 公司技术路线与英伟达黄仁勋主张的物理AI助力具身智能发展理念高度契合,黄仁勋在GTC大会提出AI发展将经历生成式AI、代理式AI到物理AI三个阶段 [8] 创始人背景与合作进展 - 创始人黄晓煌毕业于浙江大学,获英伟达全额奖学金赴UIUC深造GPU高性能计算,曾任职英伟达开发CUDA框架 [8] - 公司已与硅谷头部科技企业在内的国内外具身智能企业达成空间和具身智能训练合作 [5] - 黄晓煌在GTC大会期间与英伟达CEO黄仁勋会面,双方就技术理念进行深入交流 [7][8]
IPO周报 | 蜜雪冰城通过港交所聆讯;群核科技冲刺「全球空间智能第一股」
IPO早知道· 2025-02-16 21:39
一周IPO动态,覆盖港股、美股、A股。 本文为IPO早知道原创 作者|C叔 微信公众号|ipozaozhidao 蜜雪冰城 港股|通过聆讯 据IPO早知道消息,蜜雪冰城股份有限公司(以下简称"蜜雪冰城")日前已通过港交所聆讯并于2月 14日晚间披露通过聆讯后的资料集。 这意味着,蜜雪冰城即将在港挂牌上市。 截至2024年12月31日,蜜雪冰城的门店数量为46479家。2024年,蜜雪冰城门店网络实现出杯量约 90亿杯,同比增长约21.9%;终端零售额约583亿,同比增长约21.7%。根据灼识咨询的报告,仅以 截至2024年9月30日的门店数量计算,蜜雪冰城已经成为全球第一的现制饮品企业。 在东南亚市场,蜜雪冰城也是排名第一的现制茶饮品牌。截至2024年9月30日,蜜雪冰城门店网络 已覆盖中国及印度尼西亚、越南、马来西亚、泰国等海外11个国家,门店数量约4,800家门店。 同时,蜜雪冰城的门店网络终端零售额、饮品出杯量同样持续增长——2021年、2022年、2023年 及2024年,门店终端零售额分别为228亿元、307亿元、478亿元及583亿元,饮品出杯量分别为36 亿杯、47亿杯、74亿杯及90亿杯。 以 ...
群核科技(酷家乐母公司)冲刺港交所:或将成为「全球空间智能第一股」
IPO早知道· 2025-02-14 20:14
公司概况 - 群核科技是一家以AI技术和GPU集群为底座的空间智能企业,构建了物理正确的世界模拟器,被称为"机器人的训练道场"[2][3] - 公司成立于2011年,专注于空间认知技术,2024年发布基于三维空间的多模态CAD大模型,技术应用于室内设计、工业制造和虚拟物理世界训练[3] - 公司拟于2025年2月14日向港交所递交招股说明书,摩根大通和建银国际担任联席保荐人[3] 市场地位与产品 - 按2023年MAU计算是全球最大空间设计平台,按2023年收入计算是中国最大空间设计软件提供商,市场份额22.2%[4] - 2024年平均月活跃访客数8630万,旗下产品包括酷家乐(含3.62亿个3D模型)、Coohom(海外版支持14种语言)和SpatialVerse空间智能平台[4] - Coohom海外收入占比2022年11.3%、2023年6.0%、2024年前三季度7.4%[4] 技术能力 - 核心技术包括GPU基础设施、AI应用程序和合成数据生成能力,2024年12月29.6%月活用户使用AI功能[4] - 2024年AI生成6.4亿张图片,处理2K图像速度从2022年53秒提升至1.2秒[4] - SpatialVerse构建物理正确数据集库,用于训练AIGC模型和增强机器人/AR/VR认知能力[4] 客户与财务表现 - 企业客户数从2022年33,058名增长至2024年9月30日45,548名,大客户净收益留存率114.1%[4] - 2022年和2023年营收分别为6.01亿元和6.64亿元(+10.5%),2024年前三季度营收5.53亿元(+13.8%)[4] - 电商解决方案2024年前三季度收入同比+122.0%,毛利率从2022年72.7%提升至2024年前三季度80.4%[5] - 经调整净亏损率从2022年56.2%收窄至2024年前三季度16.9%[5] 融资与资金用途 - 获IDG资本、纪源资本、高瓴创投等投资,IPO前三家机构均持股超10%[5] - IPO募集资金将用于国际扩张、产品扩展、销售团队建设、技术研发和营运资金[5]