WorldGrow - 财报，业绩电话会，研报，新闻

WorldGrow

搜索文档

量子位· 2025-11-12 12:08

华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年是国内第一家"纯血"物理AI公司创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案已签约多家头部主机厂服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士拥有微软三星地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度嬴彻架构师曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资华为在空间智能和世界模型上的布局正在连点成线[28]

华为世界模型来了，单卡30分钟生成272㎡场景

36氪· 2025-10-28 15:32

技术突破与核心能力 - 推出世界模型WorldGrow，能生成1800平方米（19x39块）超大室内场景，单张A100显卡30分钟可生成约272平方米场景 [1][11] - 生成场景具备连贯的几何拓扑和照片级真实感外观，虚拟人可在复杂空间布局中自主规划路径并顺畅导航 [3] - 采用三步核心技术：数据精准预处理、3D块无缝拼接机制、粗到精生成策略，有效解决传统方法导致的物体变形、纹理断裂、布局不合理及扩展性差等问题 [5][7][9] 性能优势与效率表现 - 在3D-FRONT数据集上，几何重建指标MMD（CD为0.97x10²，EMD为13.33）和COV（CD为51.82%，EMD为46.56%）达到SOTA水平，FID指标低至7.52，显著优于SynCity、BlockFusion等主流方法 [10][12] - 生成效率是同类技术的6倍，扩展至7×7块超大场景时边缘质量仍保持稳定 [10][11] - 在10×10区块场景生成对比中，其MMD（CD为0.96x10²，EMD为12.83）和COV（CD为48.99%，EMD为48.18%）指标表现优异，FIDT为5.43 [11] 研发背景与合作机构 - 该研究由华为联合上海交通大学、华中科技大学共同完成，论文第一作者为上海交通大学的Sikuang Li和Chen Yang [13] - 研究完成于作者在华为实习期间，通讯作者为华为终端BG首席科学家、国际欧亚科学院院士田奇 [13]

AI大模型

Artificial Intelligence

WorldGrow

AI大模型

Artificial Intelligence

WorldGrow

华为世界模型来了！单卡30分钟生成272㎡场景

量子位· 2025-10-28 13:12

技术突破 - 华为联合上海交通大学、华中科技大学推出世界模型WorldGrow，可生成1800㎡超大室内场景（19x39块），单卡30分钟生成272㎡ [1] - 生成场景具备连贯几何拓扑和照片级真实感外观，虚拟人可在复杂空间布局中自主规划路径且不迷路 [3][4] - 技术解决了传统方法视角转换导致的物体变形（如沙发腿歪斜）、纹理断裂、扩展性差及布局逻辑混乱（如冰箱塞进卧室）等问题 [7] 核心技术流程 - 数据精准预处理：从3D-FRONT数据集提取优质样本，通过Blender进行场景切片和区块切分，利用occupancy检测确保区块内容密度≥95%，并构建粗/细两级数据集分别控制宏观布局与纹理细节 [10] - 3D块补全机制：通过结构生成器确定3D框架，latent生成器重建结构化潜变量特征，结合带噪潜变量、二进制掩码等输入消除边缘断裂和纹理错位，实现无缝拼接 [11] - 粗到精生成策略：粗结构模型先规划窗户朝向、走廊连接等整体布局，再通过三线性插值上采样匹配细块分辨率，由细结构生成器补全家具纹理等细节 [12] 性能优势 - 在3D-FRONT数据集上，几何重建指标MMD（0.97×10²）、COV（51.82%）达SOTA水平，FID指标低至7.52，显著优于SynCity（FID 51.97）、BlockFusion等主流方法 [15][16][17] - 单张A100显卡30分钟生成10×10区块（约272㎡），速度达同类技术6倍，扩展至7×7块超大场景时边缘质量仍保持稳定 [16]