WorldGrow
搜索文档
华为刚投的物理AI:首家国产世界模型公司
量子位· 2025-11-12 12:08
华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界 完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资 也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年 是国内第一家"纯血"物理AI公司 创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型 具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能 与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本 联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案 已签约多家头部主机厂 服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士 拥有微软 三星 地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监 地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度 嬴彻架构师 曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径 强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径 省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围 如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资 华为在空间智能和世界模型上的布局正在连点成线[28]
华为世界模型来了,单卡30分钟生成272㎡场景
36氪· 2025-10-28 15:32
技术突破与核心能力 - 推出世界模型WorldGrow,能生成1800平方米(19x39块)超大室内场景,单张A100显卡30分钟可生成约272平方米场景 [1][11] - 生成场景具备连贯的几何拓扑和照片级真实感外观,虚拟人可在复杂空间布局中自主规划路径并顺畅导航 [3] - 采用三步核心技术:数据精准预处理、3D块无缝拼接机制、粗到精生成策略,有效解决传统方法导致的物体变形、纹理断裂、布局不合理及扩展性差等问题 [5][7][9] 性能优势与效率表现 - 在3D-FRONT数据集上,几何重建指标MMD(CD为0.97x10²,EMD为13.33)和COV(CD为51.82%,EMD为46.56%)达到SOTA水平,FID指标低至7.52,显著优于SynCity、BlockFusion等主流方法 [10][12] - 生成效率是同类技术的6倍,扩展至7×7块超大场景时边缘质量仍保持稳定 [10][11] - 在10×10区块场景生成对比中,其MMD(CD为0.96x10²,EMD为12.83)和COV(CD为48.99%,EMD为48.18%)指标表现优异,FIDT为5.43 [11] 研发背景与合作机构 - 该研究由华为联合上海交通大学、华中科技大学共同完成,论文第一作者为上海交通大学的Sikuang Li和Chen Yang [13] - 研究完成于作者在华为实习期间,通讯作者为华为终端BG首席科学家、国际欧亚科学院院士田奇 [13]
华为世界模型来了!单卡30分钟生成272㎡场景
量子位· 2025-10-28 13:12
技术突破 - 华为联合上海交通大学、华中科技大学推出世界模型WorldGrow,可生成1800㎡超大室内场景(19x39块),单卡30分钟生成272㎡ [1] - 生成场景具备连贯几何拓扑和照片级真实感外观,虚拟人可在复杂空间布局中自主规划路径且不迷路 [3][4] - 技术解决了传统方法视角转换导致的物体变形(如沙发腿歪斜)、纹理断裂、扩展性差及布局逻辑混乱(如冰箱塞进卧室)等问题 [7] 核心技术流程 - 数据精准预处理:从3D-FRONT数据集提取优质样本,通过Blender进行场景切片和区块切分,利用occupancy检测确保区块内容密度≥95%,并构建粗/细两级数据集分别控制宏观布局与纹理细节 [10] - 3D块补全机制:通过结构生成器确定3D框架,latent生成器重建结构化潜变量特征,结合带噪潜变量、二进制掩码等输入消除边缘断裂和纹理错位,实现无缝拼接 [11] - 粗到精生成策略:粗结构模型先规划窗户朝向、走廊连接等整体布局,再通过三线性插值上采样匹配细块分辨率,由细结构生成器补全家具纹理等细节 [12] 性能优势 - 在3D-FRONT数据集上,几何重建指标MMD(0.97×10²)、COV(51.82%)达SOTA水平,FID指标低至7.52,显著优于SynCity(FID 51.97)、BlockFusion等主流方法 [15][16][17] - 单张A100显卡30分钟生成10×10区块(约272㎡),速度达同类技术6倍,扩展至7×7块超大场景时边缘质量仍保持稳定 [16]