万物皆可分割,Meta SAM 3D 能帮 AI 理解这个复杂又混乱的世界吗?|锦秋AI实验室

文章核心观点 - Meta发布的SAM 3D模型在官方演示中表现出色,但在更复杂混乱的真实世界测试中,其“常识性3D理解”能力存在显著局限性[3][4][7] - 该模型的核心目标并非生成高保真3D资产,而是为了实现对物理世界的语义理解和空间分割,服务于增强现实(AR)眼镜、具身机器人及自动驾驶等长远应用[60][62][64] 人体结构推理测试 - 在复杂遮挡场景(如名画《雅典学院》)中,模型展现出超越像素的推断能力,能自动补全被遮挡的肢体并还原为完整三维骨架,证明了其“常识性3D理解”[10][11][12] - 在肢体强接触场景(如掰手腕)中,模型因二维分割歧义而失败,无法理清紧密交错的不同个体边界,导致三维生成出现粘连[16] - 面对非标准体型(婴儿)时,模型内置的标准成人骨架模板导致比例错误和结构崩坏,且无法理解镜像反射,将镜中人误判为具有完整骨架的真实实体[19][21][23][26][29] 物体的同质堆叠测试 - 对多层堆叠的快递盒,模型在物体边缘清晰、材质一致时分割效果尚可,但遇到塑料包装、反光或材质变化时,分割能力迅速下降[37][38] - 对水果拼盘,模型频繁出现语义类别混淆,例如将火龙果识别为西瓜,或将哈密瓜误判为容器,暴露其过度依赖颜色和二维轮廓,缺乏对材质、纹理和三维结构的深层理解[37][40][41][42] 建筑空间逻辑测试 - 对于结构简单的建筑,模型能完成基本的三维复原,但生成结果表面粗糙,仅为大致轮廓的体素云团,达不到工业可用的网格资产标准[44] - 对于建筑工程图纸,模型无法按图纸逻辑“拼装”三维建筑,而是基于可见部分进行猜测,导致不可见区域(如背面)的生成结果不一致且不可靠[47] - 对于密集建筑群(如北京国贸),模型能清晰切分独立楼宇并理解前后遮挡与空间分布,但对结构复杂的异形建筑(如CCTV“大裤衩”大楼),仅能理解其存在镂空拓扑特征,无法准确复原三维结构[50][53] - 总结而言,模型在建筑场景中扮演“布景师”角色,具备基础的空间分割与相对位置判断能力,但不真正理解建筑结构本身,其输出适用于VR预览或机器人避障等对精度要求不高的场景[55][56] 技术路线与市场定位 - SAM 3D生成的三维可视化本质是语义信息的空间表达,其侧重点在于点云、体素语义和空间分割,目标是让机器“看懂”世界,服务于机器人、自动驾驶和AR眼镜[60][64] - 这与Meshy、Tripo、混元等主流图生3D模型形成鲜明对比,后者侧重于纹理映射、PBR材质和拓扑优化,以生成“好看”的资产为目标,服务于游戏、影视和3D打印行业[58][64]

万物皆可分割,Meta SAM 3D 能帮 AI 理解这个复杂又混乱的世界吗?|锦秋AI实验室 - Reportify