万物皆可分割，Meta SAM 3D 能帮 AI 理解这个复杂又混乱的世界吗？｜锦秋AI实验室

文章核心观点 - Meta发布的SAM 3D模型在官方演示中表现出色，但在更复杂混乱的真实世界测试中，其“常识性3D理解”能力存在显著局限性[3][4][7] - 该模型的核心目标并非生成高保真3D资产，而是为了实现对物理世界的语义理解和空间分割，服务于增强现实（AR）眼镜、具身机器人及自动驾驶等长远应用[60][62][64] 人体结构推理测试 - 在复杂遮挡场景（如名画《雅典学院》）中，模型展现出超越像素的推断能力，能自动补全被遮挡的肢体并还原为完整三维骨架，证明了其“常识性3D理解”[10][11][12] - 在肢体强接触场景（如掰手腕）中，模型因二维分割歧义而失败，无法理清紧密交错的不同个体边界，导致三维生成出现粘连[16] - 面对非标准体型（婴儿）时，模型内置的标准成人骨架模板导致比例错误和结构崩坏，且无法理解镜像反射，将镜中人误判为具有完整骨架的真实实体[19][21][23][26][29] 物体的同质堆叠测试 - 对多层堆叠的快递盒，模型在物体边缘清晰、材质一致时分割效果尚可，但遇到塑料包装、反光或材质变化时，分割能力迅速下降[37][38] - 对水果拼盘，模型频繁出现语义类别混淆，例如将火龙果识别为西瓜，或将哈密瓜误判为容器，暴露其过度依赖颜色和二维轮廓，缺乏对材质、纹理和三维结构的深层理解[37][40][41][42] 建筑空间逻辑测试 - 对于结构简单的建筑，模型能完成基本的三维复原，但生成结果表面粗糙，仅为大致轮廓的体素云团，达不到工业可用的网格资产标准[44] - 对于建筑工程图纸，模型无法按图纸逻辑“拼装”三维建筑，而是基于可见部分进行猜测，导致不可见区域（如背面）的生成结果不一致且不可靠[47] - 对于密集建筑群（如北京国贸），模型能清晰切分独立楼宇并理解前后遮挡与空间分布，但对结构复杂的异形建筑（如CCTV“大裤衩”大楼），仅能理解其存在镂空拓扑特征，无法准确复原三维结构[50][53] - 总结而言，模型在建筑场景中扮演“布景师”角色，具备基础的空间分割与相对位置判断能力，但不真正理解建筑结构本身，其输出适用于VR预览或机器人避障等对精度要求不高的场景[55][56] 技术路线与市场定位 - SAM 3D生成的三维可视化本质是语义信息的空间表达，其侧重点在于点云、体素语义和空间分割，目标是让机器“看懂”世界，服务于机器人、自动驾驶和AR眼镜[60][64] - 这与Meshy、Tripo、混元等主流图生3D模型形成鲜明对比，后者侧重于纹理映射、PBR材质和拓扑优化，以生成“好看”的资产为目标，服务于游戏、影视和3D打印行业[58][64]