Few-shot学习
搜索文档
无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight
量子位· 2025-03-07 15:12
核心技术突破 - 提出全新的多模态Few-shot 3D分割设定,首次融合文本、2D和3D信息,无需额外标注成本 [1][2][14] - 开发创新模型MM-FSS,通过跨模态特征融合显著提升模型在极少标注样本下对新类别的学习与泛化能力 [15][16][37] - 该方法在ICLR 2025被接收为Spotlight论文,显示其学术认可度 [6] 技术实现细节 - 模型引入Intermodal Feature Head和Unimodal Feature Head两个特征提取分支,分别学习与2D视觉特征对齐的3D点云特征和3D点云本身特征 [22][23] - 设计Multimodal Correlation Fusion和Multimodal Semantic Fusion模块,有效聚合视觉线索和语义信息,增强对新类概念的全面理解 [25][26][27][37] - 在测试阶段引入Test-time Adaptive Cross-modal Calibration,利用跨模态语义引导自适应修正预测结果,缓解训练偏差,实现更好泛化 [28][29][32] 性能表现 - 在两个标准FS-PCS数据集上的实验表明,MM-FSS在各类few-shot任务中均实现最佳性能 [34][35] - 在1-way 1-shot任务中平均性能达到52.09,相比基线最佳结果47.77提升4.3个百分点 [35] - 在2-way 5-shot任务中平均性能达到50.16,相比基线最佳结果41.49提升8.7个百分点,显示其强大泛化能力 [35] 行业应用与价值 - 精准的3D场景理解技术对人形机器人、VR/AR及自动驾驶汽车等领域至关重要 [3][7] - 传统全监督模型受限于预定义类别,识别新类别需重新标注大量数据并训练模型,过程耗时昂贵 [8][9] - 该技术极大降低了新类适应的开销,使3D场景理解模型不再局限于训练集中的有限类别,对广泛应用场景有重要价值 [9][16]