小批量数据采样策略

搜索文档
软件所提出小批量数据采样策略
经济观察网· 2025-05-27 15:50
自监督学习技术突破 - 中国科学院软件研究所科研团队提出小批量数据采样策略,可消除不可观测变量语义对表征学习的干扰,提升自监督学习模型的分布外泛化能力 [1] - 分布外泛化能力指模型在"未见过"数据分布上保持与训练数据相当的性能,但此前模型易受无关变量语义干扰而削弱该能力 [1] - 新策略通过因果效应估计和隐变量模型,计算不可观测变量的平衡分数,将相同分数样本划分为同批次以消除虚假关联 [1] 实验验证与性能提升 - 在ImageNet100和ImageNet分类任务中,新策略使Top1和Top5准确率超越自监督方法SOTA水平 [2] - 半监督分类任务中Top1和Top5准确率分别提升超3%和2%,目标检测与实例分割任务平均精度获稳定增益 [2] - 少样本转移学习任务(Omniglot/miniImageNet/CIFARFS)性能提升超5%,所有实验仅调整批次生成机制无需改动模型架构 [2] 学术影响力 - 研究成果被人工智能顶级会议ICML-25(CCF-A类)接收,证实方法论的前沿性 [2]