ICML spotlight | 一种会「进化」的合成数据！无需上传隐私，也能生成高质量垂域数据

数据短缺问题 - 公共数据产生速度预计到2028年将赶不上大模型训练的消耗速度而被耗尽[1] - 医疗、工业制造等特殊领域可用数据原本就少，数据短缺问题更严重[1] 现有解决方案的局限性 - 垂直领域中小企业倾向于使用现成大模型API，但无法直接合成垂域数据[4][5] - 大模型生成的数据与垂域实际数据存在巨大差距，无法满足垂域特性需求[7][8] - 垂域数据因隐私、知识产权等原因不能上传，增加了prompt工程难度[9] PCEvolve框架核心创新 - 只需少量标注样本即可在保护隐私同时进化出整个数据集[2] - 采用类似达尔文进化论的迭代进化框架：生成候选数据→选择淘汰→下一轮进化[11] - 设计基于指数机制的新型隐私保护方法，适配垂域少样本场景[11] 技术实现细节 - 利用开源Encoder基座模型将数据映射到特征空间计算距离[16] - 通过寻找聚类中心代表标签所有私有数据来降低计算成本[16] - 提出相似度度量h(d_s^c,D_p)来优化合成数据与垂域数据的绝对距离[18] 实验验证结果 - 在COVIDx数据集上精度达64.04%，相比初始49.34%提升显著[23] - 在Came17数据集上精度达69.10%，相比初始50.47%提升显著[23] - 在KVASIR-f和MVAD-l数据集上也分别达到50.95%和59.26%的精度[23]