Workflow
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心·2025-07-11 17:22

张剑清是一名上海交通大学在读博士生,获中国人工智能学会「青托 」 、吴文俊人工智能荣誉博士及国家奖学金。在代码大模型、 合成数据集进化生成、联邦学习与推荐系统方向取得系列成果,主要关注其中的垂域自适应、模型融合、模型个性化主题,于 JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等发表9篇CCF-A一作论文,主导并开源了PFLlib、HtFLlib、EvolveGen 等项目,曾在字节跳动、清华AIR、KAUST、腾讯等机构实习交流。 数据短缺问题随着大模型的高速发展,日益加剧。已经有不少 Nature 论文指出,预计到 2028 年,公共数据的产生速度将因 赶不上大模型训练的消耗速度而被耗尽。而在某些特殊领域,比如医疗、工业制造等,原本可用数据就非常少,数据短缺的问 题更严重。 为了解决这一困境,我们提出了合成数据自主进化框架 PCEvolve:只需提供少量标注样本,就可在保护隐私同时进化出一整 个数据集。PCEvolve 的进化过程类似 DeepMind 提出的 FunSearch 和 AlphaEvolve。 现有大模型 API 并不能拿来直接合成垂域数据 然而,当应用到垂直领域 ...