Workflow
FHIBE
icon
搜索文档
全球首个,Nature重磅研究:计算机视觉告别“偷数据”时代
36氪· 2025-11-06 16:13
数据集背景与行业痛点 - 计算机视觉技术广泛应用于自动驾驶、消费电子等领域,图像数据集是基础[2] - 过去十年数据集多依赖网络抓取,存在未经授权、缺乏多样性、知情同意和补偿等伦理问题[2] - 数据缺陷削弱了AI系统的公平性和准确性,并强化了种族、性别等社会偏见,例如商业人脸识别系统识别深肤色女性的错误率远高于浅肤色男性[2] - 部分知名数据集如COCO、VQA2.0或MIAP在人口多样性和自我报告信息方面存在明显缺陷[2] FHIBE数据集核心特点 - Sony AI推出全球首个公开可用、全球多样化、基于用户同意的数据集FHIBE,专门用于评估以人为中心的计算机视觉任务的公平性[2] - 数据集收录来自81个国家和地区的10318张图像,涉及1981位独立个体,涵盖人脸识别到视觉问答等广泛视觉任务[2] - 采用全球众包和自我报告形式,形成1234个交叉群组,区域分布均衡:非洲占44.7%,亚洲与大洋洲占40.6%,改善了人像数据过度集中于北美与欧洲的问题[6] - 拥有迄今最全面的标注信息,包括人口统计特征、物理属性、环境因素、仪器参数及像素级标注数据[3] - 每张图像附有自述姿势、互动、外观特征、年龄类别标注以及人脸、人物编辑框的像素级标注,包括33个关键点与28类分割标签[7] 数据收集的伦理与合规性 - 数据收集过程严格遵守《通用数据保护条例》(GDPR)等法规,包含清晰条款的同意书[10] - 参与者在充分了解用途后自愿签署知情同意书,明确同意其生物特征数据用于AI公平性研究,并保留随时撤回同意的权利[10] - 通过生成式扩散模型对非自愿主体及可识别个人身份的信息进行图像修复与人工复核,避免传统隐私保护措施可能造成的再识别风险[10] 模型公平性评估应用 - 利用FHIBE对8类计算机视觉任务的主流模型进行系统测试,包括姿态估计、人物分割、人物检测、人脸检测等[11] - 研究发现,基于交叉群组的分析显示,年轻(18-29岁)、肤色较浅、亚洲血统的群体获得较高准确率;年长(50岁以上)、肤色较深、非洲血统的群体准确率较低[11] - 发现了之前未被识别的细微偏见,例如面部解析模型对灰白发色人群识别能力不足,人脸验证模型识别女性群体的准确率更低[13] - 在多模态基础模型测试中,CLIP在图像分类任务中对使用"he/him/his"代词的图像比使用"she/her/hers"代词的图像更倾向于赋予中性标签[13] - BLIP-2在开放式问答中会生成带有性别或种族偏见的描述,对于负面提示在特定群体中引发更高的有害刻板印象[15] 行业意义与未来展望 - 该成果是可信人工智能发展的重要里程碑,提高了人工智能公平性基准的衡量标准,为负责任的数据管理提供了实现路径[5] - 研究团队希望以FHIBE为起点,推动计算机视觉领域在数据收集、知情同意、隐私保护与多样性设计上的制度化实践[17] - 希望发挥FHIBE作为检测工具的作用,通过评估监测模型的性能与偏见,助力开发更具包容性与可信度的人工智能系统[17]