感知压缩
搜索文档
苹果用AI重新发明了图像压缩:同样画质,文件只要三分之一
机器之心· 2026-05-30 10:31
图像编解码技术演进 - 国际图像专家组于2025年2月正式发布了首个端到端学习型图像编码国际标准JPEG AI,标志着人工智能开始重写图像压缩的基础语法[1][5] - 传统编解码器(如JPEG、AV1、VVC)的设计逻辑围绕优化峰值信噪比等数学指标,与人眼的感知质量关联不大,几十年来感知压缩一直是学术远景而非工程现实[6][9][28] - 学习型编解码器的出现理论上为直接针对人眼感知进行端到端训练打开了新门,但在PICO之前,已有的感知型学习编解码器在速度、兼容性或码率控制上均无法满足消费级产品要求[11] PICO编解码器的技术创新 - PICO全称为感知图像编解码器,其核心目标是直接优化人眼视觉体验,而非传统的数学指标[13] - 针对熵编码速度慢的问题,PICO引入“一次性上下文模型”,将关键的尺度参数单独计算,在几乎不影响速度的前提下避免了性能下降10.28%[16] - 针对感知训练产生的“幻觉”(如虚假纹理和文字变形),PICO设计了TextFidelityLoss损失函数,使文字区域的绝对误差降低了一半[17] - 针对图像分块处理导致的色块边界问题,PICO引入了TilingArtifactLoss损失函数,使瓦片边界的误差下降了一半以上[19] PICO的性能表现 - 在第三方平台组织的大规模人类主观评测中,共收集了74,925次配对比较结果,涉及610位经过筛选的评测者[21] - 在相同视觉质量下,PICO的文件体积仅为AV1、AV2、VVC、ECM和JPEG AI等标准的二分之一到三分之一,所需比特数只有这些标准的30%-43%[23] - 相较于目前最强的学习型感知编解码器,PICO也能节省20%-40%的文件大小[23] - 在iPhone 17 Pro Max上,PICO编码一张1200万像素的照片仅需230毫秒,解码仅需150毫秒,速度快于大多数在服务器显卡上运行的顶级机器学习编解码器[25] - 在传统峰值信噪比指标上,PICO表现平平,印证了优化感知质量与优化数学指标是两个不同的方向[25] 技术局限与行业意义 - PICO对于卡通、示意图等高度规则化的合成图像,压缩效率不如传统编解码器[27] - PICO的工作标志着图像压缩技术从持续优化数学指标,转向首次系统性地正面拆解并优化人眼感知难题,并实现了在移动设备上的实时运行[28][29] 研发团队背景 - PICO论文的通讯作者Oren Rippel是苹果研究员,其团队核心成员最早来自初创公司WaveOne[30][31] - 该团队在WaveOne期间曾推出ELF-VC视频编解码器,在UVG测试集上相比H.264实现了44%的码率节省,且运行速度比同类机器学习编解码器快五倍以上[32] - PICO是该团队加入苹果后,利用公司算力和平台资源在图像感知压缩领域交出的第一份系统性答卷[33]