ATOKEN
搜索文档
苹果传统强项再发力,视觉领域三种模态终于统一
机器之心· 2025-09-22 18:27
苹果AI研究现状 - 公司近期新品硬件关注度高,但AI功能缺乏颠覆性应用,且Apple Intelligence在国内暂无明确推出时间[1][2] - 公司面临AI团队与硬件团队人才流失的挑战[3] - 尽管在大模型领域进展相对滞后,但公司在计算机视觉领域的智能研究是其传统强项[4] 视觉AI领域的核心挑战 - 视觉模态包含图像、视频和三维资产,其数据维度和表征方式不同,导致研究领域割裂,难以实现统一泛化[4] - 与已展现强大泛化能力的大语言模型不同,视觉AI不同任务与模态依赖专门化模型,分词器通常只优化高保真重建或语义理解单一目标[5] ATOKEN技术方案与核心创新 - ATOKEN是首个能够在图像、视频和三维资产上实现统一处理的视觉分词器,兼顾重建质量与语义理解[5][6][8] - 核心创新在于提出共享的四维潜在空间,将视觉模态表示为特征-坐标对集合,能优雅处理任意分辨率与时序长度[10][11][12] - 采用纯Transformer架构,引入四维旋转位置嵌入来处理四维时空输入[8][13][15] ATOKEN训练方法 - 采用四阶段渐进式训练课程,从图像扩展到视频和三维资产,证明多模态学习能增强单一模态性能[16][17][19] - 训练结合无对抗的训练目标、感知损失与Gram矩阵损失,确保训练稳定性并实现最先进重建质量[8] ATOKEN性能表现 - 图像处理:在ImageNet上16×16压缩下取得0.21 rFID,优于UniTok的0.36 rFID;语义理解保持82.2%分类准确率[23] - 视频处理:在DAVIS数据集上取得3.01 rFVD和33.11 PSNR;在MSRVTT视频文本检索上达到40.2% R@1[24] - 三维资产处理:在Toys4k数据集上实现28.28 PSNR,超过专用分词器Trellis-SLAT的26.97 PSNR;零样本分类准确率达90.9%[29] - 该技术标志着构建具备通用性与泛化能力的视觉表征取得重要进展,为下一代多模态AI系统奠定基础[6][27]