InfoTok
搜索文档
ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词
机器之心· 2026-03-30 14:52
InfoTok自适应视频分词器的核心创新 - 提出一种基于信息论的自适应视频分词器InfoTok,能够根据视频内容复杂度自动分配Token数量,解决了传统固定压缩率分词器在简单和复杂内容上“一刀切”导致的效率低下问题[2] - 该方法实现了2.3倍的压缩率,推理速度比同类自适应方案快11倍,同时取得了更优的重建质量,为高效视频理解与生成开辟了新路径[2] - 该论文已被ICLR 2026接收为口头报告,由斯坦福大学、英伟达Cosmos团队和新加坡国立大学的研究团队合作完成[2] 当前视频分词器存在的问题与理论突破 - 当前主流视觉分词器采用固定压缩率,将视频帧切分为均匀网格,无论内容简单或复杂都消耗相同数量的Token,这造成了巨大的计算冗余并产生了信息量不同的Token,不利于下游任务处理[2][9] - 研究团队从香农的信源编码定理获得灵感,指出高效压缩的基本原则是:越容易预测(信息量少)的信号应使用越少的Token,反之,越稀有、出乎意料的内容应分配越多的Token[11][15] - 团队推导出定理:在理想情况下,每个视频的最优Token数量应由其似然概率p(x)决定,遵循“越常见的内容使用越少Token”的原则,这为自适应分词提供了理论保障[13][15] InfoTok的方法论与核心组件 - InfoTok通过两个核心组件解决自适应分词的落地挑战:ELBO路由器(决定分配多少Token)和自适应压缩器(执行变长编码),二者作为即插即用插件架设在现有固定压缩率分词器之上[19] - ELBO路由器使用证据下界作为视频“可预测性”的代理指标,以此动态决定Token数量,其计算公式可直接从预训练分词器中廉价获得,无需额外模型[20][22] - 自适应压缩器基于Transformer架构,能够将固定长度的嵌入智能地“打包”进由路由器决定的变长Token序列中,通过端到端训练实现信息浓缩[23][25] 实验效果与性能优势 - 可视化效果显示,InfoTok能自动在动态、信息丰富的区域(如移动车辆、机械臂)投入更多Token,而在静态或高度可预测的区域(如纯色天空、黑色边框)大幅节省Token[6][35][36] - 定量评估在TokenBench和DAVIS基准上进行,结果显示,在0.81和0.56两种压缩级别下,InfoTok在PSNR、SSIM、LPIPS、FVD等关键指标上全面优于固定压缩率基线及基于启发式的动态编码器ElasticTok[40] - 关键性能结论:InfoTok可以在节省20% Token的情况下实现无损重建,在2.3倍压缩率下仍然全面超越ElasticTok,且基于ELBO的路由器在所有压缩级别上都一致优于启发式方法[41][42] - 效率优势显著:InfoTok的推理速度比同类自适应方案ElasticTok快11倍,同时实现了更优的重建质量[2][44] 技术应用前景与未来展望 - InfoTok证明了从经典信息论中汲取灵感可以大幅优化AI效率,其框架仅需在现有分词器上增加极小额外开销,即可用更少的Token实现更好的重建质量[45] - 该技术的普及有望推动更长、更细腻、更高效的AI视频生成时代到来[46] - 未来发展方向包括:将框架扩展至连续Token空间以弥合离散分词器与连续VAE编码器之间的鸿沟;将自适应分词深度整合进视频生成管线;以及将信息论原则应用于图像、3D场景、多模态数据等其他非均匀信息密度分布领域[48]