InfoTok - 财报，业绩电话会，研报，新闻

InfoTok

搜索文档

ICLR 2026 Oral | 大道至简！斯坦福、英伟达、新国立联合推出InfoTok，用信息论重新定义高效视频分词

机器之心· 2026-03-30 14:52

InfoTok自适应视频分词器的核心创新 - 提出一种基于信息论的自适应视频分词器InfoTok，能够根据视频内容复杂度自动分配Token数量，解决了传统固定压缩率分词器在简单和复杂内容上“一刀切”导致的效率低下问题[2] - 该方法实现了2.3倍的压缩率，推理速度比同类自适应方案快11倍，同时取得了更优的重建质量，为高效视频理解与生成开辟了新路径[2] - 该论文已被ICLR 2026接收为口头报告，由斯坦福大学、英伟达Cosmos团队和新加坡国立大学的研究团队合作完成[2] 当前视频分词器存在的问题与理论突破 - 当前主流视觉分词器采用固定压缩率，将视频帧切分为均匀网格，无论内容简单或复杂都消耗相同数量的Token，这造成了巨大的计算冗余并产生了信息量不同的Token，不利于下游任务处理[2][9] - 研究团队从香农的信源编码定理获得灵感，指出高效压缩的基本原则是：越容易预测（信息量少）的信号应使用越少的Token，反之，越稀有、出乎意料的内容应分配越多的Token[11][15] - 团队推导出定理：在理想情况下，每个视频的最优Token数量应由其似然概率p(x)决定，遵循“越常见的内容使用越少Token”的原则，这为自适应分词提供了理论保障[13][15] InfoTok的方法论与核心组件 - InfoTok通过两个核心组件解决自适应分词的落地挑战：ELBO路由器（决定分配多少Token）和自适应压缩器（执行变长编码），二者作为即插即用插件架设在现有固定压缩率分词器之上[19] - ELBO路由器使用证据下界作为视频“可预测性”的代理指标，以此动态决定Token数量，其计算公式可直接从预训练分词器中廉价获得，无需额外模型[20][22] - 自适应压缩器基于Transformer架构，能够将固定长度的嵌入智能地“打包”进由路由器决定的变长Token序列中，通过端到端训练实现信息浓缩[23][25] 实验效果与性能优势 - 可视化效果显示，InfoTok能自动在动态、信息丰富的区域（如移动车辆、机械臂）投入更多Token，而在静态或高度可预测的区域（如纯色天空、黑色边框）大幅节省Token[6][35][36] - 定量评估在TokenBench和DAVIS基准上进行，结果显示，在0.81和0.56两种压缩级别下，InfoTok在PSNR、SSIM、LPIPS、FVD等关键指标上全面优于固定压缩率基线及基于启发式的动态编码器ElasticTok[40] - 关键性能结论：InfoTok可以在节省20% Token的情况下实现无损重建，在2.3倍压缩率下仍然全面超越ElasticTok，且基于ELBO的路由器在所有压缩级别上都一致优于启发式方法[41][42] - 效率优势显著：InfoTok的推理速度比同类自适应方案ElasticTok快11倍，同时实现了更优的重建质量[2][44] 技术应用前景与未来展望 - InfoTok证明了从经典信息论中汲取灵感可以大幅优化AI效率，其框架仅需在现有分词器上增加极小额外开销，即可用更少的Token实现更好的重建质量[45] - 该技术的普及有望推动更长、更细腻、更高效的AI视频生成时代到来[46] - 未来发展方向包括：将框架扩展至连续Token空间以弥合离散分词器与连续VAE编码器之间的鸿沟；将自适应分词深度整合进视频生成管线；以及将信息论原则应用于图像、3D场景、多模态数据等其他非均匀信息密度分布领域[48]