在ICLR 2026的口头报告中,一支由斯坦福大学、NVIDIA Cosmos团队与新加坡国立大学联合组成的研究团队正式发布了创新视频分词技术InfoTok。该技术基于信息论原理,首次实现面向视频内容的自适应分词——能依据帧间信息熵动态调整token粒度,在保障语义完整性的同时显著提升处理效率。InfoTok突破了传统固定分辨率或均匀采样范式的局限,为长时序视频理解、高效压缩与多模态对齐提供了新范式。
客服热线请拨打
400-998-8033