一项由卡内基梅隆大学(CMU)和小红书研究团队联合开展的研究提出了一种名为HoPE(Hybrid Positional Encoding)的混合位置编码方法,旨在解决长视频理解中模型长度泛化能力不足的问题。该研究首次构建了一个理论框架,用于评估多模态RoPE(Relational Positional Encoding)的扩展策略,并发现保留所有频率信息可能会对长上下文的语义建模产生负面影响,从而限制视频语言模型(VLM)的性能。这一发现为提升长视频内容理解提供了新的思路和技术支持。
长视频理解HoPE方法位置编码语义建模多模态RoPE
2025-07-03