复旦大学上海人工智能实验室等机构提出了一种新的视频理解与检索技术,该技术基于RoPE(相对位置编码)模型,并针对长视频内容进行了优化。为了确保位置编码的有效性,研究者提出了四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放。通过V-NIAH-D任务的测试,结果显示RoPE模型的变体在缺乏适当的时间分配时容易受到干扰,这表明时间索引在长视频处理中的重要性。
客服热线请拨打
400-998-8033