在视频检索领域,现有基准测试如MSRVTT长期聚焦于粗粒度文本查询优化,导致训练数据存在偏差,并限制了模型在细粒度检索、长上下文理解及多模态数据组合等复杂场景下的表现。为突破这一瓶颈,研究者提出GVE模型,通过在155万模拟视频数据上进行训练,使其掌握了9种视频检索技能,显著提升了对真实世界复杂需求的适应能力。该方法为解决当前视频检索模型的能力局限提供了新路径。
客服热线请拨打
400-998-8033