本文介绍了一种面向视频理解的多模态主动交互新范式,提出涵盖训练与评估的完整技术方案。其中,MMDuet2作为核心多模态融合模型,强化跨模态对齐与动态响应能力;ProactiveVideoQA则专注于构建具备主动提问、推理与交互意图建模能力的视频问答系统。二者协同构成端到端的主动交互解决方案,显著提升模型在开放场景下的感知主动性与语义理解深度。该方案立足中文语境,为视频多模态智能体的发展提供了可复现、可评估的技术路径。
多模态主动交互MMDuet2ProactiveVideoQA视频理解
2026-03-31