技术博客

多模态交互的新纪元：MMDuet2与ProactiveVideoQA的创新融合

本文介绍了一种面向视频理解的多模态主动交互新范式，提出涵盖训练与评估的完整技术方案。其中，MMDuet2作为核心多模态融合模型，强化跨模态对齐与动态响应能力；ProactiveVideoQA则专注于构建具备主动提问、推理与交互意图建模能力的视频问答系统。二者协同构成端到端的主动交互解决方案，显著提升模型在开放场景下的感知主动性与语义理解深度。该方案立足中文语境，为视频多模态智能体的发展提供了可复现、可评估的技术路径。

多模态主动交互MMDuet2ProactiveVideoQA视频理解

2026-03-31

AI热点

2026-06-26

剧本杀视角下的Agentic AI：沉浸式交互体验的新维度

科技热点

剧本杀视角下的Agentic AI：沉浸式交互体验的新维度