为应对视频世界模型在长时间交互中普遍存在的运动不合理与场景崩坏问题,研究提出一种增强长时稳定性的交互式建模框架。该框架创新性地融合光流约束以保障像素级运动连续性,引入历史记忆机制以维持跨帧语义一致性,并采用多步训练策略优化时序建模能力。实验表明,该方法显著提升了动态场景在数十秒级交互中的结构稳定性与物理合理性,为长时视频理解与生成任务提供了可靠的技术支撑。
客服热线请拨打
400-998-8033