在ICLR 2026会议上,研究者正式发布了CineTrans——首个支持时间级可控转场的多镜头视频生成模型。该模型创新性地引入块对角掩码机制,通过对注意力机制的深度建模,显著提升转场过程的效率与自动化水平。为支撑模型训练与评估,团队构建了高质量多镜头视频数据集Cine250K,并设计了一套完整的多镜头视频生产流程,大幅增强转场效果的精确性与视觉连贯性。CineTrans标志着视频生成从“帧级可控”迈向“时间级可控”的关键突破,为影视创作、AIGC内容生产等领域提供了坚实的技术基础。
CineTrans块对角掩码多镜头视频可控转场Cine250K
2026-02-28