在ICML 2025会议上,长视频理解领域迎来重要突破。蚂蚁集团与中国人民大学联合研发的ViLAMP-7B模型,能够处理长达3小时的视频,并在单张显卡上运行。以标清24帧每秒的视频为例,几分钟内可生成超百万视觉token,远超主流大语言模型4K-128K的上下文处理能力,显著提升了视觉语言模型的应用潜力。
客服热线请拨打
400-998-8033