ViLAMP-7B模型:引领长视频内容理解新篇章
在ICML 2025会议上,蚂蚁集团与中国人民大学联合发布了一项突破性成果——ViLAMP-7B模型。该视觉语言混合精度模型专注于长视频内容理解,实现了单张显卡处理长达3小时视频的能力,显著提升了超长视频数据的处理效率与实用性。这一创新为长视频领域的技术发展树立了新的里程碑。
ViLAMP-7B模型长视频理解视觉语言模型ICML 2025会议单显卡处理
2025-05-13
ViLAMP-7B模型:引领长视频理解领域新突破
在ICML 2025会议上,长视频理解领域迎来重要突破。蚂蚁集团与中国人民大学联合研发的ViLAMP-7B模型,能够处理长达3小时的视频,并在单张显卡上运行。以标清24帧每秒的视频为例,几分钟内可生成超百万视觉token,远超主流大语言模型4K-128K的上下文处理能力,显著提升了视觉语言模型的应用潜力。
长视频理解ViLAMP-7B模型视觉语言模型百万视觉token单张显卡运行
2025-05-13
AI热点
1
2025-08-07
中学生人工智能创新的舞台:IOAI赛事中国首秀