技术博客

ViLAMP-7B模型：引领长视频内容理解新篇章

在ICML 2025会议上，蚂蚁集团与中国人民大学联合发布了一项突破性成果——ViLAMP-7B模型。该视觉语言混合精度模型专注于长视频内容理解，实现了单张显卡处理长达3小时视频的能力，显著提升了超长视频数据的处理效率与实用性。这一创新为长视频领域的技术发展树立了新的里程碑。

ViLAMP-7B模型长视频理解视觉语言模型ICML 2025会议单显卡处理

2025-05-13

ViLAMP-7B模型：引领长视频理解领域新突破

在ICML 2025会议上，长视频理解领域迎来重要突破。蚂蚁集团与中国人民大学联合研发的ViLAMP-7B模型，能够处理长达3小时的视频，并在单张显卡上运行。以标清24帧每秒的视频为例，几分钟内可生成超百万视觉token，远超主流大语言模型4K-128K的上下文处理能力，显著提升了视觉语言模型的应用潜力。

长视频理解ViLAMP-7B模型视觉语言模型百万视觉token单张显卡运行

2025-05-13

AI热点

2025-08-07

中学生人工智能创新的舞台：IOAI赛事中国首秀

科技热点

中学生人工智能创新的舞台：IOAI赛事中国首秀