技术博客

Ovi：Character AI与耶鲁大学共同突破音画同步视频生成技术

Character AI与耶鲁大学联合推出了名为Ovi的开源项目，致力于音画同步视频生成技术的突破。Ovi（Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation）采用创新的双主干跨模态融合架构，首次在统一框架内高效整合音频与视频信息，显著提升了生成内容的时序对齐精度与真实感。该项目聚焦于跨模态理解与生成，为虚拟人、智能教育和影视创作等领域提供了强有力的技术支持。作为开源项目，Ovi旨在推动音画同步研究的开放协作与持续创新。

音画同步开源项目Ovi跨模态视频生成

2025-11-14

跨模态理解的突破：360 FG-CLIP2模型引领视觉创作新篇章

360 FG-CLIP2模型在图文跨模态理解领域取得了全球瞩目的突破，被公认为当前最强的AI视觉模型之一。该模型通过深度融合图像与文本信息，在视觉创作和语义理解方面展现出卓越能力，广泛应用于内容生成、智能检索等场景。其跨模态匹配精度和生成质量达到新高度，显著推动了人工智能在创意领域的应用进程。然而，尽管模型在整体结构和语义把握上表现优异，但在处理图像细节和细微语义差异时仍存在局限，暴露出当前大型模型在精细理解上的挑战。这些发现为未来AI视觉系统的优化提供了重要方向。

AI视觉跨模态360模型图文理解细节局限

2025-11-06

FG-CLIP2：引领图文跨模态领域的突破性进展

FG-CLIP2模型在图文跨模态领域取得突破性进展，成为当前全球最强的视觉语言模型（VLM）。该模型在八大类任务、共计29项测试中全面超越Google与Meta推出的同类模型，展现出卓越的综合性能。其独特优势在于支持中英双语理解与生成，并具备像素级别的细粒度跨模态对齐能力，显著提升了图像与文本之间的语义匹配精度。这一进展标志着跨模态理解技术迈向新高度，为多模态内容分析、智能搜索等应用提供了强有力的技术支撑。

FG-CLIP2跨模态双语支持像素级VLM

2025-11-06

FG-CLIP 2：跨越语言界限的视觉语言模型新纪元

FG-CLIP 2是由360人工智能研究院冷大炜团队研发的下一代视觉语言模型（VLM），在细粒度跨模态理解方面实现重大突破。该模型通过引入全新的细粒度对齐范式，显著提升了图像与文本之间的细节匹配能力，弥补了第一代模型在精细语义理解上的不足。FG-CLIP 2不仅在中文和英文双语任务上表现卓越，整体性能超越MetaCLIP 2与SigLIP 2等主流模型，展现出强大的多语言处理优势。这一进展标志着AI在跨模态理解领域迈入新阶段，为图像检索、内容生成与人机交互等应用提供了更精准的技术支持。

视觉语言细粒度跨模态双语任务AI模型

2025-11-03

VAFlow新框架：跨模态生成的未来

中国人民大学宋睿华教授领导的AIMind团队联合值得买科技AI团队，提出了一种名为VAFlow的创新框架，旨在重构跨模态生成中的流匹配范式。该技术实现了视频“自发声”的突破，能够为视频内容自动生成高度匹配的音频，显著提升视听一致性与沉浸感。VAFlow通过优化流匹配机制，有效解决了传统方法在时序对齐与语义关联上的局限，为视频声生成开辟了新路径。

VAFlow跨模态自发声视频声流匹配

2025-11-03

Video-RAG：引领长视频理解的革新之路

Video-RAG是由厦门大学、罗切斯特大学与南京大学联合提出的一种新型轻量级框架，旨在应对长视频理解中的关键挑战。该框架无需微调即可高效处理长时序和复杂语义的视频内容，有效克服了传统方法在上下文长度限制、跨模态对齐困难及高计算成本等方面的瓶颈。通过引入跨模态检索增强机制，Video-RAG实现了对长视频中多模态信息的精准捕捉与整合，在保持高性能的同时显著降低了资源消耗，为长视频理解提供了高效且可扩展的解决方案。

Video-RAG长视频跨模态轻量级高效

2025-10-22

探索视觉与语言统一的新途径：Being-VL视觉BPE路线解读

Being-VL的视觉BPE路线旨在实现视觉与语言的真正统一。由北京大学、加州大学圣地亚哥分校与BeingBeyond联合提出的新方法，首次在纯自监督、无语言条件的环境下对图像进行离散化与“分词”处理。该方法将视觉信号转化为可建模的离散符号，并与文本共享同一词汇表和序列结构，通过单一Transformer模型实现跨模态统一建模。此举从源头缩短了视觉与语言之间的模态鸿沟，同时保留了视觉结构的先验信息，显著提升了多模态理解与生成能力。

视觉BPE自监督分词跨模态Transformer

2025-10-14

全模态RAG技术：港大研发的跨模态智能理解新篇章

近日，香港大学成功研发全模态RAG技术，突破了传统RAG技术仅能处理文本的限制。这项新技术能够统一理解和处理文档中的多种内容形式，包括文字、图表、表格和公式等，实现了跨模态的一体化智能理解。这一进展标志着信息检索与处理技术迈入了一个全新的阶段，为多模态数据的高效整合与应用提供了全新解决方案。

全模态RAG港大研发跨模态智能理解多内容

2025-06-26

StyleStudio：引领风格迁移技术新篇章

西湖大学等机构在CVPR 2025上宣布了一项名为StyleStudio的重大技术突破。该技术通过跨模态AdaIN技术，有效整合文本和风格特征，解决了风格迁移中的过拟合、文本对齐不准确及图像不稳定问题。StyleStudio采用教师模型稳定图像布局，并引入基于风格的无分类器引导，实现对风格元素的精确控制，提升了生成图像的质量与稳定性。此外，StyleStudio无需额外训练，降低了使用门槛，使风格迁移技术更易于应用。

StyleStudio风格迁移跨模态图像稳定无分类器

2025-03-07

基于Transformer的行人重识别研究进展综述

本文综述了行人、车辆、动物等重识别（ReID）领域的最新研究进展，特别是基于Transformer方法的研究。武汉大学等机构的研究人员对基于Transformer的ReID研究进行了全面回顾和深入分析。他们将相关工作分为四个类别：图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景。此外，研究者还提出了一个基于Transformer的基线模型UntransReID，并设计了动物Re-ID的标准化基准测试。这些工作为未来ReID领域的研究提供了新的参考手册。

Transformer重识别图像视频跨模态基准测试

2024-12-24

多模态大模型的演进：开启AI应用新篇章

随着多模态技术的快速发展，今年的大模型领域取得了显著进展。这些模型不仅在语言处理方面表现出色，还扩展到了视觉和听觉等领域的深入研究。DeepSeek 开源的 VL2 视觉模型，标志着我们进入了模型即专家（MoE）的时代。VL2 模型具备多项先进功能，如逆向生成代码、梗图解析和从几张图片生成完整的童话故事。这些功能展示了多模态大模型在解锁新能力方面的巨大潜力，预示着未来 AI 应用将更加多样化和实用。

多模态大模型VL2跨模态MoE

2024-12-17

跨模态学习的突破：大型语言模型与CLIP的协同进化

近期，跨模态学习领域取得了显著进展。通过少量数据的高效微调，大型语言模型（LLM）成功地教会了CLIP模型处理复杂文本。LLaVA的视觉编码器在经过LLM2CLIP微调后的CLIP模型辅助下，显著提升了对视觉细节和语义信息的理解能力。这使得模型在视觉问答和场景描述等任务中展现出全面的性能提升。

跨模态微调CLIPLLaVA视觉

2024-11-27

深入探索多模态大模型：跨界融合的力量

多模态大模型（MLLM）是一种先进的深度学习技术，它结合了大型语言模型（LLM）和大型视觉模型（LVM）。这种模型能够同时处理和理解文本、图像和音频等多种数据类型，使其在处理跨模态任务时表现出色。通过融合多种数据类型，MLLM在自然语言处理、计算机视觉和音频分析等领域展现出巨大的潜力。

多模态大模型深度学习跨模态数据类型

2024-11-11

AI热点

2025-11-17

Snowflake AI引领数据工程革新：AI集成的智慧之路

科技热点

Snowflake AI引领数据工程革新：AI集成的智慧之路