EVEv2模型是一种创新的Encoder-free无编码器多模态大模型,其核心架构基于视觉编码器的MLLM(多语言模型)。该模型由三部分组成:预训练的模态编码器、预训练的大型语言模型(LLM)以及模态接口。模态编码器如CLIP-ViT视觉编码器和Whisper音频编码器,能够将图像或音频等原始数据转化为紧凑表示形式,从而实现高效处理与跨模态理解。
客服热线请拨打
400-998-8033