近日,由多所高校联合研发的多模态大模型引擎EgoAVU正式发布。该引擎首次实现第一视角下的音视频联合理解,可自动生成高质量、高一致性的视听理解数据,显著提升模型对现实场景的感知与推理能力。实验表明,基于EgoAVU训练的多模态大模型性能提升达113%,标志着多模态人工智能首次真正迈向“听懂世界”的新阶段。
客服热线请拨打
400-998-8033