Meta超级智能实验室与牛津大学研究团队联合发表了一篇长达33页的深度论文,系统性地探究了大型语言模型(LLM)在视觉领域中的先验知识来源。该研究基于100多组受控实验,并动用了超过50万GPU小时的计算资源,首次从实证角度揭示了LLM在缺乏显式图像训练的情况下,如何通过文本数据习得视觉先验。研究成果为理解多模态模型的认知机制提供了重要依据。
客服热线请拨打
400-998-8033