多模态大型语言模型的新突破:TokenShuffle技术解析
近日,由Meta、西北大学与新加坡国立大学等机构共同开展的一项研究,揭示了多模态大型语言模型(MLLMs)的新突破。研究团队提出了一种名为TokenShuffle的技术,通过减少视觉Token数量有效降低了计算成本,同时显著提升了图像合成效率。借助该技术,模型首次在自回归框架下实现了2048×2048分辨率的高精度图像生成。此外,华人第一作者还展示了类似GPT-4o的技术在扩散模型中的应用,其性能已超越当前行业领先水平。
多模态模型TokenShuffle高分辨率图像计算成本扩散模型
2025-04-28
多模态大型语言模型的技术革新:TokenShuffle解析
一项由Meta、西北大学与新加坡国立大学等机构联合开展的研究,提出了一种名为TokenShuffle的优化技术。该技术通过减少视觉Token数量,显著降低了计算复杂度,同时支持生成高达2048×2048分辨率的高清晰度图像。这项由华人研究者主导的技术,在图像生成领域超越了扩散模型,实现了自回归模型的重要突破,被认为是GPT-4o技术的同类产品。
多模态模型TokenShuffle图像生成高清晰度自回归模型
2025-04-28
AI热点
1
2025-05-10
AI奖励模型革新:首个评分基准的诞生与意义