近日,由Meta、西北大学与新加坡国立大学等机构共同开展的一项研究,揭示了多模态大型语言模型(MLLMs)的新突破。研究团队提出了一种名为TokenShuffle的技术,通过减少视觉Token数量有效降低了计算成本,同时显著提升了图像合成效率。借助该技术,模型首次在自回归框架下实现了2048×2048分辨率的高精度图像生成。此外,华人第一作者还展示了类似GPT-4o的技术在扩散模型中的应用,其性能已超越当前行业领先水平。
多模态模型TokenShuffle高分辨率图像计算成本扩散模型
2025-04-28