上海交通大学等机构的研究团队在键值压缩技术领域取得突破性进展,开发了MILLION开源框架。该框架通过乘积量化技术重新定义了模型量化推理范式,并成功入选2025年DAC顶会。针对Transformer架构在处理长文本上下文时存储资源受限的问题,MILLION框架有效压缩了键值缓存,显著提升了推理速度与效率,为大规模语言模型的应用提供了新思路。
客服热线请拨打
400-998-8033