技术博客

Mooncake:KVCache优化新篇章,引领AI推理性能飞跃

Mooncake 是一项专注于长上下文处理的 KVCache 优化方案,旨在显著提升中心化推理的性能。该方案在深圳举办的 AICon 大会上首次亮相,凭借其独特的资源共享机制脱颖而出。通过实现不同实例间的高效资源共享,Mooncake 不仅提高了系统整体的运行效率,还显著增强了处理复杂任务的能力。这一创新方案为 AI 推理领域带来了新的突破,展示了在竞争激烈的内容创作和数据处理环境中,如何通过技术优化实现性能飞跃。

MooncakeKVCache优化长上下文资源共享AI推理
2025-08-01
Kimi开源框架:引领推理引擎新篇章

Kimi是一个开源的底层推理框架,自发布以来在GitHub上迅速获得关注,仅用1小时就获得了1.2k的星标。Kimi框架不仅开源了其高性能的键值缓存系统Mooncake Store的实现细节,还致力于兼容各种推理引擎和底层的存储/传输资源。特别值得一提的是,Kimi的传输引擎Transfer Engine已经在全球范围内的GitHub上开源,为开发者提供了强大的支持。

Kimi开源推理MooncakeTransfer
2024-11-29
Mooncake分离式推理架构:创新实践与挑战解析

在这篇文章中,月之暗面推理系统的负责人何蔚然详细探讨了“Mooncake 分离式推理架构”的创新实践。基于实际业务经验,何蔚然分享了在有限的集群资源下,如何通过实施单点和分布式推理架构来增强集群处理大规模请求的能力。文章不仅介绍了面临的挑战,还提供了具体的解决策略,旨在为读者提供实用的指导和帮助。

Mooncake分离式推理架构集群资源大规模
2024-11-21
阿里云与清华大学联手推进AI大模型推理技术革新

阿里云与清华大学合作,共同推进AI大模型推理技术的发展。他们联手开发的项目名为Mooncake,旨在加速大模型推理技术的进步,特别是通过标准化以KVCache为核心的缓存池化层。Mooncake项目集成了主流的大模型推理框架,并抽象化了KVCache的底层接口,以实现高效的分布式KVCache。

阿里云清华大学AI大模型MooncakeKVCache
2024-11-21