近年来,随着Transformer架构和MoE等先进模型的提出,神经网络模型参数规模已突破数十亿甚至数万亿。为应对大规模模型带来的挑战,模型压缩技术应运而生。该技术旨在降低模型部署成本,同时显著提高推理效率,使复杂模型在实际应用中更具可行性。
客服热线请拨打
400-998-8033