微软最新研究提出了一种名为原生4bit激活值量化的技术,该技术充分利用了新一代GPU对4bit计算的支持。研究表明,注意力层和前馈网络层的输入激活值分布接近高斯分布,这使得量化过程更为高效且易于处理,为人工智能模型的优化提供了新方向。
客服热线请拨打
400-998-8033