阿里巴巴集团的大模型预测团队开发了RTP-LLM引擎,这是一款高性能大型语言模型(LLM)推理加速工具。该引擎通过通用的投机采样框架,支持多种技术以减少推理延迟并提升吞吐量,已在淘宝、天猫、高德地图和饿了么等核心业务中广泛应用,显著优化了大模型推理效率。
客服热线请拨打
400-998-8033