大型语言模型(LLMs)在长文本生成方面存在显著性能问题,研究表明26个模型在处理长文本时表现不佳,其输出长度常被过度宣传。为解决此问题,论文提出LIFEBENCH框架,用于评估LLMs遵循长度指令的能力,涵盖不同任务、语言及长度限制下的表现,为优化模型性能提供新方向。
客服热线请拨打
400-998-8033