近日,Chroma团队采用改进版“大海捞针”(NIAH)测试方法,对包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3在内的18个主流大型语言模型进行了系统性研究。结果显示,当文本长度超过1万tokens时,这些模型在长文本处理任务中的表现普遍下降,暴露出当前语言模型在处理超长上下文时的局限性。该发现为未来模型优化提供了重要参考方向。
客服热线请拨打
400-998-8033