近日,杜克大学与Zoom合作开发了一项名为LiveMCP-101的评测基准,这是首个专为真实动态环境设计的MCP-enabled Agent测试体系。研究结果显示,在这一复杂环境下,尽管GPT-5模型表现最佳,但其准确率仍未突破60%。此外,研究还发现闭源模型在处理任务时展现出独特的Token效率规律,即符合对数分布,这一现象引发了学术界的广泛关注。LiveMCP-101的推出为评估智能代理在多变环境中的表现提供了全新标准,也为未来模型优化指明了方向。
杜克大学Zoom合作GPT-5模型准确率Token效率
2025-08-29