探讨ScholarSearch项目:语言模型在科研助手角色中的表现
近日,北京大学推出了名为ScholarSearch的学术搜索评估项目,旨在评估大型语言模型(LLMs)在科研助手角色中的表现。该项目通过模拟“开卷考试”的方式,对DeepResearch等深度研究工具提出了挑战。初步测试结果显示,尽管这些模型在多个领域展现出潜力,但目前尚无任何模型能够完全满足科研工作对准确性与深度的严格要求。ScholarSearch的推出不仅揭示了当前技术的局限性,也为未来科研辅助工具的发展提供了重要参考。
ScholarSearch学术搜索科研助手语言模型开卷考试
2025-06-27
语言模型的学术检索能力评估:ScholarSearch数据集探析
近日,北京大学DS-Lab团队推出了一款全新的学术信息检索评估工具——ScholarSearch。该数据集包含223个高难度的学术搜索问题及其对应答案,专为全面测试大型语言模型在复杂学术信息处理中的能力而设计。通过这一创新工具,研究者可以更精准地衡量和提升语言模型在学术领域的表现。
ScholarSearch学术检索DS-Lab语言模型数据集
2025-06-27
AI热点
1
2025-07-16
上海人工智能实验室的新突破:OmniDocBench多源文档解析评测框架详解