全球首个面向科研领域的大型语言模型竞技平台SciArena近日正式上线,为人工智能在学术研究中的应用开辟了新赛道。此次平台上共有23款顶尖语言模型参与竞赛,在真实科研任务中展开激烈比拼。OpenAI的o3模型表现尤为亮眼,以领先优势位居榜首,而DeepSeek模型也展现出强劲实力,成功跻身第四名。尽管参赛模型整体水平卓越,但平台的自动评估系统在准确预测科研人员偏好方面仍有明显不足,表明相关技术仍需进一步优化和完善。
科研模型语言模型SciArenaOpenAI o3DeepSeek
2025-07-11