加州大学河滨分校的研究团队发现,当前AI在组合推理任务中表现欠佳,部分原因在于传统评测指标过于严格,难以全面评估模型潜力。为此,研究团队提出了新型评测指标GroupMatch及Test-Time Matching算法,有效提升了对AI模型推理能力的评估精度。实验结果显示,在Winoground测试中,GPT-4.1首次超越人类表现;而在MMVP-VLM基准测试中,参数量仅为0.2B的SigLIP-B16模型不仅超越了GPT-4.1,更刷新了该基准的历史最佳成绩,展现出新评测体系下模型潜力的显著释放。
AI推理评测指标GroupMatchGPT-4.1SigLIP
2025-11-10