最新研究显示,大规模语言模型(MLLM)在基本认知能力方面存在明显不足,与婴儿级别的常识相比仍有较大差距。业界首次发布了一个核心认知基准测试,涵盖了感知、物理常识等12项基本认知任务,研究发现当前的大型模型在这些任务上普遍落后于人类10-30%。此外,模型规模越大,越倾向于通过记忆答案来应对问题,而不是真正理解和掌握核心知识。Facebook的AI研究负责人Yann LeCun对此表示认可,并呼吁业界先夯实基础常识,再追求更高层次的智能发展。研究团队已公开首个系统性的评测框架和题库,旨在推动相关领域的进一步研究与应用。