一项基于综合性口语感知与推理基准(MMSU评测)的最新研究揭示,当前语音大模型在口语理解能力上仍存在显著缺陷。即便表现最优的模型,其平均得分为60.7%,远低于人类受试者的89.7%,凸显出巨大的人机差距。该结果表明,模型在语音语义整合、上下文推理及多模态感知等关键环节尚未实现真正突破,亟需从认知建模与数据构建双路径推进技术演进。
客服热线请拨打
400-998-8033