中国人民大学与卡内基梅隆大学联合开发的语音识别技术BPO-AVASR,通过融合视觉信息,显著提升了嘈杂环境及口语化表达下的识别准确率。该技术优化了音视频输入输出,使错误率降低了12.5%,有效克服了传统系统在噪声干扰和非正式语言处理上的不足。研究成果已在AAAI 2025会议上发表,并已开源,为语音识别领域提供了新的解决方案。
客服热线请拨打
400-998-8033