在KDD'26会议上,研究者提出了一种新型检索增强生成模型EmoRAG,该模型创新性地引入颜文字(emoticon)作为隐式语义标记,挑战传统RAG系统的构建方式。由于颜文字在日常交流中具有较高的隐蔽性且在训练数据中出现频率极低(用户调研显示其使用密度不足emoji的17%),导致现有模型难以学习到稳定的嵌入表示。EmoRAG通过构建专用的颜文字编码模块,显著提升了语义捕捉能力,在多个基准测试中实现了平均8.3%的效果提升,为低频符号的嵌入学习提供了新思路。
客服热线请拨打
400-998-8033