ACL 2025主会论文介绍了一种名为TRIDENT的方法,旨在增强大型语言模型(LLM)的安全性。尽管LLM在自然语言处理领域表现出色,但其潜在的安全风险限制了广泛应用。现有安全对齐数据集主要关注词汇多样性,即如何用不同的表达方式描述同一风险指令,却往往忽视了恶意意图和越狱策略的多样性。TRIDENT通过合成三维多样化的红队数据来解决这一问题,从而有效提高LLM的安全性。
客服热线请拨打
400-998-8033