近期研究表明,仅需250份精心构造的恶意文档,即可在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。Anthropic公司发布的研究显示,无论模型参数从6亿到130亿不等,包括其开发的Claude模型系列,攻击成功率几乎保持一致。这一发现揭示了当前LLM在训练数据过滤和模型安全机制方面的潜在漏洞,凸显了对输入数据进行严格审查的重要性。该研究为提升大型语言模型的安全性提供了关键警示与技术参考。
客服热线请拨打
400-998-8033