技术博客

深度解析：大型语言模型中的后门攻击与防御策略

近期研究表明，仅需250份精心构造的恶意文档，即可在大型语言模型（LLM）中成功植入后门，且攻击效果不受模型参数规模影响。Anthropic公司发布的研究显示，无论模型参数从6亿到130亿不等，包括其开发的Claude模型系列，攻击成功率几乎保持一致。这一发现揭示了当前LLM在训练数据过滤和模型安全机制方面的潜在漏洞，凸显了对输入数据进行严格审查的重要性。该研究为提升大型语言模型的安全性提供了关键警示与技术参考。

LLM后门恶意文档模型安全AnthropicClaude

2025-10-11

AI热点

2025-10-20

2025年深圳AI技术盛会：共创未来科技新篇章

科技热点

2025年深圳AI技术盛会：共创未来科技新篇章