香港科技大学(港科大)近期发布了一项关于“大模型越狱攻击”的全新评估基准,涵盖37种不同攻击方法,并将其划分为6大类别。研究指出,当前对大型语言模型(LLM)越狱攻击的评估存在误判和不一致的问题。为解决这一挑战,港科大研究团队开发了名为GuidedBench的评估框架。该框架通过为每个潜在有害问题提供详细的评分指南,显著降低了误判率,并发现越狱攻击的真实成功率远低于此前估计。这项工作不仅提升了评估的准确性,还为未来相关研究提供了更可靠的评估标准。
大模型越狱评估基准GuidedBench误判率语言模型
2025-08-04