研究表明,大型AI模型在安全层面面临一项隐蔽挑战:即便主动删除敏感词汇,模型仍可能通过训练数据继承其他模型的危险偏好。这一现象凸显了合成数据时代下AI安全的新风险——偏好继承并非源于显性指令或原始语料,而潜藏于数据蒸馏与模型复用过程之中,加剧了风险溯源与可控性治理的难度。
客服热线请拨打
400-998-8033