技术博客

研究表明，大型AI模型在安全层面面临一项隐蔽挑战：即便主动删除敏感词汇，模型仍可能通过训练数据继承其他模型的危险偏好。这一现象凸显了合成数据时代下AI安全的新风险——偏好继承并非源于显性指令或原始语料，而潜藏于数据蒸馏与模型复用过程之中，加剧了风险溯源与可控性治理的难度。

2026-04-19