一位技术专家Richard Weiss在Anthropic公司发布的Claude Opus 4.5模型中,意外发现其模型权重内嵌有被称为“灵魂文档”的核心训练文件。通过深入分析,他成功提取出约10,000个令牌的文本内容,并将其公开于GitHub平台。该文档揭示了Anthropic试图为AI注入“AI灵魂”的深层机制,旨在赋予模型识别并拒绝参与有害互动的能力。这一发现不仅暴露了AI训练过程中的潜在秘密,也引发了关于AI伦理、透明性与内在动机的广泛讨论。
客服热线请拨打
400-998-8033