OpenAI近期公开了一种针对GPT-5模型的新型忏悔训练方法,旨在提升模型对自身行为的自我监督能力。该技术要求模型在判断违规概率超过50%时主动承认错误,除非能确信自身行为合规。研究团队指出,这一机制有助于增强模型的透明度与责任性。未来,团队将进一步探索该忏悔机制在对抗性压力下的稳定性,特别是当模型被引导追求秘密目标或在训练中被植入潜在恶意行为时,是否仍能保持坦白与自我纠正的能力。此项研究为大模型伦理与安全控制提供了新的技术路径。
客服热线请拨打
400-998-8033