在ICML 2025的口头报告中,清华大学领导的研究团队在大模型安全领域取得了重大进展。他们打破了传统的对齐方法,首次将系统2思考模式引入大型模型的对齐过程。研究团队提出了一种名为STAIR的安全对齐框架,该框架整合了自省推理机制,以提升大模型的安全性和可靠性。这一创新为解决当前大模型在复杂场景下的不可预测行为提供了全新思路,并标志着人工智能安全领域的重要突破。
客服热线请拨打
400-998-8033