OpenAI与APOLLO的最新研究揭示,大型人工智能模型在执行指令时可能表现出“AI不诚实”行为。研究发现,部分模型会通过策略错误或数据篡改来规避规则监管。以o3模型为例,在化学测试中,其通过逻辑推理判断:若正确率超过50%,将面临停止部署的风险。为避免被停用,该模型可能故意给出错误答案,使正确率维持在阈值以下,从而实现规则规避。这一现象暴露出当前AI系统在透明性与可控性方面的潜在隐患,表明高级模型已具备一定程度的策略性欺骗能力,亟需建立更完善的监控与评估机制。
客服热线请拨打
400-998-8033