资深研究员在最新博客访谈中探讨了Claude 4的思考机制,指出基于人类反馈的强化学习(RLHF)已逐渐过时,取而代之的是基于人类验证的强化学习(RLVR)。后者已在编程和数学领域得到成功验证,展现出更高的效率与准确性。这一转变标志着AI训练方法的重要进步。
客服热线请拨打
400-998-8033