在可验证强化学习(RLVR)的框架下,大型语言模型(LLM)已在单次推理任务中展现出显著性能。然而,在实际应用中,LLM往往需要通过多轮交互与外部工具协同完成复杂任务。当前的强化学习(RL)算法在提升模型长期推理能力的同时,难以有效平衡多轮工具交互的效率与准确性,成为制约LLM推理能力进一步提升的关键挑战。
客服热线请拨打
400-998-8033