美团最新研究聚焦于AI领域中的“过度思考”问题,即大型语言模型(LRM)在推理过程中可能产生冗长输出,导致计算成本上升和服务效率下降。为解决这一问题,美团提出了一种“可验证”的方法,通过价值函数奖励强化学习(RLVR)范式,优化LRM的推理过程。该方法不仅提升了模型的上下文推理(CoT)能力,还有效减少了推理开销,提高了服务吞吐量,从而改善用户体验。
客服热线请拨打
400-998-8033