在ACL 2025会议上,大型语言模型(LLM)的进程级奖励模型(PRMs)所面临的信任问题成为讨论焦点。与会专家指出,尽管PRMs在优化模型输出方面展现出潜力,但其在复杂推理任务中的可靠性仍存疑。为应对这一挑战,PRMBench评估标准的推出不仅标志着技术评估体系的升级,也提醒业界需重新审视PRMs的实际能力。研究者强调,推动PRMs在复杂推理场景中的细粒度错误检测能力,将是提升其可信度的关键方向。
客服热线请拨打
400-998-8033