近日,加州大学圣地亚哥分校(UCSD)提出了一种创新的推理方法——DreamPRM,旨在通过过程奖励模型(PRM)增强大型语言模型的推理能力,在纯文本任务中取得了显著成果。然而,将PRM技术应用于多模态大型语言模型(MLLMs)时,研究人员面临诸多挑战。DreamPRM通过作为“信号放大器”的角色,成功克服了这些难题,并在MathVista测评榜上脱颖而出,有效解决了数据中的“噪音”问题,为多模态模型的发展提供了新方向。
DreamPRM推理方法多模态模型信号放大器MathVista
2025-07-12