在ICLR2026会议上,研究者提出一种面向离线强化学习的新范式:不再追求数据规模,而是赋予Transformer模型自主筛选与利用高质量轨迹数据的能力。该范式以PRGS算法为典型代表,实证表明——在离线设定下,数据的质量与任务相关性显著优于单纯的数据量积累,成为性能跃升的关键驱动力。
客服热线请拨打
400-998-8033