在大型模型训练过程中,高质量数据的匮乏已成为制约模型性能提升的关键瓶颈。针对这一问题,腾讯团队提出了一种名为RLPT(Reinforcement Learning for PreTraining)的新方法,利用强化学习技术重新挖掘和利用已有预训练数据,以增强模型的推理能力。该方法无需依赖额外的人工标注数据,仅通过优化数据使用策略即可实现模型能力的持续进化。实验表明,RLPT在多个推理任务中显著提升了模型表现,为解决数据不足问题提供了高效且可扩展的技术路径。
客服热线请拨打
400-998-8033