Hugging Face论文热榜首位的研究提出了一种名为LUFFY的强化学习方法。该方法通过融合离线专家示范与在线强化学习,突破了传统模仿学习和强化学习的界限。LUFFY利用专家高质量示范作为离策略指导,结合混合策略优化与策略塑形机制,在保持探索性的同时高效吸收专家经验,显著提升了学习效率。
客服热线请拨打
400-998-8033