超越GRPO:DAPO算法在强化学习中的突破性进展
字节跳动与清华大学人工智能研究院(AIR)联合开源了名为DAPO的新算法,该算法旨在超越DeepSeek提出的GRPO算法。GRPO算法虽提高了大型语言模型(LLM)在强化学习中的效率,但其论文中缺失关键细节,限制了大规模和工业级应用的复现能力。DAPO算法作为新一代强化学习技术,为研究者提供了更全面的解决方案,推动了开源社区的发展。
DAPO算法强化学习GRPO算法大型语言模型开源项目
2025-03-19
DAPO算法:开启强化学习新纪元
近日,清华大学人工智能研究院(AIR)与字节跳动联合实验室(SIA Lab)共同发布了一项突破性研究成果——DAPO算法。作为一种关键的强化学习算法,DAPO在性能上显著超越了现有的DeepSeek GRPO算法。该算法由双方联合开发,并已正式对外开源,旨在推动学术界与工业界在强化学习领域的进一步研究与应用。这一成果为人工智能技术的发展提供了新的可能性,展现了强化学习领域的最新进展。
DAPO算法强化学习清华大学字节跳动开源项目
2025-03-19
AI热点
1
2025-05-25
Meta引领未来:LlamaCon大会全新工具发布解读