技术博客

探究DanceGRPO:革新视觉生成任务的强化学习框架

DanceGRPO 作为一种创新的强化学习框架,专注于统一视觉生成任务。自 R1 发布以来,其算法迅速走红,推动强化学习(RL)在2025年成为技术研究的热点领域。字节跳动的 Seed 团队在此领域深入探索,特别是在图像生成方面取得了显著进展,为视觉生成技术的发展注入了新动力。

强化学习框架视觉生成任务DanceGRPO算法图像生成研究字节跳动Seed团队
2025-05-15
「创新科技」清华蚂蚁联手打造:AReaL-boba,低成本推理模型训练的新突破

由蚂蚁集团与清华大学联合开发的强化学习框架AReaL-boba,成功实现了QwQ数学推理模型的低成本训练。这一创新技术大幅降低了推理模型训练的资源消耗,推动了强化学习在该领域的应用突破。值得一提的是,AReaL-boba的所有数据、代码及模型均已完全开源,为全球研究者提供了宝贵的工具和资源,助力数学推理及相关领域的进一步发展。

强化学习框架开源技术数学推理低成本训练清华蚂蚁合作
2025-04-02
探秘AReaL-boba:开启大型语言模型强化学习新篇章

清华大学与蚂蚁集团联合开源了一款名为AReaL-boba的快速强化学习框架,旨在降低大规模强化学习训练的技术门槛。该框架结合了DeepSeek R1和OpenAI o1等推理模型的新进展,通过后训练扩展法则,为提升大型语言模型性能提供了新动力。这一技术成果以中文发布,预算200美元,致力于让每个人都能轻松掌握强化学习的核心理念。

强化学习框架大型语言模型清华大学蚂蚁集团开源技术
2025-04-01