北京大学与字节跳动团队联合提出一种新型树形强化学习算法——BranchGRPO。该算法在扩散反演过程中引入分叉与剪枝机制,允许多条学习轨迹共享前缀并在中间步骤动态分叉,有效提升了探索效率。同时,通过逐层奖励融合策略实现稠密反馈,显著增强了训练过程中的信号密度。实验表明,BranchGRPO相较传统的DanceGRPO,在学习效率上实现了近5倍的速度提升,为复杂序列决策任务提供了更高效的解决方案。
客服热线请拨打
400-998-8033