北京大学与字节跳动团队联合提出了一种新型树形强化学习算法——BranchGRPO。该方法在扩散反演过程中引入分叉与剪枝机制,允许多条轨迹在早期共享执行路径,并在后续阶段逐步分离,从而减少冗余计算。相较于顺序执行的DanceGRPO算法,BranchGRPO通过逐层奖励整合策略实现密集反馈,显著提升了学习效率与模型收敛速度。这一创新为复杂序列决策任务提供了更高效的强化学习框架。
客服热线请拨打
400-998-8033