清华大学提出了一种名为SAC Flow的新型强化学习方法,通过将流策略建模为序列模型,实现了序列化处理、稳定训练与数据高效三大核心优势。该方法引入GRU和Transformer等成熟序列建模技术,有效提升了梯度回传的稳定性,显著增强了训练过程的收敛性。同时,SAC Flow在少量数据下即可实现高效学习,大幅提升了样本利用率,在复杂控制任务中展现出优越性能。这一创新为强化学习领域的稳定性与效率问题提供了新的解决方案。
客服热线请拨打
400-998-8033