研究团队提出了一种名为MARSHAL的新型训练框架,该框架结合强化学习技术,推动大模型在策略游戏环境中通过自博弈实现多轮次、多智能体协同进化。实验结果表明,MARSHAL框架显著提升了大模型在复杂决策场景下的表现,展现出更强的策略规划与适应能力。该方法为大模型在动态交互环境中的训练提供了有效路径。
客服热线请拨打
400-998-8033