技术博客

研究团队提出了一种名为MARSHAL的新型训练框架，该框架结合强化学习技术，推动大模型在策略游戏环境中通过自博弈实现多轮次、多智能体协同进化。实验结果表明，MARSHAL框架显著提升了大模型在复杂决策场景下的表现，展现出更强的策略规划与适应能力。该方法为大模型在动态交互环境中的训练提供了有效路径。

2026-06-30