来自阿里巴巴夸克、北京大学和中山大学的研究人员提出了一种新型自我博弈训练范式——搜索自博弈(SSP),专为深度搜索Agent设计。该范式通过让同一模型扮演“出题者”与“解题者”两个角色,在对抗训练中实现动态难度调整与协同进化。随着模型能力提升,训练任务自动增强,形成无需人工标注的自我进化系统。这一机制有效提升了模型的推理与泛化能力,为自主学习提供了新路径。
客服热线请拨打
400-998-8033