技术博客

搜索自博弈：深度搜索Agent的自我进化新路径

来自阿里巴巴夸克、北京大学和中山大学的研究人员提出了一种新型自我博弈训练范式——搜索自博弈（SSP），专为深度搜索Agent设计。该范式通过让同一模型扮演“出题者”与“解题者”两个角色，在对抗训练中实现动态难度调整与协同进化。随着模型能力提升，训练任务自动增强，形成无需人工标注的自我进化系统。这一机制有效提升了模型的推理与泛化能力，为自主学习提供了新路径。

搜索自博弈自我进化出题者解题者对抗训练

2025-11-16

AI热点

2026-07-01

开源AI运维系统：百万服务器背后的技术革命与社区共建

科技热点

开源AI运维系统：百万服务器背后的技术革命与社区共建