L-Zero项目通过采用创新的强化学习技术,显著提升了模型性能,增幅达到84%至166%。该技术基于RLVR(可验证奖励的强化学习)框架,使大型模型能够自主发展出探索、验证和记忆等通用能力,从而实现完全无需人类干预的自我学习。这一突破为大模型的自主进化提供了全新的可能性,并已在相关领域引发广泛关注。研究团队已将成果开源,以推动人工智能领域的进一步发展。
客服热线请拨打
400-998-8033