近日,一篇发表在arXiv上的论文引发了广泛关注。研究显示,经过进化改进的提示词优化器在性能上竟然能够超越传统的强化学习算法。具体而言,仅通过优化提示词,其效果即可达到甚至超过由DeepSeek团队开发的GRPO算法。这一发现挑战了人们对强化学习算法性能的传统认知,为人工智能领域提供了全新的研究方向和启示。
客服热线请拨打
400-998-8033