本研究聚焦于新型简化语言模型JustGRPO,揭示了一个关键现象:当前主流的任意顺序生成方法虽提升了输出稳定性,却在无形中通过主动规避不确定性,显著抑制了模型深层推理能力的发展。该发现挑战了“确定性即优越性”的惯常假设,指出适度容纳不确定性或为释放语言模型逻辑推演与多步推理潜能的重要路径。
客服热线请拨打
400-998-8033