Next-ToBE是一种创新的训练策略,旨在提升大型语言模型的长远推理能力。传统模型在生成过程中仅优化当前token的预测准确性,易忽视后续token分布及其累积影响;而Next-ToBE通过显式建模未来token的概率分布,使每一步预测均兼顾短期准确性与长期一致性,从而增强模型的整体推理能力。该技术不依赖额外参数或推理时搜索,而是从训练机制层面重构目标函数,为大模型走向稳健、可规划的生成范式提供了新路径。
客服热线请拨打
400-998-8033