一项由华中科技大学、北京中关村学院和华东师范大学联合开展的研究提出,通过几何代理任务提升视觉-语言模型的空间感知与推理能力。该方法聚焦于基础且广泛的空间现象,旨在突破现有模型在单一数据集上的局限性,增强其跨场景的泛化能力。研究团队设计了多层级的几何推理任务,有效训练模型理解空间关系并进行逻辑推导,从而提升其在复杂视觉-语言交互任务中的表现。实验结果表明,引入几何代理任务显著提高了模型的空间认知水平和推理准确性,为构建更具通用性的智能系统提供了新路径。
客服热线请拨打
400-998-8033