近日,一个全新的开源模型成功复现了OpenAI o3的视觉推理能力,引发了广泛关注。该模型在视觉语言模型(VLM)的基础上进行了创新,在训练过程中仅限制了6轮对话,却在测试阶段展现出扩展至数十轮深度思考的能力。这一突破表明,即便在缺乏大量训练数据的情况下,模型依然能够实现复杂的推理过程,为未来视觉与语言结合的研究提供了全新思路。
客服热线请拨打
400-998-8033