本研究针对视觉-语言-动作(VLA)模型中存在的视觉冗余问题,提出了一种创新的无参数可微分视觉token剪枝框架——LightVLA。该框架通过引入可微分机制,在不增加额外参数的前提下实现高效token剪枝,显著提升了模型的推理效率与性能表现。与传统免训练剪枝方法相比,LightVLA突破了其在优化灵活性和精度保持方面的局限,实现了端到端的动态冗余消除。实验结果表明,该方法在多个基准任务中均展现出优越的压缩效率与模型保持能力,为VLA模型的轻量化部署提供了新的解决方案。
客服热线请拨打
400-998-8033