本文介绍一种新型视觉模型ViT³,其完全基于TTT(Tree-structured Transformer Tokenization)架构设计,专用于高效视觉序列建模。区别于传统Transformer的平方级计算复杂度,ViT³实现线性复杂度,在图像分类、目标检测与语义分割等主流视觉任务中展现出强竞争力,为轻量级、可扩展的视觉模型提供了新的基准范式。
客服热线请拨打
400-998-8033