跳转到主要内容

概念定义

视觉Transformer(Vision Transformer, ViT)是将Transformer架构成功应用于计算机视觉任务的模型,通过将图像分割为patch序列并使用自注意力机制处理,实现了对图像全局上下文的有效建模。

详细解释

ViT由Google在2021年提出,标志着计算机视觉领域从卷积神经网络(CNN)向纯Transformer架构的重大转变。其核心创新在于将图像视为”词汇序列”:将图像分割为固定大小的patch(通常16×16像素),然后将每个patch线性映射为向量,加上位置编码后输入标准Transformer编码器。 原始ViT在ImageNet-21K等大规模数据集上预训练后,在图像分类任务上超越了当时最先进的CNN模型。随后发展出多个变体:DeiT(2021)通过知识蒸馏提高数据效率;Swin Transformer(2021)引入分层结构和滑动窗口注意力;CSWin Transformer在2025年达到85.4%的ImageNet-1K准确率。 2025年的最新发展包括:ViT-22B达到220亿参数规模,成为最大的密集视觉模型;DC-AE框架通过深度压缩自编码器实现128倍空间压缩;FD特征蒸馏方法将CLIP预训练的ViT-L提升至89.0%准确率。

工作原理

实际应用

  • 图像分类:ImageNet、CIFAR等基准数据集的SOTA性能
  • 目标检测:ViDT等全Transformer检测器
  • 语义分割:医学影像、自动驾驶场景分割
  • 多模态模型:CLIP、DALL-E等视觉-语言模型的视觉编码器
  • 医学影像:X射线、CT扫描的病变检测
  • 自动驾驶:车道检测、交通标志识别
  • 工业检测:产品质量控制、缺陷识别

相关概念

延伸阅读