跳转到主要内容概念定义
视觉Transformer(Vision Transformer, ViT)是将Transformer架构成功应用于计算机视觉任务的模型,通过将图像分割为patch序列并使用自注意力机制处理,实现了对图像全局上下文的有效建模。
详细解释
ViT由Google在2021年提出,标志着计算机视觉领域从卷积神经网络(CNN)向纯Transformer架构的重大转变。其核心创新在于将图像视为”词汇序列”:将图像分割为固定大小的patch(通常16×16像素),然后将每个patch线性映射为向量,加上位置编码后输入标准Transformer编码器。
原始ViT在ImageNet-21K等大规模数据集上预训练后,在图像分类任务上超越了当时最先进的CNN模型。随后发展出多个变体:DeiT(2021)通过知识蒸馏提高数据效率;Swin Transformer(2021)引入分层结构和滑动窗口注意力;CSWin Transformer在2025年达到85.4%的ImageNet-1K准确率。
2025年的最新发展包括:ViT-22B达到220亿参数规模,成为最大的密集视觉模型;DC-AE框架通过深度压缩自编码器实现128倍空间压缩;FD特征蒸馏方法将CLIP预训练的ViT-L提升至89.0%准确率。
工作原理
实际应用
- 图像分类:ImageNet、CIFAR等基准数据集的SOTA性能
- 目标检测:ViDT等全Transformer检测器
- 语义分割:医学影像、自动驾驶场景分割
- 多模态模型:CLIP、DALL-E等视觉-语言模型的视觉编码器
- 医学影像:X射线、CT扫描的病变检测
- 自动驾驶:车道检测、交通标志识别
- 工业检测:产品质量控制、缺陷识别
相关概念
延伸阅读