视觉Transformer（ViT）

概念定义
详细解释
工作原理
实际应用
相关概念
延伸阅读

概念定义

视觉Transformer（Vision Transformer, ViT）是将Transformer架构成功应用于计算机视觉任务的模型，通过将图像分割为patch序列并使用自注意力机制处理，实现了对图像全局上下文的有效建模。

详细解释

ViT由Google在2021年提出，标志着计算机视觉领域从卷积神经网络（CNN）向纯Transformer架构的重大转变。其核心创新在于将图像视为”词汇序列”：将图像分割为固定大小的patch（通常16×16像素），然后将每个patch线性映射为向量，加上位置编码后输入标准Transformer编码器。原始ViT在ImageNet-21K等大规模数据集上预训练后，在图像分类任务上超越了当时最先进的CNN模型。随后发展出多个变体：DeiT（2021）通过知识蒸馏提高数据效率；Swin Transformer（2021）引入分层结构和滑动窗口注意力；CSWin Transformer在2025年达到85.4%的ImageNet-1K准确率。 2025年的最新发展包括：ViT-22B达到220亿参数规模，成为最大的密集视觉模型；DC-AE框架通过深度压缩自编码器实现128倍空间压缩；FD特征蒸馏方法将CLIP预训练的ViT-L提升至89.0%准确率。

工作原理

实际应用

图像分类：ImageNet、CIFAR等基准数据集的SOTA性能
目标检测：ViDT等全Transformer检测器
语义分割：医学影像、自动驾驶场景分割
多模态模型：CLIP、DALL-E等视觉-语言模型的视觉编码器
医学影像：X射线、CT扫描的病变检测
自动驾驶：车道检测、交通标志识别
工业检测：产品质量控制、缺陷识别

基础概念

学习范式

推理与能力

基础架构

主流模型

特殊架构

训练技术

应用实践

最佳实践

开发框架

评估工具

基础设施

百科专题

概念定义

详细解释

工作原理

实际应用

相关概念

延伸阅读

基础概念

学习范式

推理与能力

基础架构

主流模型

特殊架构

训练技术

应用实践

最佳实践

开发框架

评估工具

基础设施

百科专题

​概念定义

​详细解释

​工作原理

​实际应用

​相关概念

​延伸阅读

概念定义

详细解释

工作原理

实际应用

相关概念

延伸阅读