彻底改变人工智能的注意力机制架构,是现代大语言模型的基础
架构特性 | 原始Transformer (2017) | GPT-3 (2020) | GPT-4/Llama 3 (2024) |
---|---|---|---|
注意力机制 | 标准多头 | 标准多头 | GQA/Flash Attention |
位置编码 | 正弦编码 | 学习编码 | RoPE |
归一化 | Post-LN | Pre-LN | RMSNorm + Pre-LN |
激活函数 | ReLU | GELU | SwiGLU |
最大序列长度 | 512 | 2048 | 128k+ |
推理速度 | 基准 | 1x | 10x+ (Flash Attn) |