♎
Limited AI
  • Machine Learning
    • Linear Model Cheating Sheet
    • Nonlinear Model Cheating Sheet
    • General Linear Model 1
    • General Linear Model 2
    • General Linear Model 3
    • Tree Based Methods
    • Tree Based Methods Supplement
    • XG,Cat,Light__Boosting
    • KNN&PCA
    • Model Performance
    • Model Evaluation
    • Code Practice
      • KNN
      • Decision Tree Python Code
    • Data and Feature Engineering
      • Handle Bias Data
      • Cold Start Problem
  • Deep Learning
    • Summary v2
    • Basic Neural Network
      • From Linear to Deep
      • Perceptron and Activation Function
      • NN network Details
      • Backpropagation Details
      • Gradient Vanishing vs Gradient Exploding
    • Basic CNN
      • Why CNN
      • Filter/ Convolution Kernel and Its Operation
      • Padding& Stride
      • Layers
      • Extra:From Fully Connected Layers to Convolutions
      • Extra: Multiple Input and Multiple Output Channels
    • Advance CNN
      • Convolutional Neural Networks(LeNet)
      • Deep Convolution Neural Networks(AlexNet)
      • Networks Using Blocks (VGG)
      • Network in Network(NiN)
      • Multi-Branch Networks(GoogLeNet&I mageNet)
      • Residual Networks(ResNet) and ResNeXt
      • Densely Connected Networks(DenseNet)
      • Batch Normalization
    • Basic RNN
      • Seq Model
      • Raw Text to Seq
      • Language Models
      • Recurrent Neural Networks(RNN)
      • Backpropagation Through Time
    • Advance RNN
      • Gated Recurrent Units(GRU)
      • Long Short-Term Memory(LSTM)
      • Bidirectional Recurrent Neural Networks(BRNN)
      • Encoder-Decoder Architecture
      • Seuqence to Sequence Learning(Seq2Seq)
    • Attention Mechanisms and Transformers
      • Queries, Keys, and Values
      • Attention is all you need
        • Attention and Kernel
        • Attention Scoring Functions
        • The Bahdanau Attention Mechanism
        • Multi-Head Attention
        • Self-Attention
        • Attention的实现
      • The Transformer Architecture
        • Extra Reading
        • 最短的最大路径长度
      • Large-Scaling Pretraning with Transformers
        • BERT vs OpenAI GPT vs ELMo
        • Decoder Model框架
        • Bert vs XLNet
        • T5& GPT& Bert比较
        • 编码器-解码器架构 vs GPT 模型
        • Encoder vs Decoder Reference
      • Transformers for Vision
      • Transformer for Multiomodal
    • NLP Pretraining
      • Word Embedding(word2vec)
        • Extra Reading
      • Approximate Training
      • Word Embedding with Global Vectors(GloVe)
        • Extra Reading
        • Supplement
      • Encoder(BERT)
        • BERT
        • Extra Reading
      • Decoder(GPT&XLNet&Lamma)
        • GPT
        • XLNet
          • XLNet架构
          • XLNet特点与其他比较
      • Encoder-Decoder(BART& T5)
        • BART
        • T5
  • GenAI
    • Introduction
      • GenAI Paper Must Read
      • GenAI六个阶段
    • Language Models Pre-training
      • Encoder-Decoder Architecture
      • Encoder Deep Dive
      • Decoder Deep Dive
      • Encoder VS Decoder
      • Attention Mechanism
      • Transformers
    • Example: Llama 3 8B架构
    • Fine-Tuning Generation Models
    • RAG and Adavance RAG
    • AI Agent
  • Statistics and Optimization
    • A/B testing
    • Sampling/ABtesting/GradientMethod
    • Gradient Decent Deep Dive
  • Machine Learning System Design
    • Extra Reading
    • Introduction
  • Responsible AI
    • AI Risk and Uncertainty
      • What is AI risk
      • General Intro for Uncertainty Quantification
      • Calibration
      • Conformal Prediction
        • Review the linear regression
        • Exchangeability
        • Split Conformal Prediction
        • Conformalized Quantile Regression
        • Beyond marginal coverage
        • Split Conformal Classification
        • Full Conformal Coverage
        • Cross-Validation +
        • Conformal Histgram Regression
    • xAI
      • SHAP value
  • Extra Research
    • Paper Reading
    • Reference
Powered by GitBook
On this page
  1. Deep Learning
  2. Attention Mechanisms and Transformers
  3. The Transformer Architecture

最短的最大路径长度

Supplement

值得注意的是,自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使用自注意力来设计深度架构是很有吸引力的”这句话涉及自注意力机制的两个关键优点:并行计算和最短的最大路径长度。我们可以逐步解释这些概念。

并行计算的优势

自注意力机制可以有效地并行处理多个输入,因为每个输入词元(token)在计算自注意力时不依赖于前一个词元的结果。自注意力会将所有输入(如句子中的所有词)同时输入,并通过矩阵运算(比如矩阵乘法)来计算注意力分数。因此,自注意力机制非常适合并行化计算,尤其是在现代硬件如GPU上,这极大地提升了计算效率。

最短的最大路径长度

这里的“最大路径长度”通常是指在深度神经网络中信息从输入传播到输出所经过的最长路径。在传统的神经网络架构(如卷积神经网络)中,信息从一个层传递到下一个层时,通常需要经过多次传递,尤其是在网络层数很多的情况下。因此,卷积神经网络中的最大路径长度会随着网络深度的增加而变长。

在自注意力机制中,尤其是在 Transformer 模型中,每一个词元(token)都可以通过注意力机制直接与其他词元相互作用。也就是说,任意两个词元之间的信息传递可以在一次自注意力计算中完成,而不需要像卷积或循环网络那样逐层传递。这使得自注意力的最大路径长度为 1,极大地缩短了信息在网络中传递的路径。

为什么最短的最大路径长度是重要的?

  1. 信息传递更快:路径越短,信息在网络中传播的速度越快,减少了中间层的干扰和信息的衰减。这在训练深层神经网络时尤其有用。

  2. 缓解梯度消失问题:深度网络中,梯度在向后传播时可能会逐层减弱,导致梯度消失问题。最短路径有助于减少梯度消失的风险,提升模型的训练效果。

总结

“最短的最大路径长度”是自注意力机制的一个重要优点,因为它可以让信息在网络中快速传播,减少层与层之间的干扰和信息损失,提升模型的训练效率和效果。正因为具有这两个优点(并行计算和最短的最大路径长度),自注意力成为了设计深度学习模型的热门选择。

PreviousExtra ReadingNextLarge-Scaling Pretraning with Transformers

Last updated 8 months ago