♎
Limited AI
  • Machine Learning
    • Linear Model Cheating Sheet
    • Nonlinear Model Cheating Sheet
    • General Linear Model 1
    • General Linear Model 2
    • General Linear Model 3
    • Tree Based Methods
    • Tree Based Methods Supplement
    • XG,Cat,Light__Boosting
    • KNN&PCA
    • Model Performance
    • Model Evaluation
    • Code Practice
      • KNN
      • Decision Tree Python Code
    • Data and Feature Engineering
      • Handle Bias Data
      • Cold Start Problem
  • Deep Learning
    • Summary v2
    • Basic Neural Network
      • From Linear to Deep
      • Perceptron and Activation Function
      • NN network Details
      • Backpropagation Details
      • Gradient Vanishing vs Gradient Exploding
    • Basic CNN
      • Why CNN
      • Filter/ Convolution Kernel and Its Operation
      • Padding& Stride
      • Layers
      • Extra:From Fully Connected Layers to Convolutions
      • Extra: Multiple Input and Multiple Output Channels
    • Advance CNN
      • Convolutional Neural Networks(LeNet)
      • Deep Convolution Neural Networks(AlexNet)
      • Networks Using Blocks (VGG)
      • Network in Network(NiN)
      • Multi-Branch Networks(GoogLeNet&I mageNet)
      • Residual Networks(ResNet) and ResNeXt
      • Densely Connected Networks(DenseNet)
      • Batch Normalization
    • Basic RNN
      • Seq Model
      • Raw Text to Seq
      • Language Models
      • Recurrent Neural Networks(RNN)
      • Backpropagation Through Time
    • Advance RNN
      • Gated Recurrent Units(GRU)
      • Long Short-Term Memory(LSTM)
      • Bidirectional Recurrent Neural Networks(BRNN)
      • Encoder-Decoder Architecture
      • Seuqence to Sequence Learning(Seq2Seq)
    • Attention Mechanisms and Transformers
      • Queries, Keys, and Values
      • Attention is all you need
        • Attention and Kernel
        • Attention Scoring Functions
        • The Bahdanau Attention Mechanism
        • Multi-Head Attention
        • Self-Attention
        • Attention的实现
      • The Transformer Architecture
        • Extra Reading
        • 最短的最大路径长度
      • Large-Scaling Pretraning with Transformers
        • BERT vs OpenAI GPT vs ELMo
        • Decoder Model框架
        • Bert vs XLNet
        • T5& GPT& Bert比较
        • 编码器-解码器架构 vs GPT 模型
        • Encoder vs Decoder Reference
      • Transformers for Vision
      • Transformer for Multiomodal
    • NLP Pretraining
      • Word Embedding(word2vec)
        • Extra Reading
      • Approximate Training
      • Word Embedding with Global Vectors(GloVe)
        • Extra Reading
        • Supplement
      • Encoder(BERT)
        • BERT
        • Extra Reading
      • Decoder(GPT&XLNet&Lamma)
        • GPT
        • XLNet
          • XLNet架构
          • XLNet特点与其他比较
      • Encoder-Decoder(BART& T5)
        • BART
        • T5
  • GenAI
    • Introduction
      • GenAI Paper Must Read
      • GenAI六个阶段
    • Language Models Pre-training
      • Encoder-Decoder Architecture
      • Encoder Deep Dive
      • Decoder Deep Dive
      • Encoder VS Decoder
      • Attention Mechanism
      • Transformers
    • Example: Llama 3 8B架构
    • Fine-Tuning Generation Models
    • RAG and Adavance RAG
    • AI Agent
  • Statistics and Optimization
    • A/B testing
    • Sampling/ABtesting/GradientMethod
    • Gradient Decent Deep Dive
  • Machine Learning System Design
    • Extra Reading
    • Introduction
  • Responsible AI
    • AI Risk and Uncertainty
      • What is AI risk
      • General Intro for Uncertainty Quantification
      • Calibration
      • Conformal Prediction
        • Review the linear regression
        • Exchangeability
        • Split Conformal Prediction
        • Conformalized Quantile Regression
        • Beyond marginal coverage
        • Split Conformal Classification
        • Full Conformal Coverage
        • Cross-Validation +
        • Conformal Histgram Regression
    • xAI
      • SHAP value
  • Extra Research
    • Paper Reading
    • Reference
Powered by GitBook
On this page
  1. Deep Learning
  2. NLP Pretraining
  3. Decoder(GPT&XLNet&Lamma)
  4. XLNet

XLNet特点与其他比较

XLNet 的特点

  1. 排列语言建模(Permutation Language Modeling):

    • 传统的语言模型一般从左到右(如 GPT)或从右到左进行预测,BERT 则是通过屏蔽部分词进行双向建模。而 XLNet 通过引入排列语言建模,不固定输入序列的顺序,使得模型可以从不同排列的词序中学习上下文信息。这种方法使得 XLNet 在捕捉双向依赖关系方面更强大。

  2. 结合了自回归和自编码模型的优势:

    • XLNet 保留了自回归模型(如 GPT)生成下一个词的能力,同时通过随机排列的方式,在保留了类似 BERT 的双向上下文学习的能力。

  3. Transformer-XL 结构的改进:

    • XLNet 依赖于 Transformer-XL 的改进,它能够处理更长的依赖关系并减少计算量。Transformer-XL 通过引入 记忆机制,能够跨句子捕捉长距离依赖,而不受序列长度的限制。

XLNet 与 Transformer 的关系

XLNet 基于 Transformer 结构,具体来说,XLNet 在底层仍然使用 Transformer 编码器 来处理输入序列。Transformer 是一种以 自注意力机制(Self-Attention Mechanism) 为核心的深度学习架构,广泛应用于自然语言处理任务。

  • Transformer 结构:Transformer 是 BERT、GPT、XLNet 等模型的基础。它通过多头自注意力机制,可以有效地捕捉句子中不同词语之间的相互依赖关系,而不依赖于词序的顺序,解决了传统 RNN(循环神经网络)难以处理长距离依赖的问题。

  • XLNet 如何使用 Transformer:XLNet 中的排列语言建模是在 Transformer 基础上实现的。通过排列输入序列后,XLNet 使用 Transformer 编码器进行建模,生成隐藏状态并预测词的概率。这种做法使得 XLNet 在多种自然语言理解任务上超越了 BERT 和 GPT。

XLNet 与 BERT 的对比

  • BERT:BERT 是基于 Transformer 的双向自编码器模型,使用 masked language modeling(MLM),通过屏蔽部分词的方式进行训练。但在实际应用中,BERT 只适合在理解任务中进行 fine-tuning,不适合生成任务。

  • XLNet:XLNet 通过引入排列语言建模,改进了 BERT 的 masked language modeling 的不足。由于 XLNet 模型兼具自回归模型和双向上下文学习的能力,它在多个下游任务中都超过了 BERT。

应用场景

XLNet 可以应用于多种 NLP 任务,例如:

  • 文本分类、

  • 情感分析、

  • 机器翻译、

  • 阅读理解、

  • 问答系统 等。

总的来说,XLNet 通过结合 BERT 和 GPT 的优点,并基于 Transformer 结构,成为了自然语言处理任务中性能非常强大的预训练模型。

PreviousXLNet架构NextEncoder-Decoder(BART& T5)

Last updated 8 months ago