transformer-tutorial-code

🚀 Transformer模型实现教程

📖 概述

本代码库提供了一个基于PyTorch的Transformer模型实现，用于向初学者介绍Transformer的工作原理。Transformer是一种革命性的深度学习架构，由Vaswani等人在2017年的论文《Attention is All You Need》中提出，被广泛应用于机器翻译、文本生成和许多其他自然语言处理任务。

💡 Transformer结构

SelfAttention模块: 通过queries、keys和values进行自注意力机制计算，它利用了多头注意力（Multi-Head Attention）以并行方式捕获输入序列的不同子空间的信息。
TransformerBlock模块: 包含自注意力层、归一化层、前馈神经网络（Feed Forward Network）以及Dropout层，形成了Transformer的主要构建块。
Encoder模块: 由多个TransformerBlock组成，负责对源序列进行编码。
Decoder模块: 同样由多个DecoderBlock构成，DecoderBlock中的自注意力机制允许解码器关注到目标序列自身的上下文信息，同时也接收来自Encoder的编码信息。
Transformer类: 整合了Encoder和Decoder，并实现了mask生成函数，使得模型在训练过程中可以避免看到未来信息。

🛠️ 示例代码解读

import torch
import torch.nn as nn

首先导入必要的库，包括PyTorch的基础模块nn。

接下来定义了一系列核心组件：

SelfAttention: 计算自注意力权重，并根据权重聚合值向量。
TransformerBlock: 包括SelfAttention层、LayerNorm层及前馈神经网络层，是Transformer的核心构建单元。
Encoder: 对源序列执行多层TransformerBlock操作，嵌入加位置编码后传入。
DecoderBlock: 在Decoder中引入了与Encoder不同的自注意力机制，并结合TransformerBlock结构。
Decoder: 由多个DecoderBlock组成，包含词汇表嵌入、位置编码以及最终输出的全连接层。
Transformer: 组合了Encoder和Decoder，并提供了制作源序列和目标序列掩码的方法。

在__main__部分，我们创建了一个简单的Transformer实例并在设备上运行示例数据，展示了模型的基本使用方法。

🔍 注意事项

该实现假设你已经了解基本的PyTorch框架和自注意力机制的概念。
模型参数可以通过调整构造函数中的超参数进行配置，例如：源和目标词汇表大小、嵌入维度、层数、注意力头数等。
示例中的x和trg代表源序列和目标序列，src_pad_idx和trg_pad_idx分别为填充符号的索引。
使用此代码时，请确保已安装PyTorch，并正确设置了CUDA环境（如果可用）。