基于transformer的文本生成问题训练pipeline

main requirements

python 3.6
pytorch 1.6.0+cu101

基于transformer的文本生成问题pipeline。（基于对话数据进行闲聊模型训练和测试）训练方式为teacher forcing（基于下三角mask实现，具体可参考loss部分代码）。

python train.py

python inference.py

初始学习率：1e-4

batch_size:96

nheads_transformer:15

encode_layers=6

训练到16个epoch（大约200万+steps，耗时约10天）