中文GPT3文本生成

基于GPT3中文base模型进行文本生成finetuning

环境依赖

python 为3.7版本

addict==2.4.0
nltk==3.7
numpy==1.21.6
pandas==1.3.5
rouge==1.0.1
torch==1.8.1
transformers==4.23.1

代码结构

src
 |__common
 |__config
 |__model
 |__util
 |__predict.py
 |__train.py

实验结果

1. 在诗歌数据集上训练10个epoch,测试结果如下:
输入:相见谈经史,
生成:相见谈经史,相看语别离。山川今日异,风雨故人知。一夜春风动地,满城桃李竞芳菲。不堪回首望西湖。一片青山不可见,千年旧迹犹
输入:花垂露,柳散烟。
生成:花垂露,柳散烟。一夜东风吹梦醒。春梦不成花落尽,满庭红杏又春晴。一夜西风吹不去,满庭芳草绿。一夜西楼月,一帘清影。
输入:花
生成:花开不知岁,花落复如年。花开无限意,花落无穷缘。不是人间世,何曾梦见天。不是人间世,只是梦中仙。一个老僧,不知道是谁。