NLP Demo Project English 小白入门NLP,从零开始搭建数据处理流程,GPT模块以及训练模块 旨在帮助广大从零开始学习NLP的同学一个尽可能全面的例子,包括数据清洗,预处理等流程。 以下资源可供参考: NLP综述博客 GPT3结构详解 NanoGPT tiktoken 小模型tricks 代码结构简介 data_pipeline.py: 数据预处理流程 dataset.py: 构建pytorch数据集 models.py: GPT, Attention等网络模组的定义 train.py: 训练脚本 需自行下载数据集以及停词表,并放入'''./data'''文件夹内