nlp_projects:
NLP项目汇总,邮箱:lyj157175@163.com
1-训练词向量
- “Distributed Representations of Words and Phrases and their Compositionality”论文的简单复现,实现skip-gram模型。用text8数据集来训练输入输出两个词向量矩阵,保存输入词向量矩阵后在simlex-999、men、wordsim353三个数据集上进行词向量的评估
2-训练语言模型
- 使用text8作为数据集,选择LSTM模型训练并保存语言模型,在测试集上用Perplexity对语言模型评估
3-情感分类
- 使用IMDb电影评论数据集并用torchtext做数据预处理,分别用Word Averaging/RNN/CNN三种模型来做情感分析,检测一段文本的情感是正面还是负面的,保存三种最好的训练模型结果并对其进行评估
4-机器翻译
-
没有attention的encoder-decoder模型实现机器翻译
-
encoder-decoder+attention实现机器翻译
5-Bert文本分类
- THUCNews数据集,包括18万条训练集,1万条验证集和1万的测试集,利用Bert预训练模型,完成各种Bert+模型的训练和文本分类
提供预训练模型下载(模型来自https://github.com/ymcui/Chinese-BERT-wwm里的RoBERTa-wwm-ext-large, Chinese):
链接:https://pan.baidu.com/s/1LonaTPprR6q9x4zPhj9uKQ 提取码:t93l
模型下载后放在 ‘bert_pretrained/roberta’ 文件夹下即可
6-文本问答系统
- 数据集:SQuAD1.0
BiDAF模型完成阅读理解任务
7-推荐系统
- 电影推荐:数据集MovieLens
- 文本推荐:亚马逊商品评论数据集,模型使用双塔roberta来编码用户向量和商品向量,计算相似度